Utilizar vLLM con Docker para desplegar nuestros modelos llm en producción

Tiempo de lectura: 2 minutosEs un servidor inferencial optimizado (usa paged attention) que soporta modelos como Llama 3, Mistral, Gemma, Phi, Qwen, etc. Ofrece una API OpenAI-compatible, perfecta para integrarse fácilmente. Vamos a crear el docker compose que nos permitirá desplegarlo: Archivo: docker-compose.yml Cómo usarlo Probar que funciona Deberías recibir una respuesta tipo JSON del modelo. Si queremos acceder … Leer más








