Hoy vamos a ejecutar el nuevo modelo de llama 3.2 en Docker utilizando Ollama.

Lo primero que haremos es crear este docker-compose.yml
services: ollama: image: ollama/ollama container_name: ollama restart: unless-stopped ports: - "11434:11434" volumes: - ./models:/root/.ollama # Montar carpeta local en el contenedor
Vamos a utilizar el puerto por defecto 11434.
Ahora tendremos que lanzar el comando:
docker compose up -d
Y tendremos desplegado ollama en el contenedor Docker.
Ahora para descargar y ejecutar el modelo llama 3.2 usaremos el siguiente comando:
docker exec -it ollama ollama run llama3.2:1b

Una vez descargado ya podemos usarlo, el modelo 1b es el modelo más libiano de llama 3.2 y nos permite ejecutarlo con 2GB de RAM y sin uso de GPU.
Aquí podemos ver los modelos disponibles: https://ollama.com/library
También tenemos otras opciones como por ejemplo, podemos habilitar el uso de GPU con Docker:
Primero tenemos que instalar NVIDIA Container Toolkit: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation
O también con AMD. https://hub.docker.com/r/ollama/ollama
*Más adelante crearé otro tutorial explicando los modelos más avanzados que comparten GPU.
Comandos:
Ejecutar llama:
ollama run llama3.2:1b
Documentación de la API: https://github.com/ollama/ollama/blob/main/docs/api.md
Lanzar una pregunta:
curl http://localhost:11434/api/generate -d '{ "model": "llama3.2:1b", "stream": false, "prompt": "Hola, quién eres?" }'
Si quieres añadir autenticación aquí te explico cómo:
https://devcodelight.com/anadir-autenticacion-en-nginx-proxy-manager-para-tus-dominios
Si necesitas acceso a la GPU mediante Docker: https://devcodelight.com/anadir-gpu-en-docker-para-ollama-u-otros-servicios/
Y si quieres mostrar el chat mediante una interfaz web: https://devcodelight.com/mostrar-una-interfaz-web-de-chat-usando-open-webui-para-llama-3-2-o-cualquier-modelo-compatible-con-ollama-usando-docker-compose/

1 comentario en «Ollama con Llama 3.2 en Docker»