Hoy vamos a ejecutar el nuevo modelo de llama 3.2 en Docker utilizando Ollama.
Lo primero que haremos es crear este docker-compose.yml
services: ollama: image: ollama/ollama container_name: ollama restart: unless-stopped ports: - "11434:11434" volumes: - ./models:/root/.ollama # Montar carpeta local en el contenedor
Vamos a utilizar el puerto por defecto 11434.
Ahora tendremos que lanzar el comando:
docker compose up -d
Y tendremos desplegado ollama en el contenedor Docker.
Ahora para descargar y ejecutar el modelo llama 3.2 usaremos el siguiente comando:
docker exec -it ollama ollama run llama3.2:1b
Una vez descargado ya podemos usarlo, el modelo 1b es el modelo más libiano de llama 3.2 y nos permite ejecutarlo con 2GB de RAM y sin uso de GPU.
Aquí podemos ver los modelos disponibles: https://ollama.com/library
También tenemos otras opciones como por ejemplo, podemos habilitar el uso de GPU con Docker:
Primero tenemos que instalar NVIDIA Container Toolkit: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation
O también con AMD. https://hub.docker.com/r/ollama/ollama
*Más adelante crearé otro tutorial explicando los modelos más avanzados que comparten GPU.
Comandos:
Ejecutar llama:
ollama run llama3.2:1b
Documentación de la API: https://github.com/ollama/ollama/blob/main/docs/api.md
Lanzar una pregunta:
curl http://localhost:11434/api/generate -d '{ "model": "llama3.2:1b", "stream": false, "prompt": "Hola, quién eres?" }'
Si quieres añadir autenticación aquí te explico cómo:
https://devcodelight.com/anadir-autenticacion-en-nginx-proxy-manager-para-tus-dominios
1 comentario en «Ollama con Llama 3.2 en Docker»