Ollama con Llama 3.2 en Docker

Tiempo de lectura: 2 minutos

Hoy vamos a ejecutar el nuevo modelo de llama 3.2 en Docker utilizando Ollama.

Llama - Pexels

Lo primero que haremos es crear este docker-compose.yml

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ./models:/root/.ollama  # Montar carpeta local en el contenedor

Vamos a utilizar el puerto por defecto 11434.

Ahora tendremos que lanzar el comando:

docker compose up -d

Y tendremos desplegado ollama en el contenedor Docker.

Ahora para descargar y ejecutar el modelo llama 3.2 usaremos el siguiente comando:

docker exec -it ollama ollama run llama3.2:1b

Una vez descargado ya podemos usarlo, el modelo 1b es el modelo más libiano de llama 3.2 y nos permite ejecutarlo con 2GB de RAM y sin uso de GPU.

Aquí podemos ver los modelos disponibles: https://ollama.com/library

También tenemos otras opciones como por ejemplo, podemos habilitar el uso de GPU con Docker:

Primero tenemos que instalar NVIDIA Container Toolkit: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation

O también con AMD. https://hub.docker.com/r/ollama/ollama

*Más adelante crearé otro tutorial explicando los modelos más avanzados que comparten GPU.

Comandos:

Ejecutar llama:

ollama run llama3.2:1b

Documentación de la API: https://github.com/ollama/ollama/blob/main/docs/api.md

Lanzar una pregunta:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:1b",
  "stream": false,
  "prompt": "Hola, quién eres?"
}'

Si quieres añadir autenticación aquí te explico cómo:

https://devcodelight.com/anadir-autenticacion-en-nginx-proxy-manager-para-tus-dominios

1 comentario en «Ollama con Llama 3.2 en Docker»

Deja un comentario