Parámetros para optimizar llamadas a Ollama

Tiempo de lectura: 2 minutos

Con estos parámetros podemos mejorar la llamada a Ollama desde una petición.

Llama - Pexels

Principales parámetros para mejorar la eficiencia:

  1. Reducir num_predict: Este controla la cantidad de tokens generados en la respuesta. Reducirlo (por ejemplo, de 100 a 50) podría acelerar la respuesta si no necesitas una salida extensa.
   "num_predict": 50
  1. top_k y top_p: Reducir estos valores puede hacer que el modelo explore menos opciones en cada paso. Esto puede reducir el tiempo de respuesta, aunque también puede hacer la generación menos variada.
   "top_k": 10,
   "top_p": 0.8
  1. num_batch: Si lo incrementas, permite que el modelo procese más tokens a la vez, aunque usa más memoria. Dependiendo de tu hardware, puedes probar un valor como 4 en lugar de 2.
   "num_batch": 4
  1. Ajustar num_thread: Configura este valor según los núcleos de tu CPU. Un ajuste adecuado ayuda a maximizar el rendimiento. Puedes probar el número máximo de núcleos disponibles o reducir ligeramente según tu carga.
   "num_thread": 12  // Ajustado al hardware
  1. Activar f16_kv: Mantener f16_kv en true permite el uso de precisión reducida (float16), que reduce el uso de memoria y puede acelerar la generación en GPUs que lo soportan.
  2. Reducir num_ctx: Si no necesitas tanto contexto (por ejemplo, 1024), puedes bajarlo a 512. Esto ahorra memoria y tiempo de procesamiento.
   "num_ctx": 512

Ejemplo de Configuración Optimizada:

{
  "model": "llama3.2",
  "prompt": "Why is the sky blue?",
  "stream": true,  // Permite recibir la respuesta en tiempo real
  "options": {
    "num_predict": 50,
    "top_k": 10,
    "top_p": 0.8,
    "temperature": 0.7,  // Mantiene cierta creatividad pero más controlada
    "num_batch": 4,
    "num_thread": 12,     // Ajustado al hardware
    "f16_kv": true,
    "num_ctx": 512,
    "penalize_newline": true
  }
}

Prueba estas configuraciones y verifica si la generación es más rápida y eficiente en tu hardware.

Deja un comentario