Con estos parámetros podemos mejorar la llamada a Ollama desde una petición.

Principales parámetros para mejorar la eficiencia:
- Reducir
num_predict: Este controla la cantidad de tokens generados en la respuesta. Reducirlo (por ejemplo, de 100 a 50) podría acelerar la respuesta si no necesitas una salida extensa.
"num_predict": 50
top_kytop_p: Reducir estos valores puede hacer que el modelo explore menos opciones en cada paso. Esto puede reducir el tiempo de respuesta, aunque también puede hacer la generación menos variada.
"top_k": 10, "top_p": 0.8
num_batch: Si lo incrementas, permite que el modelo procese más tokens a la vez, aunque usa más memoria. Dependiendo de tu hardware, puedes probar un valor como4en lugar de2.
"num_batch": 4
- Ajustar
num_thread: Configura este valor según los núcleos de tu CPU. Un ajuste adecuado ayuda a maximizar el rendimiento. Puedes probar el número máximo de núcleos disponibles o reducir ligeramente según tu carga.
"num_thread": 12 // Ajustado al hardware
- Activar
f16_kv: Mantenerf16_kventruepermite el uso de precisión reducida (float16), que reduce el uso de memoria y puede acelerar la generación en GPUs que lo soportan. - Reducir
num_ctx: Si no necesitas tanto contexto (por ejemplo, 1024), puedes bajarlo a 512. Esto ahorra memoria y tiempo de procesamiento.
"num_ctx": 512
Ejemplo de Configuración Optimizada:
{
"model": "llama3.2",
"prompt": "Why is the sky blue?",
"stream": true, // Permite recibir la respuesta en tiempo real
"options": {
"num_predict": 50,
"top_k": 10,
"top_p": 0.8,
"temperature": 0.7, // Mantiene cierta creatividad pero más controlada
"num_batch": 4,
"num_thread": 12, // Ajustado al hardware
"f16_kv": true,
"num_ctx": 512,
"penalize_newline": true
}
}
Prueba estas configuraciones y verifica si la generación es más rápida y eficiente en tu hardware.

Ingeniero en Informática, Investigador, me encanta crear cosas o arreglarlas y darles una nueva vida. Escritor y poeta. Más de 20 APPs publicadas y un libro en Amazon.