Con estos parámetros podemos mejorar la llamada a Ollama desde una petición.
Principales parámetros para mejorar la eficiencia:
- Reducir
num_predict
: Este controla la cantidad de tokens generados en la respuesta. Reducirlo (por ejemplo, de 100 a 50) podría acelerar la respuesta si no necesitas una salida extensa.
"num_predict": 50
top_k
ytop_p
: Reducir estos valores puede hacer que el modelo explore menos opciones en cada paso. Esto puede reducir el tiempo de respuesta, aunque también puede hacer la generación menos variada.
"top_k": 10, "top_p": 0.8
num_batch
: Si lo incrementas, permite que el modelo procese más tokens a la vez, aunque usa más memoria. Dependiendo de tu hardware, puedes probar un valor como4
en lugar de2
.
"num_batch": 4
- Ajustar
num_thread
: Configura este valor según los núcleos de tu CPU. Un ajuste adecuado ayuda a maximizar el rendimiento. Puedes probar el número máximo de núcleos disponibles o reducir ligeramente según tu carga.
"num_thread": 12 // Ajustado al hardware
- Activar
f16_kv
: Mantenerf16_kv
entrue
permite el uso de precisión reducida (float16), que reduce el uso de memoria y puede acelerar la generación en GPUs que lo soportan. - Reducir
num_ctx
: Si no necesitas tanto contexto (por ejemplo, 1024), puedes bajarlo a 512. Esto ahorra memoria y tiempo de procesamiento.
"num_ctx": 512
Ejemplo de Configuración Optimizada:
{ "model": "llama3.2", "prompt": "Why is the sky blue?", "stream": true, // Permite recibir la respuesta en tiempo real "options": { "num_predict": 50, "top_k": 10, "top_p": 0.8, "temperature": 0.7, // Mantiene cierta creatividad pero más controlada "num_batch": 4, "num_thread": 12, // Ajustado al hardware "f16_kv": true, "num_ctx": 512, "penalize_newline": true } }
Prueba estas configuraciones y verifica si la generación es más rápida y eficiente en tu hardware.
Ingeniero en Informática, me encanta crear cosas o arreglarlas y darles una nueva vida. Escritor y poeta. Más de 20 APPs publicadas y un libro en Amazon.