Idioma
Volver a todas las guías
Infraestructura local

Ollama

Runtime local para descargar y ejecutar LLMs sin depender de la nube.

Resumen

¿Qué es?

Ollama es un runtime de codigo abierto que simplifica la ejecucion local de modelos de lenguaje. Gestiona descargas, pesos y configuracion de GPU/CPU con un solo comando (por ejemplo, "ollama run llama3"), permitiendote correr LLMs en tu laptop o servidores propios sin enviar datos a la nube. Es la capa estandar para IA local porque convierte tareas complejas de MLOps en una experiencia de instalacion simple.

A favor

Ventajas

  • Privacidad completa: los datos permanecen en tu maquina o servidor, sin pasar por APIs externas.
  • Costo cero por token: tras descargar el modelo lo usas ilimitadamente sin facturas de API, solo hardware/energia.
  • Facilidad de uso: abstrae la gestion de pesos y configuracion de hardware en comandos simples.
  • Flexibilidad: cambia de modelo (Llama 3, Mistral, Gemma, DeepSeek, Qwen) editando una linea o comando.
  • Ecosistema abierto: permite integrar LLMs locales en productos o POCs sin bloqueo de proveedor.
A revisar

Desventajas

  • Requiere hardware potente (RAM y GPU dedicada o Apple Silicon) para obtener buen rendimiento.
  • Menor concurrencia que la nube: una instancia local se satura con muchos usuarios simultaneos.
  • Implica operar la infraestructura (actualizaciones, temperatura, uptime) en lugar de delegarlo a un proveedor.
  • Muchas builds son cuantizadas para caber en hardware comun, con ligera perdida de calidad frente a modelos fp16.
Casos de uso

Funciona mejor para

  • Probar y desarrollar aplicaciones RAG en local sin gastar en tokens de API.
  • Entregar versiones on-premise para clientes que no pueden enviar datos a la nube.
  • Experimentar y comparar rapidamente distintos LLMs cambiando una linea de configuracion.
  • Construir asistentes internos con maxima privacidad, donde los datos sensibles no deben salir de la red.
Fuentes

Enlaces recomendados