Tu IA, en tu servidor: qué es Ollama y por qué importa en Argentina
Correr un modelo de lenguaje en tu propia infraestructura ya no requiere un equipo de ML ni un presupuesto enterprise. Lo que existe hoy, cómo funciona y qué hardware necesitás.
El dato que cambia la ecuación
Cada prompt que le enviás a ChatGPT o a cualquier IA en la nube viaja a servidores en Estados Unidos. Para la mayoría de los usos eso no importa. Pero en sectores como salud, derecho, finanzas o cualquier empresa con datos sensibles de clientes, esa arquitectura tiene implicancias regulatorias y de confidencialidad concretas.
La alternativa existe desde hace tiempo. En 2026 ya es práctica.
Qué es Ollama
Ollama es una herramienta open source que permite descargar y correr modelos de lenguaje directamente en tu servidor o computadora, sin conexión a servicios externos. Los modelos se ejecutan localmente: los datos no salen de tu infraestructura.
Algunos modelos disponibles que funcionan bien en hardware modesto:
| Modelo | Parámetros | RAM mínima | Uso recomendado |
|---|---|---|---|
| Llama 3.2 | 3B | 4 GB | Resúmenes, clasificación, Q&A |
| Mistral 7B | 7B | 8 GB | Redacción, análisis de texto |
| Qwen 2.5 | 14B | 16 GB | Razonamiento, tareas complejas |
Fuente: documentación oficial de cada modelo en Ollama Library.
Lo que no te dicen
Los modelos locales tienen limitaciones reales versus los modelos más grandes en la nube: menor capacidad de razonamiento complejo, sin acceso a información actualizada, y requieren hardware dedicado para respuestas rápidas.
La decisión correcta depende del caso de uso. Para tareas repetitivas y acotadas —clasificar tickets de soporte, resumir documentos internos, responder preguntas sobre una base de conocimiento propia— un modelo local de 7B parámetros puede ser suficiente y mucho más conveniente.
Hardware mínimo para empezar
Una PC con GPU dedicada de 8 GB VRAM (una RTX 3060 o equivalente, conseguible en el mercado usado argentino) es suficiente para correr modelos de 7B con tiempos de respuesta aceptables. Para uso de producción con varios usuarios simultáneos, se necesita más.
Qué hacemos en Ultima Milla
Implementamos infraestructura de IA local para organizaciones que necesitan mantener sus datos dentro de su red. Si el caso de uso aplica a tu empresa, consultanos.