Tu IA, en tu servidor: qué es Ollama y por qué importa en Argentina

Correr un modelo de lenguaje en tu propia infraestructura ya no requiere un equipo de ML ni un presupuesto enterprise. Lo que existe hoy, cómo funciona y qué hardware necesitás.

ULTIMA MILLA

22 de abr de 2026 · 4 min de lectura

Tu IA, en tu servidor: qué es Ollama y por qué importa en Argentina

El dato que cambia la ecuación

Cada prompt que le enviás a ChatGPT o a cualquier IA en la nube viaja a servidores en Estados Unidos. Para la mayoría de los usos eso no importa. Pero en sectores como salud, derecho, finanzas o cualquier empresa con datos sensibles de clientes, esa arquitectura tiene implicancias regulatorias y de confidencialidad concretas.

La alternativa existe desde hace tiempo. En 2026 ya es práctica.

Qué es Ollama

Ollama es una herramienta open source que permite descargar y correr modelos de lenguaje directamente en tu servidor o computadora, sin conexión a servicios externos. Los modelos se ejecutan localmente: los datos no salen de tu infraestructura.

Algunos modelos disponibles que funcionan bien en hardware modesto:

Modelo	Parámetros	RAM mínima	Uso recomendado
Llama 3.2	3B	4 GB	Resúmenes, clasificación, Q&A
Mistral 7B	7B	8 GB	Redacción, análisis de texto
Qwen 2.5	14B	16 GB	Razonamiento, tareas complejas

Fuente: documentación oficial de cada modelo en Ollama Library.

Lo que no te dicen

Los modelos locales tienen limitaciones reales versus los modelos más grandes en la nube: menor capacidad de razonamiento complejo, sin acceso a información actualizada, y requieren hardware dedicado para respuestas rápidas.

La decisión correcta depende del caso de uso. Para tareas repetitivas y acotadas —clasificar tickets de soporte, resumir documentos internos, responder preguntas sobre una base de conocimiento propia— un modelo local de 7B parámetros puede ser suficiente y mucho más conveniente.

Hardware mínimo para empezar

Una PC con GPU dedicada de 8 GB VRAM (una RTX 3060 o equivalente, conseguible en el mercado usado argentino) es suficiente para correr modelos de 7B con tiempos de respuesta aceptables. Para uso de producción con varios usuarios simultáneos, se necesita más.

Qué hacemos en Ultima Milla

Implementamos infraestructura de IA local para organizaciones que necesitan mantener sus datos dentro de su red. Si el caso de uso aplica a tu empresa, consultanos.

#ia#ollama#llm#open-source#infraestructura