Paperless-ngx en escuelas tecnicas: legajos, OCR y permisos
Caso anonimizado para ordenar legajos escolares con Paperless-ngx: consumo, OCR, PostgreSQL, permisos, backup y prueba de baja.
Antes, cada legajo viajaba en una carpeta manila; despues, cada PDF tuvo fecha, alumno, tipo y permiso. En una escuela tecnica agrotecnica del este provincial, certificados, autorizaciones y practicas llegan escaneados, fotografiados o impresos. Paperless-ngx 2.20.15 ordena consumo, OCR, etiquetas y busqueda. Este caso muestra donde vive cada archivo, quien lo lee y como se prueba una baja con evidencia diaria.
Donde se pierde el legajo antes de buscarlo
La cifra que corrige el habito viene del release: Paperless-ngx 2.20.15 fue publicado el 27 de abril de 2026. En un archivo escolar, la version importa porque define contenedores, dependencias, cambios de seguridad y tareas de consumo que corren sobre documentos sensibles.
Un legajo sin permiso escrito viaja mas rapido que la autorizacion que deberia cuidarlo.
La escala del software abierto da contexto: Octoverse 2025 informo mas de 180 millones de desarrolladores y 630 millones de repositorios. Una escuela tecnica de Mendoza baja esa escala a fichas medicas, DNI, permisos de salida, practicas y actas. Cada archivo necesita dueño, vencimiento y salida.
El scanner que mezclaba alumnos y anos
El antagonista es el scanner compartido que deja archivos llamados scan_001.pdf en una carpeta comun. La directora ve un archivador metalico con etiquetas escritas a mano y un lector de codigo de barras pegado con cinta al mostrador. El problema operativo aparece cuando preceptoria encuentra un PDF, pero desconoce alumno, curso, autorizacion y fecha.
El README oficial define a Paperless-ngx como un sistema de gestion documental que vuelve buscables documentos fisicos. La configuracion permite PostgreSQL mediante PAPERLESS_DBHOST, Redis para tareas y OCR con OCRmyPDF/Tesseract. La administracion documenta exporter, importer, sanity checker, indice de busqueda y backup.
Como funciona por dentro
El flujo minimo tiene siete pasos. Primero, mesa de entradas escanea o sube certificado, autorizacion, nota o constancia. Segundo, el consumidor de Paperless-ngx toma el archivo desde la carpeta de entrada. Tercero, OCRmyPDF y Tesseract leen imagenes y crean texto buscable; Tesseract puede generar PDF con capa de texto. Cuarto, PostgreSQL guarda metadatos, correspondents, tags, tipos, usuarios y permisos. Quinto, el volumen media guarda original, miniatura y archivo PDF/A. Sexto, Redis mueve tareas de OCR, indice y consumo. Septimo, el exporter genera respaldo y el importer prueba recuperacion.
Paperless-ngx recibe PDFs e imagenes y entrega busqueda, etiquetas, permisos y documentos archivados. PostgreSQL recibe registros estructurados y entrega consultas por alumno, fecha y tipo. El volumen media recibe archivos grandes. Redis recibe trabajos en cola. El permiso separa carga, lectura por curso, edicion de etiquetas, borrado y administracion. Si falla OCR, el documento queda visible pero dificil de buscar. Si falla media, la ficha aparece en la base y no abre.
Que se instala o configura primero
La pila inicial usa Paperless-ngx 2.20.15, PostgreSQL 18, Redis, OCR en espanol, volumen media, HTTPS, grupos por rol, backup con exporter y prueba de importer. El piloto cuesta entre USD 1.000 y USD 3.200, entre ARS 1,42 y ARS 4,54 millones al dolar vendedor oficial de $1.419 informado por Bluelytics. Incluye 300 documentos, cuatro perfiles, etiquetas y recuperacion.
El plazo va de tres a cinco semanas. UMSA suele pedir un entregable verificable: lote de legajos, nomenclatura, permisos por curso, busqueda por DNI, archivo de autorizacion vencida, export completo y restauracion en otro host. El costo no incluye escaneo masivo historico, destruccion documental ni dictamen sobre guarda legal.
La primera prueba conviene hacerla con diez alumnos y cuatro tipos de documento. Preceptoria carga, secretaria corrige etiqueta, direccion lee todo, un docente consulta solo su curso y un usuario externo queda fuera. La baja se prueba retirando un permiso vencido y dejando auditoria.
La segunda prueba revisa retencion. Un documento se marca con fecha de vencimiento, responsable y motivo de baja. El archivo queda oculto para lectura comun, visible para direccion y presente en el export. Si el importer lo recupera con la misma etiqueta y el mismo permiso, el circuito sirve para auditoria interna.
Donde se rompe y como probarlo
Primer riesgo: OCR con idioma equivocado. La senal aparece cuando nombres, acentos o numeros de DNI quedan mal reconocidos. La prueba carga documentos reales, revisa texto y ajusta PAPERLESS_OCR_LANGUAGE. Segundo riesgo: un grupo con permiso de borrado. La senal es un usuario de lectura que elimina archivos. La prueba intenta borrar con perfil docente y exige rechazo.
Tercer riesgo: backup sin media. La senal aparece cuando el importer recupera registros y abre miniaturas rotas. La prueba exporta, borra entorno de ensayo, importa y abre diez archivos. Cuarto riesgo: consumo duplicado. La senal es el mismo certificado asociado a dos alumnos. La prueba revisa hash, fuzzy match y regla de nombres. El archivo escolar sirve cuando muestra alumno, documento, fecha y responsable.
Quinto riesgo: busqueda que encuentra demasiado. La senal aparece cuando una palabra del OCR trae fichas medicas y actas sin separar. La prueba crea dos etiquetas sensibles, dos grupos y una consulta por rol. Direccion ve ambos grupos; preceptoria ve solo el curso asignado; un docente recibe cero resultados fuera de su alcance.