Paperless-ngx en escuelas tecnicas: legajos, OCR y permisos

Caso anonimizado para ordenar legajos escolares con Paperless-ngx: consumo, OCR, PostgreSQL, permisos, backup y prueba de baja.

UM

ULTIMA MILLA

18 de may de 2026 · 4 min de lectura


Paperless-ngx en escuelas tecnicas: legajos, OCR y permisos

Antes, cada legajo viajaba en una carpeta manila; despues, cada PDF tuvo fecha, alumno, tipo y permiso. En una escuela tecnica agrotecnica del este provincial, certificados, autorizaciones y practicas llegan escaneados, fotografiados o impresos. Paperless-ngx 2.20.15 ordena consumo, OCR, etiquetas y busqueda. Este caso muestra donde vive cada archivo, quien lo lee y como se prueba una baja con evidencia diaria.

Donde se pierde el legajo antes de buscarlo

La cifra que corrige el habito viene del release: Paperless-ngx 2.20.15 fue publicado el 27 de abril de 2026. En un archivo escolar, la version importa porque define contenedores, dependencias, cambios de seguridad y tareas de consumo que corren sobre documentos sensibles.

Un legajo sin permiso escrito viaja mas rapido que la autorizacion que deberia cuidarlo.

La escala del software abierto da contexto: Octoverse 2025 informo mas de 180 millones de desarrolladores y 630 millones de repositorios. Una escuela tecnica de Mendoza baja esa escala a fichas medicas, DNI, permisos de salida, practicas y actas. Cada archivo necesita dueño, vencimiento y salida.

El scanner que mezclaba alumnos y anos

El antagonista es el scanner compartido que deja archivos llamados scan_001.pdf en una carpeta comun. La directora ve un archivador metalico con etiquetas escritas a mano y un lector de codigo de barras pegado con cinta al mostrador. El problema operativo aparece cuando preceptoria encuentra un PDF, pero desconoce alumno, curso, autorizacion y fecha.

El README oficial define a Paperless-ngx como un sistema de gestion documental que vuelve buscables documentos fisicos. La configuracion permite PostgreSQL mediante PAPERLESS_DBHOST, Redis para tareas y OCR con OCRmyPDF/Tesseract. La administracion documenta exporter, importer, sanity checker, indice de busqueda y backup.

Como funciona por dentro

El flujo minimo tiene siete pasos. Primero, mesa de entradas escanea o sube certificado, autorizacion, nota o constancia. Segundo, el consumidor de Paperless-ngx toma el archivo desde la carpeta de entrada. Tercero, OCRmyPDF y Tesseract leen imagenes y crean texto buscable; Tesseract puede generar PDF con capa de texto. Cuarto, PostgreSQL guarda metadatos, correspondents, tags, tipos, usuarios y permisos. Quinto, el volumen media guarda original, miniatura y archivo PDF/A. Sexto, Redis mueve tareas de OCR, indice y consumo. Septimo, el exporter genera respaldo y el importer prueba recuperacion.

Paperless-ngx recibe PDFs e imagenes y entrega busqueda, etiquetas, permisos y documentos archivados. PostgreSQL recibe registros estructurados y entrega consultas por alumno, fecha y tipo. El volumen media recibe archivos grandes. Redis recibe trabajos en cola. El permiso separa carga, lectura por curso, edicion de etiquetas, borrado y administracion. Si falla OCR, el documento queda visible pero dificil de buscar. Si falla media, la ficha aparece en la base y no abre.

Que se instala o configura primero

La pila inicial usa Paperless-ngx 2.20.15, PostgreSQL 18, Redis, OCR en espanol, volumen media, HTTPS, grupos por rol, backup con exporter y prueba de importer. El piloto cuesta entre USD 1.000 y USD 3.200, entre ARS 1,42 y ARS 4,54 millones al dolar vendedor oficial de $1.419 informado por Bluelytics. Incluye 300 documentos, cuatro perfiles, etiquetas y recuperacion.

El plazo va de tres a cinco semanas. UMSA suele pedir un entregable verificable: lote de legajos, nomenclatura, permisos por curso, busqueda por DNI, archivo de autorizacion vencida, export completo y restauracion en otro host. El costo no incluye escaneo masivo historico, destruccion documental ni dictamen sobre guarda legal.

La primera prueba conviene hacerla con diez alumnos y cuatro tipos de documento. Preceptoria carga, secretaria corrige etiqueta, direccion lee todo, un docente consulta solo su curso y un usuario externo queda fuera. La baja se prueba retirando un permiso vencido y dejando auditoria.

La segunda prueba revisa retencion. Un documento se marca con fecha de vencimiento, responsable y motivo de baja. El archivo queda oculto para lectura comun, visible para direccion y presente en el export. Si el importer lo recupera con la misma etiqueta y el mismo permiso, el circuito sirve para auditoria interna.

Donde se rompe y como probarlo

Primer riesgo: OCR con idioma equivocado. La senal aparece cuando nombres, acentos o numeros de DNI quedan mal reconocidos. La prueba carga documentos reales, revisa texto y ajusta PAPERLESS_OCR_LANGUAGE. Segundo riesgo: un grupo con permiso de borrado. La senal es un usuario de lectura que elimina archivos. La prueba intenta borrar con perfil docente y exige rechazo.

Tercer riesgo: backup sin media. La senal aparece cuando el importer recupera registros y abre miniaturas rotas. La prueba exporta, borra entorno de ensayo, importa y abre diez archivos. Cuarto riesgo: consumo duplicado. La senal es el mismo certificado asociado a dos alumnos. La prueba revisa hash, fuzzy match y regla de nombres. El archivo escolar sirve cuando muestra alumno, documento, fecha y responsable.

Quinto riesgo: busqueda que encuentra demasiado. La senal aparece cuando una palabra del OCR trae fichas medicas y actas sin separar. La prueba crea dos etiquetas sensibles, dos grupos y una consulta por rol. Direccion ve ambos grupos; preceptoria ve solo el curso asignado; un docente recibe cero resultados fuera de su alcance.

Para seguir leyendo

#mendoza#paperless-ngx#postgresql#pymes-ar