mmc
← proyectos

Extracción de datos de facturas con OCR + LLMs

Reduje ~2 minutos por factura en el procesamiento de ~70k facturas mensuales con OCR y extracción, normalización y homogeneización impulsadas por LLM.

rol
Product Manager
año
2024
Descubrimiento de productoPRDOCRLLMsNormalización de datosAutomatización

Cada mesa de AP tiene un formato de factura distinto, y casi ninguno habla el mismo idioma. El trabajo fue construir la capa de extracción y normalización que convierte una pila de PDFs de proveedores en registros limpios y comparables, sin obligar al equipo a vigilarla.

Qué se entregó

  • Un pipeline de extracción con OCR + LLM ajustado por portafolio de clientes, con reglas de parseo específicas por industria.
  • Una capa de normalización y homogeneización para que los formatos de cada proveedor colapsaran a una misma forma de registro comparable.
  • Trabajo de discovery y PRD con ingeniería para llevar el pipeline al flujo de AP existente.

Resultado

  • ~2 minutos ahorrados por factura sobre un volumen de ~70k facturas al mes.
  • Los formatos específicos de cada proveedor dejaron de bloquear al equipo: los datos ya llegaban limpios a la etapa de revisión.