Uno de los grandes retos que encontramos en la industrialización del procesado de documentos en grandes empresas es el hecho de que los documentos, la mayoría de las veces, carecen de estructura.
El estado del arte tecnológico (a través de OCRs e IA) permite tratar documentos estructurados como facturas con una tasa de éxito bastante alta. Nuestra experiencia nos enseña que con un dataset de aproximadamente 500-600 facturas con 10-15 tipos de diseño y formatos distintos se puede lograr una precisión superior al 90%.
¿Pero qué pasa con los documentos no estructurados?
Con uno de nuestros últimos clientes (sector energético) hemos conseguido un nivel de automatización en la extracción de información de documentos no estructurados muy alta. Se trata de documentos, en apariencia, estructurados. Son documentos con información técnica sobre determinados productos químicos donde se debe respetar una información obligatoria por ley y una cierta estructura similar.
El caso de uso era de libro: procesar el documento, extraer la información (55 campos) y comprobar que esa información es correcta. Este proceso (lectura, extracción, comprobación y input en sistemas) supone aproximadamente 180 minutos de un perfil técnico con experiencia de más de 8 años (perfil con salarios altos).
La metodología aplicada (similar a la que utilizamos en el procesado de documentación hipotecaria y otros muchos casos) donde para extraer la información relevante se tiene en cuenta varios factores:
la posición geométrica del texto
el significado semántico del mismo dentro del documento
Con nuestro cliente encontramos unos documentos con varias peculiaridades:
Falta de estructura
Poco homogeneización del propio texto
Expresiones distintas para referirse al mismo concepto
Expresiones semánticas parecidas (incluso idénticas) que dependiendo del lugar del texto donde estén cambiaba el significado y por tanto su relevancia.
Cada proveedor diseñaba y utilizada un formato y estructura distinta
El reto fue importante y para solucionar el caso configuramos y entrenamos los modelos de extracción teniendo en cuenta los siguientes parámetros:
agrupación de textos con una regla geométrica concreta teniendo en cuenta el tamaño de la fuente, la posición, etc.
creación de un diccionario externo de expresiones técnicas relevantes
transformación de de textos en vectores
Con todo esto conseguimos que documentos distintos, con secciones distintas tuvieran estructura y por tanto fuéramos capaces de identificar los 55 campos/conceptos relevantes para, posteriormente, hacer una comprobación vía API.
Actualmente el proceso se ha reducido de horas a segundos. Ahora los técnicos responsables invierten su tiempo en gestionar a aquellos proveedores cuya documentación no está conforme al proceso legalmente establecido.
Escríbenos si tienes procesos similares o quieres conocer el detalle del funcionamiento de la plataforma o necesitas una demo.
Comentários