Mejorando la extracción de información de documentos no estructurados
Este estudio mejora la extracción de información clave usando un nuevo modelo para documentos no estructurados.
Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit
― 10 minilectura
Tabla de contenidos
Los documentos son una parte importante de nuestra vida cotidiana. Nos ayudan a comunicarnos y a mantener registros. Estos documentos pueden ser escritos, impresos o digitales, y a menudo se utilizan para fines oficiales o para compartir información. Podemos clasificar los documentos según su estructura. Algunos documentos están muy organizados con tablas y elementos visuales claros, mientras que otros tienen algo de organización pero no siguen reglas estrictas. Los documentos no estructurados, por otro lado, carecen de un formato claro y están compuestos principalmente de texto.
Extraer información útil de estos documentos de forma automática es vital, especialmente en el sector financiero. Las instituciones financieras como los bancos manejan una gran cantidad de documentos a diario. Automatizar el proceso de obtener información de estos documentos puede ahorrar mucho tiempo y esfuerzo. Usando técnicas de Procesamiento de Lenguaje Natural (NLP) y Visión por Computadora, los bancos pueden optimizar sus operaciones y enfocarse más en tareas importantes, como ayudar a los clientes y tomar decisiones.
Cuando se trata de extraer información, es importante pensar en la estructura y el contenido de un documento. Esto puede afectar mucho nuestra capacidad para extraer la información necesaria. Dependiendo del tipo de documento, pueden ser necesarios diferentes métodos y tecnologías. Por ejemplo, los documentos no estructurados pueden requerir un mayor entendimiento del lenguaje ya que no tienen un formato claro a seguir. Por otro lado, los documentos estructurados pueden permitir una extracción más fácil ya que la información suele estar organizada en un formato conocido, como una tabla o un formulario.
Usar sistemas multimodales para la Extracción de información clave (KIE) puede ser especialmente útil, ya que estos sistemas pueden combinar percepciones de texto, diseño y características visuales de los documentos. Aunque ha habido mucha investigación sobre documentos estructurados, los documentos no estructurados siguen siendo un área de estudio en crecimiento. Esto se debe principalmente a los desafíos que presentan estos documentos y a la disponibilidad limitada de conjuntos de datos para estudiarlos.
Recientemente, hemos visto más conjuntos de datos públicos siendo liberados, especialmente para documentos estructurados y semi-estructurados. Esto ha llevado a un aumento en la popularidad de modelos basados en transformadores, como BERTgrid y ViBERTgrid. Estos modelos pueden encontrar secciones importantes en un documento utilizando información sobre su posición. Sin embargo, no han sido probados a fondo con documentos no estructurados.
Propósito del Estudio
Este estudio tiene como objetivo ver qué tan bien pueden funcionar los transformadores multimodales con documentos no estructurados. Introducimos un nuevo modelo llamado ViBERTgrid BiLSTM-CRF, que combina las capacidades de ViBERTgrid y otro modelo conocido como BiLSTM-CRF. ViBERTgrid es útil para generar representaciones visuales y embbedings de palabras ricos, mientras que BiLSTM-CRF permite una mejor comprensión de la sintaxis y el contexto a lo largo de textos más largos.
Vamos a evaluar nuestro modelo en un conjunto de datos de órdenes de transferencia de dinero no estructuradas, así como en un conjunto de datos de recibos semi-estructurados llamado SROIE. Además, estamos lanzando un nuevo conjunto de anotaciones a nivel de token para el conjunto de datos SROIE para facilitar su uso en modelos multimodales. Nuestras principales contribuciones son:
- Mejoramos el rendimiento de ViBERTgrid en documentos no estructurados agregando una capa BiLSTM-CRF.
- Mostramos que este nuevo modelo funciona bien en documentos semi-estructurados también.
- Compartimos públicamente las anotaciones a nivel de token del conjunto de datos SROIE para que otros las usen.
Estructuraremos el documento de manera sencilla. La siguiente sección revisa investigaciones anteriores sobre la extracción de información de documentos. Después de eso, explicaremos los detalles de la arquitectura ViBERTgrid BiLSTM-CRF. Luego cubriremos nuestra configuración experimental y presentaremos los resultados que obtuvimos. Finalmente, resumiremos nuestros hallazgos clave y sugeriremos posibles direcciones para futuras investigaciones.
Trabajo Relacionado
El proceso de extracción de información de documentos puede involucrar varias tareas, incluyendo la clasificación de documentos, el reconocimiento de texto mediante reconocimiento óptico de caracteres (OCR), la identificación de entidades nombradas y la extracción de relaciones. La mayoría de los métodos actuales tratan la extracción de información clave como un problema de etiquetado de secuencias, usando técnicas de reconocimiento de entidades nombradas (NER) para abordar el problema.
Sin embargo, algunos conjuntos de datos de KIE no tienen anotaciones detalladas para cada token, lo que lleva a los investigadores a desarrollar sus propias soluciones. Para abordar este problema, estamos proporcionando una capa de anotación a nivel de token para el conjunto de datos SROIE en este estudio.
Antes de la popularidad de las redes neuronales profundas, los campos aleatorios condicionales (CRFs) eran un enfoque común para el NER. Los CRFs modelan dependencias entre predicciones usando una máquina de estados finitos. Sin embargo, a medida que se hizo evidente que entender palabras requiere más contexto que solo los vecinos inmediatos, las redes neuronales recurrentes (RNNs) y sus versiones, como las redes de memoria a corto y largo plazo (LSTM) y las unidades recurrentes con puerta (GRUs), ganaron prominencia. Los modelos BiLSTM-CRF han demostrado ser robustos para etiquetar secuencias, aprovechando tanto el contexto pasado como el futuro en el texto.
Con la llegada de grandes modelos de lenguaje como ELMo, BERT y GPT-3, las tareas de NER han visto mejoras significativas. Estos modelos están entrenados en enormes cantidades de texto y pueden desarrollar representaciones ricas del lenguaje. Pueden ser ajustados para tareas específicas y aprender significados de palabras en relación con el contexto circundante, lo que lleva a predicciones más precisas.
Usar modelos multimodales que combinan texto, diseño e información visual para NER es un campo prometedor de investigación. Estos modelos pueden aprovechar características visuales, como la organización del texto y las imágenes en los documentos, para mejorar su precisión. Por ejemplo, estos modelos pueden usar la posición de entidades en una tabla para identificar y extraer información de manera más efectiva.
Algunos investigadores han trabajado en representar documentos con un método llamado Chargrid, que convierte cada página en una cuadrícula de caracteres. Si bien es útil para documentos estructurados, este método puede no ser tan efectivo para documentos no estructurados. Un método más reciente, BERTgrid, representa documentos como cuadrículas de embeddings de piezas de palabras obtenidos de BERT. Al usar este enfoque, el modelo puede acceder más fácilmente a la estructura y el significado espacial del documento, lo que lleva a un mejor análisis.
Aunque BERTgrid ha demostrado ser efectivo, no utiliza completamente la capacidad del modelo BERT, ya que sus parámetros no se ajustan durante el entrenamiento. ViBERTgrid busca resolver esto combinando BERTgrid con una red neuronal convolucional (CNN) para analizar simultáneamente tanto las características visuales como la información textual. Al permitir el entrenamiento conjunto de ambas redes, ViBERTgrid obtiene mejores embeddings de palabras específicos del contexto.
Arquitectura ViBERTgrid BiLSTM-CRF
Introducimos una versión modificada de la arquitectura ViBERTgrid diseñada para mejorar su rendimiento en tareas de KIE. El modelo ViBERTgrid BiLSTM-CRF consta de tres partes principales:
- La arquitectura adaptada que combina ViBERTgrid con una capa BiLSTM-CRF.
- Una red backbone multimodal que crea el mapa de características ViBERTgrid.
- Una cabeza de clasificación para predecir etiquetas para cada palabra en el documento. Hay dos variaciones de esta cabeza de clasificación: una con la capa BiLSTM-CRF y otra sin ella.
Para crear la representación ViBERTgrid, primero generamos la representación BERTgrid y la combinamos con capas intermedias de la CNN. BERTgrid toma una imagen de documento como entrada y utiliza OCR para identificar palabras y sus posiciones. Cada palabra es tokenizada en piezas más pequeñas, permitiendo que el modelo capture matices más sutiles del lenguaje.
La combinación de la información visual de la CNN con las características textuales de BERTgrid ayuda a crear una comprensión más completa del documento. Esto permite que el modelo esté mejor preparado para extraer información clave de manera efectiva.
Configuración Experimental
Evaluamos la efectividad del modelo propuesto en dos conjuntos de datos: SROIE y dos conjuntos de documentos de órdenes de transferencia de dinero turcas (UTD y UMTD). El conjunto de datos SROIE contiene recibos y es muy valorado en estudios de extracción de información semi-estructurada. Tiene cuatro tipos de entidades: empresa, fecha, dirección y total. Mejoramos este conjunto de datos a través de anotaciones manuales para asegurar que las etiquetas de palabras coincidieran con sus datos OCR correspondientes.
El conjunto de datos UTD comprende documentos bancarios reales, mientras que el conjunto de datos UMTD incluye múltiples transacciones en un solo documento. Usamos divisiones específicas proporcionadas en investigaciones anteriores para entrenamiento, validación y pruebas.
Para entrenar los modelos, empleamos diferentes estrategias de optimización y utilizamos dos optimizadores AdamW separados para los componentes de BERT y CNN. También implementamos medidas para prevenir el sobreajuste, como ajustar la tasa de aprendizaje cuando las puntuaciones de validación no mejoraban.
Para evaluar el rendimiento del modelo, utilizamos el script de evaluación oficial de SROIE para obtener puntuaciones F1. Para los conjuntos de datos UTD y UMTD, aplicamos la técnica de evaluación de puntuación F1 a nivel de campo para NER. Entrenamos y probamos cuidadosamente cada modelo varias veces para asegurar la confiabilidad de nuestros resultados.
Resultados
Nuestros resultados muestran el rendimiento del ViBERTgrid original y las versiones mejoradas de BiLSTM-CRF en el conjunto de datos SROIE. Aplicamos técnicas para limpiar las predicciones de ambos modelos para eliminar resultados no deseados, como tokens irrelevantes.
Cuando analizamos las puntuaciones, encontramos que la adición de la capa BiLSTM-CRF dio un pequeño impulso al rendimiento en el conjunto de datos SROIE. Sin embargo, esta mejora no fue estadísticamente significativa, lo que sugiere que los beneficios de la nueva capa pueden ser más pronunciados en documentos no estructurados que en los diseños semi-estructurados de SROIE.
Para los documentos transaccionales no estructurados, hicimos observaciones significativas. El modelo ViBERTgrid estándar no tuvo un rendimiento tan bueno como un modelo puramente textual en el conjunto de datos UTD. Sin embargo, cuando incluimos la capa BiLSTM-CRF, el rendimiento del modelo aumentó drásticamente, resultando en mejores puntuaciones F1.
Las mejoras también fueron evidentes en los documentos de múltiples transacciones, donde una capa BiLSTM-CRF llevó a puntuaciones más altas en todos los conjuntos de pruebas. No obstante, en situaciones con diseños similares a tablas, las ganancias no fueron estadísticamente significativas.
Discusión y Conclusión
A través de este estudio, obtuvimos valiosas ideas sobre cómo las características visuales pueden influir en la extracción de información de documentos financieros no estructurados. Si bien los resultados iniciales mostraron que el modelo ViBERTgrid original no era tan efectivo con documentos no estructurados en comparación con un modelo puramente textual, la introducción de la capa BiLSTM-CRF llevó a mejoras notables.
En general, el modelo ViBERTgrid BiLSTM-CRF mostró claros beneficios, logrando mejores resultados en documentos no estructurados mientras mantenía el rendimiento en formatos semi-estructurados. Además, al liberar anotaciones a nivel de token para el conjunto de datos SROIE, buscamos apoyar el desarrollo de modelos multimodales más efectivos.
De cara al futuro, esperamos investigar más sobre el papel de nuestra arquitectura en relación con otras tareas, especialmente en la extracción de relaciones. Esto podría proporcionar información más profunda y comparaciones con modelos multimodales existentes.
También queremos expresar gratitud a nuestro equipo y a los revisores por sus valiosas contribuciones y retroalimentación a lo largo de este proceso de investigación.
Título: ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents
Resumen: Multimodal key information extraction (KIE) models have been studied extensively on semi-structured documents. However, their investigation on unstructured documents is an emerging research topic. The paper presents an approach to adapt a multimodal transformer (i.e., ViBERTgrid previously explored on semi-structured documents) for unstructured financial documents, by incorporating a BiLSTM-CRF layer. The proposed ViBERTgrid BiLSTM-CRF model demonstrates a significant improvement in performance (up to 2 percentage points) on named entity recognition from unstructured documents in financial domain, while maintaining its KIE performance on semi-structured documents. As an additional contribution, we publicly released token-level annotations for the SROIE dataset in order to pave the way for its use in multimodal sequence labeling models.
Autores: Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit
Última actualización: 2024-09-23 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2409.15004
Fuente PDF: https://arxiv.org/pdf/2409.15004
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.