Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Recuperación de información

Mejorando la comprensión de documentos a través de datos débilmente etiquetados

Un nuevo enfoque para mejorar los modelos VDER usando datos de documentos diversos.

― 8 minilectura


Impulsando VDER conImpulsando VDER conEtiquetas Débilesdocumentos.datos para mejorar los modelos deUna nueva estrategia de recolección de
Tabla de contenidos

Las tareas de comprensión de documentos se han vuelto importantes, especialmente en el campo de la IA empresarial. Una tarea específica es la Recuperación de Entidades en Documentos Visualmente Ricos (VDER). Esta tarea ayuda a identificar y extraer información de documentos que contienen tanto imágenes como texto. Sin embargo, un gran problema en esta área es la falta de datos disponibles públicamente. Esto se debe principalmente a preocupaciones de privacidad y los altos costos de la Anotación de documentos. Además, diferentes conjuntos de datos suelen tener diferentes tipos de entidades, lo que dificulta transferir conocimientos entre ellos.

Este artículo discute una nueva forma de recopilar una gran cantidad de documentos débilmente etiquetados de la web para mejorar el entrenamiento de los modelos VDER. El conjunto de datos que recopilamos no está limitado a tipos específicos de documentos o conjuntos de entidades. Como resultado, se puede usar para todo tipo de tareas de comprensión de documentos.

El Desafío de la Comprensión de Documentos

La comprensión de documentos a menudo se ve como una tarea desafiante. Muchas personas enfrentan errores y dificultades al intentar entender documentos en su vida diaria. El aprendizaje automático ha hecho posible automatizar algunas de estas tareas, pero todavía hay desafíos importantes que superar.

En una tarea típica de VDER, se debe recuperar información de documentos basándose en tipos de entidades específicos. Estos tipos podrían incluir "monto", "fecha" y "nombre del artículo", que son comunes en facturas. Uno de los principales problemas es la disponibilidad limitada de imágenes de documentos en bruto, principalmente porque muchos documentos contienen información personal protegida por leyes de privacidad.

Los costos asociados con la anotación de estos documentos también son altos. La mayoría de las veces, esta tarea requiere anotadores calificados, lo que suma a los desafíos. Además, diferentes tipos de documentos pueden tener etiquetas y significados inconsistentes, lo que dificulta compartir conocimientos entre los diversos tipos de documentos.

Modelos Actuales y Sus Limitaciones

Se han propuesto varios modelos para tareas de VDER, pero todos tienen sus limitaciones. Típicamente, los métodos existentes comienzan con un modelo de lenguaje que luego se ajusta usando conjuntos de datos de documentos con características adicionales de diseño y visuales. Incluso el conjunto de datos más grande disponible actualmente, el conjunto de datos IIT-CDIP, tiene sus limitaciones, ya que solo representa una pequeña muestra de tipos de documentos.

Este artículo introduce un nuevo método para construir un conjunto de datos que facilite el pre-entrenamiento a gran escala para el modelado VDER. El conjunto de datos se recopila de la web usando una estructura específica que considera cientos de tipos de documentos y su organización en niveles.

Proceso de Recopilación de Datos

Recopilar imágenes de la web puede parecer simple, pero en realidad requiere un enfoque bien planeado. La mayoría de las imágenes en internet no coinciden con los tipos de documentos que estamos buscando. Una forma más efectiva de recopilar las imágenes relevantes es a través de una búsqueda de vecinos más cercanos usando palabras clave relevantes.

El proceso comienza creando una lista de palabras clave en inglés que se conectan a diferentes tipos de documentos. Estas palabras clave se codifican en un espacio conjunto que incluye tanto texto como imágenes. Un algoritmo de recuperación puede encontrar las imágenes más relevantes en base a estas palabras clave. Después de recopilar las imágenes, se aplica un proceso de deduplicación para asegurarnos de que tengamos imágenes únicas.

Creando una Lista de Ontología

Una parte importante de este proceso es crear una lista de ontología que sirva como base para recuperar imágenes. Una ontología bien estructurada debe incluir una amplia gama de palabras clave relevantes relacionadas con dominios de documentos, incluyendo finanzas, negocios, asuntos legales y educación. Este documento describe una lista curada de aproximadamente 400 palabras clave relacionadas con documentos que cubren varios temas.

Tokenización Multimodal

Una vez que se recopilan las imágenes de los documentos, necesitan ser procesadas para hacerlas utilizables para el aprendizaje automático. El primer paso en este proceso es aplicar Reconocimiento Óptico de Caracteres (OCR) para convertir las imágenes en texto. Cada carácter extraído viene con sus coordenadas de caja delimitadora, lo que nos permite entender dónde estaba el texto en la imagen.

Después de este paso, se lleva a cabo una tokenización multimodal. Los tokens de texto se alinean con los recortes de imagen que representan información visual relevante para cada token. Esta alineación permite una comprensión más integrada de los datos de texto e imagen.

Pipeline de Pre-entrenamiento

El pipeline de pre-entrenamiento incluye múltiples objetivos que ayudan a mejorar las capacidades de aprendizaje del modelo. En esta fase, las secuencias de texto generadas por OCR se utilizan junto con los recortes de imagen para enseñar al modelo cómo procesar y entender mejor los documentos. Cada entrada se combina con embeddings de posición para capturar la disposición espacial del texto y las imágenes.

Anotación y Control de Calidad

Una vez que se genera el texto, pasa por un proceso de anotación débil para clasificar segmentos en diferentes categorías como direcciones de correo electrónico, fechas, precios y nombres. Aunque algunas clasificaciones pueden contener errores, tener estas etiquetas proporciona orientación adicional para el modelo durante el pre-entrenamiento.

Para asegurar que el conjunto de datos se mantenga de alta calidad, se aplican métodos de filtrado heurístico. Este paso elimina muestras donde los resultados de OCR son malos debido a imágenes borrosas. Es esencial mantener la calidad de los datos recopilados, ya que las muestras de baja calidad pueden obstaculizar el proceso de aprendizaje del modelo.

Ventajas del Enfoque

El enfoque discutido en este artículo permite la recopilación de grandes cantidades de datos documentales diversos a un costo menor que los métodos tradicionales de recopilación de datos. Además, los datos recopilados están bien estructurados y anotados, lo que ayuda a mejorar el entrenamiento de los modelos VDER.

Al usar avances recientes en aprendizaje automático y modelos de lenguaje grandes, el conjunto de datos propuesto sirve como un recurso significativo para mejorar las tareas de comprensión de documentos.

Resultados Experimentales

Se realizaron varios experimentos para probar la efectividad del conjunto de datos recopilado. Se evaluaron diferentes tareas de comprensión de documentos, y los resultados mostraron mejoras significativas en el rendimiento cuando se integró el nuevo conjunto de datos en el entrenamiento de modelos clásicos y de aprendizaje de pocas muestras.

La Importancia de la Diversidad de Datos

Un hallazgo notable de los experimentos es la importancia de tener un conjunto de datos diverso. Una variedad de tipos de documentos contribuye significativamente al rendimiento del modelo. El nuevo conjunto de datos recopilado, que incluye 30 millones de documentos de casi 400 tipos de documentos diferentes, demuestra claras ventajas sobre conjuntos de datos más pequeños y de dominio único.

Trabajo Futuro

Si bien los métodos actuales son prometedores, todavía hay varias áreas que requieren una mayor exploración. La investigación futura podría centrarse en refinar las estrategias de recopilación de palabras clave e imágenes para optimizar los datos para mejores resultados del modelo. Además, hay potencial en investigar más a fondo arquitecturas diseñadas específicamente para utilizar eficazmente las grandes cantidades de datos ruidosos.

Otro área a considerar es cómo gestionar de manera efectiva los diferentes tipos de documentos. Muchos documentos pueden tener estructuras similares pero contenido diferente, lo que requiere que los modelos sean adaptables para manejar tanto formularios llenos como vacíos.

Conclusión

Este artículo presenta un nuevo método para reunir y procesar grandes cantidades de datos documentales de la web para mejorar las tareas de comprensión de documentos, específicamente VDER. El enfoque no solo aborda los desafíos actuales que enfrenta esta área, como la escasez de datos y preocupaciones de privacidad, sino que también enfatiza la importancia de tener un conjunto de datos diverso y bien estructurado.

En general, los resultados indican que los métodos propuestos generan mejoras significativas en el rendimiento del modelo, lo que lo convierte en una valiosa contribución al campo de la comprensión de documentos. Los esfuerzos de investigación futuros deberían basarse en estos hallazgos para mejorar aún más las capacidades de los modelos VDER y explorar nuevas formas de utilizar los datos recopilados de manera más eficiente.

Fuente original

Título: DocumentNet: Bridging the Data Gap in Document Pre-Training

Resumen: Document understanding tasks, in particular, Visually-rich Document Entity Retrieval (VDER), have gained significant attention in recent years thanks to their broad applications in enterprise AI. However, publicly available data have been scarce for these tasks due to strict privacy constraints and high annotation costs. To make things worse, the non-overlapping entity spaces from different datasets hinder the knowledge transfer between document types. In this paper, we propose a method to collect massive-scale and weakly labeled data from the web to benefit the training of VDER models. The collected dataset, named DocumentNet, does not depend on specific document types or entity sets, making it universally applicable to all VDER tasks. The current DocumentNet consists of 30M documents spanning nearly 400 document types organized in a four-level ontology. Experiments on a set of broadly adopted VDER tasks show significant improvements when DocumentNet is incorporated into the pre-training for both classic and few-shot learning settings. With the recent emergence of large language models (LLMs), DocumentNet provides a large data source to extend their multi-modal capabilities for VDER.

Autores: Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann, Hanjun Dai, Wei Wei

Última actualización: 2023-10-26 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.08937

Fuente PDF: https://arxiv.org/pdf/2306.08937

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares