Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Nuevo Conjunto de Datos Multilingüe para la Extracción de Información de Recibos

Un conjunto de datos que mejora la extracción de información de recibos en árabe e inglés.

― 9 minilectura


Dataset de extracción deDataset de extracción derecibos lanzadoprocesamiento de recibos multilingües.Nuevo conjunto de datos mejora el
Tabla de contenidos

La Extracción de Información clave de recibos es una tarea importante que ayuda a las empresas a manejar la información de manera más eficiente. Este proceso implica reconocer y extraer texto de recibos escaneados, facilitando la recopilación de detalles importantes y su organización en documentos claros. Este artículo habla sobre un nuevo conjunto de datos multilingüe creado específicamente para extraer información de recibos. El conjunto de datos tiene como objetivo abordar los desafíos en la comprensión del contenido y la Clasificación precisa de los artículos.

Importancia de la Extracción de Recibos

Extraer información de recibos es crucial por varias razones. Puede automatizar tareas comerciales, mejorar el análisis financiero y apoyar un mejor control de inventarios. Al capturar y organizar efectivamente detalles importantes de los recibos, las organizaciones pueden hacer que sus operaciones sean más fluidas, obtener información útil y tomar mejores decisiones. Sin embargo, el éxito de estos sistemas depende en gran medida de la disponibilidad de Conjuntos de datos de calidad que representen con precisión los recibos del mundo real.

Visión General del Conjunto de Datos

Este artículo presenta un nuevo conjunto de datos enfocado en la extracción de recibos. Este conjunto es único porque incluye recibos en árabe e inglés. Busca llenar el vacío en los conjuntos de datos existentes al ofrecer una amplia variedad de recibos que capturan diferentes idiomas y contextos.

El conjunto de datos incluye varias muestras de diferentes fuentes como tiendas minoristas, restaurantes y supermercados. Esta colección diversa asegura que el conjunto de datos sea rico y relevante para escenarios del mundo real. Se añadieron anotaciones detalladas a muchos campos en los recibos. Estas anotaciones consisten en nombres de artículos, atributos como precio y marca, y clasificaciones en diferentes categorías de productos.

Características del Conjunto de Datos

El conjunto de datos contiene numerosas muestras, con nombres de artículos únicos y clasificaciones en muchas categorías de productos. También proporciona información detallada sobre artículos como peso, cantidad, precio total e información de embalaje. Al analizar estos datos, los investigadores pueden estudiar hábitos de compra, tendencias de precios y métodos promocionales utilizados en los recibos.

Manejar recibos en múltiples idiomas presenta desafíos únicos. Los recibos en árabe e inglés a menudo tienen complejidades y variaciones que deben considerarse en los sistemas de extracción de información. Este conjunto de datos busca abordar estos desafíos proporcionando información sobre cómo operar de manera efectiva en un entorno multilingüe.

Contribuciones del Estudio

Las contribuciones de este estudio se pueden resumir así:

  1. Un nuevo conjunto de datos multilingüe para la extracción de recibos que incluye árabe e inglés.
  2. Un enfoque en dos tareas principales: extraer información clave y clasificar artículos de los recibos.
  3. Anotaciones detalladas de varios campos de recibos, como nombres de artículos, clases y precios.
  4. Clasificación en numerosas categorías de productos para mejorar la organización de los artículos.
  5. La introducción de un nuevo enfoque llamado InstructLLaMA que muestra resultados prometedores en la extracción de información y clasificación de artículos.

Trabajos Relacionados en Extracción de Recibos

En el campo de la extracción de información de recibos escaneados, ha habido poca investigación y progreso. La Competencia ICDAR 2019 buscó avanzar en las técnicas para extraer información de recibos, pero destacó los desafíos que enfrentan los investigadores al trabajar con documentos multilingües.

Esta competencia incluyó tres tareas principales: localizar regiones de texto en los recibos, reconocer y transcribir ese texto y extraer información clave. Aunque se ha avanzado, aún hay una necesidad de más investigación, especialmente al trabajar con recibos que contienen texto en diferentes idiomas.

Creación del Conjunto de Datos

Para garantizar la creación de un conjunto de datos de alta calidad para la extracción de recibos, se siguió una metodología cuidadosa. Este enfoque incluyó pasos como la recopilación de datos, el desarrollo de pautas para anotaciones, la realización del proceso de Anotación real y la validación de los datos.

Se reunió una colección diversa de recibos de diferentes fuentes, asegurando una amplia gama de industrias y productos representados. Se crearon pautas de anotación para proporcionar instrucciones claras para los anotadores, asegurando marcas consistentes y precisas en cada recibo.

Se trajo a expertos para analizar cada imagen de recibo, utilizando las pautas para marcar la información relevante. También se implementó un proceso de validación minucioso para revisar y verificar las anotaciones, garantizando la fiabilidad del conjunto de datos.

Características del Conjunto de Datos

El conjunto de datos consiste en muchos artículos con contenido en árabe e inglés, lo que lo convierte en un recurso valioso para extraer información clave. Cada imagen de recibo incluye campos de texto importantes, que consisten principalmente en números y caracteres en inglés, lo que lo hace adecuado para una variedad de aplicaciones.

Al examinar la distribución de lenguajes, una parte significativa de los artículos en el conjunto de datos está en árabe, mientras que el resto está en inglés. Esto refleja el escenario del mundo real donde los recibos a menudo contienen información en múltiples idiomas. Comprender esta diversidad es crucial para desarrollar sistemas efectivos que puedan manejar ambos idiomas en el procesamiento de recibos.

Distribución de Clases de Artículos

El conjunto de datos incluye una variedad de categorías de productos que reflejan las complejidades de los recibos del mundo real. Algunas categorías son más comunes que otras, lo que indica preferencias y tendencias de los consumidores. Esta información puede ayudar a las empresas a comprender mejor los hábitos de compra y atender las necesidades de los clientes.

Sin embargo, no todas las categorías están representadas por igual, lo que lleva a desafíos para los modelos de aprendizaje automático. Abordar este desequilibrio de clases puede requerir estrategias específicas para garantizar que los modelos puedan trabajar de manera efectiva en todas las categorías.

Perspectivas de Distribución de Precios

Analizar la distribución de precios dentro del conjunto de datos proporciona información valiosa sobre los aspectos económicos de los artículos. Los precios varían ampliamente, desde artículos de menor costo hasta los más caros. Esta variación ayuda a entender el comportamiento del consumidor y las estrategias de precios en el mercado.

Utilización del Modelo LLaMA

Este estudio también discute el modelo LLaMA utilizado durante los experimentos. Los modelos LLaMA V1 y V2 son parte de un conjunto de modelos de lenguaje fundamentales que están entrenados para sobresalir en tareas de comprensión del lenguaje. Estos modelos utilizan conjuntos de datos de acceso público, asegurando accesibilidad y transparencia en su entrenamiento.

Ambas versiones del modelo LLaMA han demostrado ser efectivas en la extracción de información y clasificación. Los modelos utilizan técnicas avanzadas, lo que los hace bien adecuados para tareas que requieren una comprensión profunda del texto.

Método Propuesto para la Extracción

El método propuesto aprovecha los modelos LLaMA para ajustar el enfoque de extracción de información clave de los recibos. El proceso de entrenamiento implica el uso de una variedad de conjuntos de datos de ajuste por instrucciones, asegurando que el modelo entienda los requisitos específicos de la tarea en cuestión.

El método emplea un conjunto de estrategias de entrenamiento para optimizar la eficiencia del modelo mientras mantiene la precisión. Este enfoque permite una extracción efectiva de información de recibos en árabe e inglés, mostrando la versatilidad del modelo.

Resultados de la Extracción de Información

Los resultados experimentales revelan cuán bien los modelos funcionan en la extracción de información y clasificación de artículos. La evaluación detallada destaca la efectividad y robustez de los modelos LLaMA V1 y VLaMA V2 en múltiples categorías.

Los resultados indican alta precisión en la clasificación de artículos y en la extracción de detalles relevantes, lo que significa la capacidad de los modelos para manejar información compleja de recibos. Además, la evaluación proporciona información sobre áreas donde los modelos sobresalen y áreas que pueden requerir más mejora.

Extracción de Información Few-Shot

La extracción de información few-shot se refiere a la capacidad de identificar relaciones y extraer datos de texto, incluso con ejemplos limitados de entrenamiento. Esta técnica es particularmente valiosa para adaptarse a nuevas tareas sin necesidad de grandes cantidades de datos etiquetados.

Los resultados de los experimentos realizados con múltiples modelos muestran que modelos más pequeños pueden funcionar de manera eficiente, incluso logrando una precisión comparable a la de modelos más grandes. Este hallazgo enfatiza el potencial de optimizar modelos para velocidad y eficiencia de recursos mientras se mantiene un rendimiento competitivo.

Conclusión

En resumen, este artículo discute un valioso conjunto de datos multilingüe diseñado para extraer información clave y clasificar artículos de recibos escaneados. El conjunto de datos abarca muchas muestras en árabe e inglés, proporcionando un recurso para mejorar las técnicas de extracción en diversos contextos.

El estudio resalta la importancia de los conjuntos de datos de calidad para avanzar en sistemas automatizados en el procesamiento de recibos. La investigación futura puede construir sobre estas ideas para mejorar la comprensión y aplicación en el campo de la extracción de información.

Fuente original

Título: AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification

Resumen: The extraction of key information from receipts is a complex task that involves the recognition and extraction of text from scanned receipts. This process is crucial as it enables the retrieval of essential content and organizing it into structured documents for easy access and analysis. In this paper, we present AMuRD, a novel multilingual human-annotated dataset specifically designed for information extraction from receipts. This dataset comprises $47,720$ samples and addresses the key challenges in information extraction and item classification - the two critical aspects of data analysis in the retail industry. Each sample includes annotations for item names and attributes such as price, brand, and more. This detailed annotation facilitates a comprehensive understanding of each item on the receipt. Furthermore, the dataset provides classification into $44$ distinct product categories. This classification feature allows for a more organized and efficient analysis of the items, enhancing the usability of the dataset for various applications. In our study, we evaluated various language model architectures, e.g., by fine-tuning LLaMA models on the AMuRD dataset. Our approach yielded exceptional results, with an F1 score of 97.43\% and accuracy of 94.99\% in information extraction and classification, and an even higher F1 score of 98.51\% and accuracy of 97.06\% observed in specific tasks. The dataset and code are publicly accessible for further researchhttps://github.com/Update-For-Integrated-Business-AI/AMuRD.

Autores: Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt

Última actualización: 2024-03-26 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.09800

Fuente PDF: https://arxiv.org/pdf/2309.09800

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares