Mejorando la Clasificación de Documentos Largos con Transformadores de Oraciones
Un nuevo enfoque mejora la clasificación de textos largos usando transformadores de oraciones.
― 7 minilectura
Tabla de contenidos
- El Desafío de los Documentos Largos
- Enfoque Propuesto
- Trabajos Relacionados
- Arquitectura de Atención sobre Embeddings de Oraciones
- Complejidad y Tamaño del Modelo
- Configuraciones Experimentales
- Resultados
- Estudio de Ablación
- Impacto de los Transformers de Oraciones
- Conclusión
- Fuente original
- Enlaces de referencia
En los últimos años, el uso de transformers se ha vuelto normal en el campo del Procesamiento de Lenguaje Natural (NLP). Estos modelos han demostrado ser efectivos en varias tareas, como clasificar documentos. Sin embargo, a menudo tienen problemas al lidiar con textos largos. El principal inconveniente surge de cómo los transformers manejan las secuencias de entrada, lo que puede llevar a altas necesidades de memoria y cálculo a medida que aumenta la longitud del texto.
Para abordar este problema, los investigadores han estado buscando maneras de hacer que los transformers funcionen mejor con documentos más largos. Algunos métodos se centran en reducir la cantidad de atención que el modelo presta a todas las partes del texto, mientras que otros dividen la entrada larga en partes más pequeñas que son más fáciles de manejar. Este artículo discute un nuevo enfoque que utiliza modelos de oraciones pre-entrenados para crear una mejor manera de clasificar documentos largos.
El Desafío de los Documentos Largos
Los transformers funcionan calculando puntuaciones de atención entre diferentes palabras o tokens en una secuencia. Cuantos más tokens hay, más cálculos se necesitan, lo que lleva a retrasos y problemas de eficiencia. Normalmente, los transformers están limitados a secuencias de alrededor de 512 tokens. Esta restricción a menudo lleva a perder información importante de documentos más largos, haciéndolos menos efectivos en tareas como la clasificación.
Los métodos desarrollados para abordar estas limitaciones han variado. Algunos simplifican el mecanismo de atención, mientras que otros gestionan documentos largos dividiéndolos en trozos más pequeños. También hay modelos que utilizan una técnica de caché, que permite que ciertos tokens accedan a información oculta de tokens anteriores.
Enfoque Propuesto
Este artículo propone un nuevo método que se basa en las fortalezas de los transformers de oraciones existentes. En lugar de comenzar desde cero, utiliza modelos ya entrenados para obtener representaciones significativas de las oraciones. De esta manera, el modelo puede centrarse de manera efectiva en las oraciones importantes dentro de un documento largo.
Al combinar estas representaciones de oraciones con una pequeña capa de atención, el modelo logra construir una comprensión integral del documento completo. En lugar de calcular la atención para cada par de oraciones, calcula la importancia de cada oración en relación con la representación del documento completo. Esto hace que el proceso sea más simple y rápido, mientras que aún logra buenos resultados.
Trabajos Relacionados
En la búsqueda de adaptar transformers para textos más largos, se han explorado varias estrategias. Algunos de los métodos más simples implican truncar la entrada para que se ajuste a las limitaciones del modelo, cortando los tokens extras. Aunque esto es efectivo, a menudo conduce a la pérdida de información relevante.
Métodos más avanzados, como Longformer, introducen una mezcla de atención local y global para mejorar la eficiencia. Estos modelos se enfocan en tokens importantes mientras consideran su contexto dentro del texto. Otros métodos, como SMITH, utilizan un enfoque jerárquico donde las oraciones se tratan a un nivel diferente que los documentos completos.
Arquitectura de Atención sobre Embeddings de Oraciones
En este trabajo, el enfoque propuesto utiliza una arquitectura llamada Atención sobre Embeddings de Oraciones (AoSE). El primer paso implica dividir el documento largo en oraciones individuales usando signos de puntuación comunes como separadores. Cada oración se convierte en una representación fija utilizando un transformer de oraciones pre-entrenado. Este proceso asegura que se generen embeddings significativos de manera efectiva sin entrenamiento adicional.
Luego, se aplica una capa de atención a estos embeddings de oraciones. Esta capa asigna más peso a las oraciones más importantes, permitiendo que el modelo priorice y enfatice información crítica al clasificar el documento. La representación final del documento se crea a partir de estos embeddings ponderados.
Complejidad y Tamaño del Modelo
Para comparar la eficiencia del modelo propuesto con las variantes existentes, es crucial considerar tanto la complejidad como el tamaño de cada modelo. La complejidad del modelo AoSE propuesto es notablemente más baja que la de los transformers tradicionales. Esto permite que el modelo funcione de manera eficiente con documentos más largos sin sacrificar el rendimiento.
Con respecto al tamaño del modelo, la arquitectura AoSE tiene un ligero aumento en los parámetros en comparación con los transformers estándar, pero este aumento es manejable y no representa desafíos significativos. Al usar un transformer de oraciones compartido en diferentes aplicaciones, la arquitectura general sigue siendo computacionalmente eficiente.
Configuraciones Experimentales
Para probar la efectividad del enfoque propuesto, se utilizan tres conjuntos de datos estándar-IMDB, MIND y 20 News Groups. Estos conjuntos contienen miles de documentos y son relevantes para entender la competencia del modelo en aplicaciones del mundo real.
Se evalúan tanto la fine-tuning como una configuración congelada. La fine-tuning permite que el modelo ajuste sus parámetros para un rendimiento óptimo, mientras que la configuración congelada habilita el uso de un transformer compartido en varias tareas, reduciendo el tiempo de entrenamiento y los requisitos de recursos.
Resultados
El rendimiento del modelo AoSE se compara con varias líneas base utilizando los tres conjuntos de datos. En ambas configuraciones, el modelo AoSE muestra resultados competitivos, especialmente en la configuración congelada donde supera constantemente a otros modelos. Esto es significativo en escenarios donde los recursos son limitados, permitiendo que el mismo modelo subyacente se use en múltiples aplicaciones.
La velocidad de entrenamiento de la arquitectura AoSE también es mejor en la configuración congelada, lo que lleva a resultados más rápidos y costos computacionales reducidos.
Estudio de Ablación
Se realiza un estudio de ablación para probar aún más la relevancia de la arquitectura AoSE en comparación con métodos más simples. Al evaluar el rendimiento de los transformers de oraciones individuales y varias configuraciones de la arquitectura AoSE, queda claro que el método se beneficia efectivamente de secuencias más largas, especialmente en documentos que superan los 512 tokens.
Impacto de los Transformers de Oraciones
La elección del transformer de oraciones juega un papel crucial en los resultados de rendimiento. Se prueban diferentes transformers de oraciones, siendo el AoSE quien logra mejores resultados en general al utilizar transformers de mayor calidad. Los resultados demuestran que no solo la arquitectura AoSE mejora el rendimiento, sino que la selección del transformer subyacente impacta significativamente en la efectividad general.
Conclusión
Este estudio presenta una nueva forma de clasificar documentos largos utilizando transformers de oraciones pre-entrenados combinados con un mecanismo de atención lineal. El método propuesto demuestra un buen rendimiento en comparación con modelos tradicionales y ofrece ventajas en la velocidad de entrenamiento, especialmente cuando los pesos subyacentes están congelados. La arquitectura muestra promesa para extenderse a diferentes idiomas y dominios con mínimos ajustes, abriendo nuevas avenidas para futuras investigaciones en la clasificación de documentos largos.
Título: Attention over pre-trained Sentence Embeddings for Long Document Classification
Resumen: Despite being the current de-facto models in most NLP tasks, transformers are often limited to short sequences due to their quadratic attention complexity on the number of tokens. Several attempts to address this issue were studied, either by reducing the cost of the self-attention computation or by modeling smaller sequences and combining them through a recurrence mechanism or using a new transformer model. In this paper, we suggest to take advantage of pre-trained sentence transformers to start from semantically meaningful embeddings of the individual sentences, and then combine them through a small attention layer that scales linearly with the document length. We report the results obtained by this simple architecture on three standard document classification datasets. When compared with the current state-of-the-art models using standard fine-tuning, the studied method obtains competitive results (even if there is no clear best model in this configuration). We also showcase that the studied architecture obtains better results when freezing the underlying transformers. A configuration that is useful when we need to avoid complete fine-tuning (e.g. when the same frozen transformer is shared by different applications). Finally, two additional experiments are provided to further evaluate the relevancy of the studied architecture over simpler baselines.
Autores: Amine Abdaoui, Sourav Dutta
Última actualización: 2023-07-18 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2307.09084
Fuente PDF: https://arxiv.org/pdf/2307.09084
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://github.com/UKPLab/sentence-transformers
- https://huggingface.co/sentence-transformers/nli-roberta-base-v2
- https://huggingface.co/datasets/imdb
- https://msnews.github.io
- https://huggingface.co/datasets/SetFit/20
- https://huggingface.co/sentence-transformers/bert-base-nli-mean-tokens
- https://huggingface.co/sentence-transformers/paraphrase-mpnet-base-v2
- https://huggingface.co/sentence-transformers/stsb-xlm-r-multilingual
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq