Avanzando los Modelos de Lenguaje para la Extracción de Conocimiento Académico
Investigando métodos basados en prompts para mejorar modelos de lenguaje en la recuperación de datos de investigación.
― 8 minilectura
Tabla de contenidos
En tiempos recientes, los investigadores han estado investigando cómo entrenar modelos de lenguaje usando "prompts". Esto significa que en lugar de darle a estos modelos una gran cantidad de datos, utilizan frases o preguntas específicas para obtener mejores resultados, especialmente en áreas donde no hay muchos datos disponibles. Este enfoque funciona bien para adaptar modelos preentrenados a nuevos desafíos. Este artículo se sumerge en cómo se puede usar este método para predecir objetos en gráficos de conocimiento académico, una forma de organizar información de investigación.
¿Por Qué Enfocarse en el Conocimiento Académico?
Con millones de nuevos artículos de investigación publicados cada año, mantenerse al día con los últimos hallazgos se está volviendo más complicado para los investigadores. Para ayudar con este problema, se creó una plataforma en línea conocida como el Open Research Knowledge Graph. Esta plataforma facilita la búsqueda y comprensión de las contribuciones académicas, permitiendo a los investigadores obtener información relevante rápidamente en lugar de gastar días o meses sumergiéndose en numerosos artículos.
A medida que los datos en este gráfico de conocimiento crecen, se presenta una gran oportunidad para la investigación. Usando modelos de lenguaje potentes, podemos encontrar nuevos hechos que pueden ayudar a los investigadores a navegar en este inmenso mar de información. Piensa en ello como tener un asistente inteligente que te ayuda a encontrar hechos importantes en un océano de documentos de investigación.
El Uso de Pruebas Cloze en Modelos de Lenguaje
Una prueba cloze es un tipo de evaluación de lenguaje donde los participantes deben llenar los espacios en blanco en oraciones. Este tipo de evaluación ayuda a las personas a mostrar su comprensión del lenguaje, incluyendo aspectos como vocabulario y contexto. Los investigadores han tomado esta idea y la han aplicado a modelos de lenguaje como BERT y RoBERTa. Estos modelos aprenden de grandes cantidades de texto para identificar palabras faltantes o predecir qué viene después en una oración, muy parecido a como los aprendices entienden un idioma.
Investigaciones anteriores han demostrado que los modelos de lenguaje pueden contener mucho conocimiento. Se han utilizado para extraer nuevos hechos para bases de conocimiento, que son sistemas que organizan y almacenan información de manera estructurada. Tradicionalmente, construir estas bases de conocimiento requería pasos complicados, pero los modelos de lenguaje pueden simplificar este proceso al proporcionar hechos directamente sin pasar por varios pasos.
Ajuste Fino de Modelos de Lenguaje
Para hacer que estos modelos de lenguaje sean aún más útiles, se pueden ajustar finamente para trabajos específicos. Por ejemplo, al usarlos para responder preguntas, pueden adaptarse para responder mejor a consultas relacionadas con la investigación. El ajuste fino ayuda a afilar la capacidad del modelo para extraer respuestas basadas en contexto y consultas.
En este caso, los investigadores pretendían usar un conjunto de datos bien conocido, el Stanford Question Answering Dataset (SQuAD), para ayudar a entrenar estos modelos. El objetivo es permitir que los modelos encuentren respuestas de los resúmenes de artículos de investigación basándose en preguntas específicas.
El Desafío de la Transferencia de Dominio
Cuando se trata de aplicar modelos de lenguaje en nuevas áreas, hay algunos obstáculos. Por ejemplo, los modelos de lenguaje que funcionan bien con datos generales pueden tener dificultades con conjuntos de datos especializados. Este estudio busca abordar ese problema probando métodos de entrenamiento basados en "prompts" en el conocimiento académico.
Los investigadores encontraron algunos resultados interesantes:
- Los modelos de lenguaje tienden a tener un rendimiento deficiente cuando se les introduce nuevos tipos de datos sin entrenamiento.
- Después de entrenar con "prompts", los modelos mostraron mejoras, con ganancias de rendimiento de hasta un 40% en condiciones de evaluación relajadas.
- Hay una brecha notable en la captura de conocimiento al pasar de dominios generales a académicos, lo que indica la necesidad de más esfuerzos especializados en este área.
Creando un Marco de Preguntas y Respuestas
Para abordar la tarea de extraer información de gráficos académicos, los investigadores describieron un marco específico basado en el enfoque SQuAD. Esto implicaba generar preguntas a partir de predicados, que son partes de declaraciones que describen relaciones.
Los pasos clave incluyeron:
- Generación de Preguntas: Usando plantillas preestablecidas, los investigadores crearon preguntas basadas en predicados específicos para recuperar respuestas de resúmenes de artículos. Estas incluían variaciones como preguntas de "Qué", "Cuál" y "Cómo".
- Recolección de Datos: Luego, reunieron datos que coincidieran con estas preguntas para asegurarse de que podían extraer información relevante de manera efectiva.
- Entrenamiento y Evaluación del Modelo: Después de recopilar los datos, el siguiente paso fue entrenar los modelos usando los pares estructurados de preguntas y respuestas y probar su rendimiento.
En el contexto de crear este sistema de preguntas y respuestas, los investigadores aspiraron a sacar información útil del Open Research Knowledge Graph. Se espera que esta iniciativa alivie la carga de los investigadores que revisan grandes cantidades de datos.
Los Beneficios y Limitaciones del Conjunto de Datos Prompt-ORKG
Como parte del proyecto, se creó un nuevo conjunto de datos llamado Prompt-ORKG. Este conjunto de datos está diseñado para reflejar la estructura del conjunto de datos SQuAD, facilitando el entrenamiento de modelos de lenguaje. Al aprovechar los datos estructurados disponibles en el ORKG, los investigadores podrían formar una base sólida para entrenar los modelos.
Sin embargo, aunque el conjunto de datos ofrece un comienzo prometedor, hay limitaciones. No todos los artículos en el gráfico de conocimiento proporcionan resúmenes, lo que puede reducir la efectividad del entrenamiento. De hecho, los investigadores lograron obtener resúmenes para aproximadamente el 58.5% de los artículos, dejando una porción significativa sin contexto.
Clasificación de Objetos y Selección de Modelos
Para refinar el proceso de extracción, los investigadores categorizaron objetos en el conjunto de datos según sus tipos. Examinaron varios tipos de objetos, incluyendo ubicaciones, números y oraciones. La categorización ayudó a entender qué tipos de datos tenían más probabilidades de éxito para los modelos y cuáles presentaban desafíos.
Después de crear el conjunto de datos Prompt-ORKG, los investigadores eligieron tres variantes de modelos transformadores para probar. Seleccionaron modelos en función de su capacidad para aprender de los datos y su efectividad en la transferencia de conocimiento de un dominio a otro.
Pruebas y Resultados
Después de preparar los modelos, los investigadores realizaron múltiples experimentos. Dividieron el conjunto de datos en conjuntos de entrenamiento y evaluación basados en la presencia de ciertos predicados. Cada experimento probó los modelos en varias variantes del conjunto de datos, llevando a los modelos a su límite para ver qué tan bien podían extraer información.
Las métricas de rendimiento se centraron en dos configuraciones principales:
- Coincidencia Exacta: Verificando si el modelo predijo la respuesta exactamente como era.
- Coincidencia Relajada: Verificando si la respuesta predicha contenía la respuesta correcta, permitiendo algo de flexibilidad.
Los resultados mostraron una mejora notable en el rendimiento de los modelos después de entrenar con el conjunto de datos Prompt-ORKG. Los modelos entrenados en este conjunto de datos superaron consistentemente a aquellos que no lo fueron, confirmando la efectividad de usar el formato estilo SQuAD.
Observaciones y Direcciones Futuras
A medida que los investigadores analizaron los resultados, reunieron ideas que podrían informar trabajos futuros:
- Impacto del Prompting: El método de usar "prompts" estructurados mejoró significativamente la capacidad de los modelos para transferir conocimiento al dominio académico.
- Variantes Óptimas del Conjunto de Datos: El tipo de conjunto de datos utilizado para el entrenamiento tuvo un impacto directo en la efectividad de los modelos. Ciertos tipos de preguntas dieron mejores resultados que otros.
- Desafío de los Tipos de Objetos: Quedó claro que ciertos tipos de objetos eran más fáciles de predecir para los modelos que otros. Por ejemplo, extraer datos de ubicación fue a menudo más exitoso que frases más complejas.
En general, aunque los resultados fueron prometedores, también destacaron áreas que requieren más atención. De cara al futuro, los investigadores esperan explorar diferentes tipos de preguntas, mejores métodos de prompting e investigar modelos diseñados específicamente para contextos académicos.
Conclusión
Al investigar el cuestionamiento basado en "prompts" para la predicción de objetos en el Open Research Knowledge Graph, este trabajo contribuye con valiosos aportes sobre cómo los modelos de lenguaje pueden servir mejor a la comunidad académica. De manera alentadora, los hallazgos preliminares muestran un gran potencial, allanando el camino para más investigaciones y desarrollos en el campo. El objetivo final es proporcionar a los investigadores herramientas que faciliten su acceso a información relevante, ayudándoles a mantenerse al día con el creciente cuerpo de literatura académica.
Título: Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph
Resumen: There have been many recent investigations into prompt-based training of transformer language models for new text genres in low-resource settings. The prompt-based training approach has been found to be effective in generalizing pre-trained or fine-tuned models for transfer to resource-scarce settings. This work, for the first time, reports results on adopting prompt-based training of transformers for \textit{scholarly knowledge graph object prediction}. The work is unique in the following two main aspects. 1) It deviates from the other works proposing entity and relation extraction pipelines for predicting objects of a scholarly knowledge graph. 2) While other works have tested the method on text genera relatively close to the general knowledge domain, we test the method for a significantly different domain, i.e. scholarly knowledge, in turn testing the linguistic, probabilistic, and factual generalizability of these large-scale transformer models. We find that (i) per expectations, transformer models when tested out-of-the-box underperform on a new domain of data, (ii) prompt-based training of the models achieve performance boosts of up to 40\% in a relaxed evaluation setting, and (iii) testing the models on a starkly different domain even with a clever training objective in a low resource setting makes evident the domain knowledge capture gap offering an empirically-verified incentive for investing more attention and resources to the scholarly domain in the context of transformer models.
Autores: Jennifer D'Souza, Moussab Hrou, Sören Auer
Última actualización: 2023-06-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.12900
Fuente PDF: https://arxiv.org/pdf/2305.12900
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://orkg.org/
- https://orkg.org/comparisons
- https://orkg.org/visualizations
- https://orkg.org/benchmarks
- https://data.uni-hannover.de/dataset/evaluating-squad-based-question-answering-for-the-open-research-knowledge-graph-completion
- https://github.com/as18cia/thesis_work
- https://huggingface.co/Moussab
- https://blog.paperspace.com/prompt-based-learning-in-natural-language-processing/
- https://orkg.org/paper/R44743/
- https://www.orkg.org/orkg/comparison/R44930
- https://tibhannover.gitlab.io/orkg/orkg-backend/api-doc/
- https://orkg.org/fields
- https://gitlab.com/TIBHannover/orkg/orkg-abstracts
- https://api.crossref.org/
- https://api.semanticscholar.org/
- https://pypi.org/project/spacy/
- https://github.com/giannisnik/mpad
- https://huggingface.co/deepset/bert-base-cased-squad2
- https://web.archive.org/save/
- https://commoncrawl.org/2016/10/newsdataset-available
- https://Skylion007.github.io/OpenWebTextCorpus
- https://huggingface.co/deepset/roberta-base-squad2
- https://huggingface.co/deepset/minilm-uncased-squad2