Hybrid-SQuAD: El futuro de las preguntas y respuestas académicas
Un conjunto de datos que combina texto y datos estructurados para mejorar las respuestas a preguntas académicas.
Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
― 4 minilectura
Tabla de contenidos
En el mundo de la investigación, encontrar respuestas precisas a preguntas puede ser complicado. Muchos sistemas que intentan responder a estas preguntas suelen centrarse en un tipo de dato, ya sea texto o gráficos. Sin embargo, la información académica a menudo proviene de una mezcla de diferentes fuentes. Para abordar este problema, se ha creado un nuevo conjunto de datos llamado Hybrid-SQuAD. Este conjunto de datos ayuda a los sistemas a responder preguntas al extraer información tanto de texto como de datos estructurados.
¿Qué es Hybrid-SQuAD?
Hybrid-SQuAD significa Conjunto de Datos Híbrido de Respuestas a Preguntas Académicas. Es una gran colección de preguntas y respuestas diseñada para mejorar cómo podemos responder preguntas académicas. Este conjunto de datos contiene alrededor de 10,500 pares de preguntas y respuestas generadas por un potente modelo informático. Las preguntas provienen de diversas fuentes, incluyendo bases de datos como DBLP y SemOpenAlex, y textos de Wikipedia. El objetivo es asegurarse de que se puedan encontrar respuestas al mirar múltiples fuentes en lugar de solo una.
La necesidad de enfoques híbridos
Las preguntas académicas a menudo requieren información que está dispersa en diferentes ubicaciones. Por ejemplo, alguien podría necesitar mirar un Grafo de Conocimiento (KG) que lista publicaciones y luego verificar Wikipedia para obtener más detalles personales sobre los autores. Una pregunta típica podría ser, "¿Cuál es el principal interés de investigación del autor de un papel específico?" Esta pregunta no se puede responder solo mirando una fuente; se necesita información gráfica y textual. Ahí es donde entra Hybrid-SQuAD, facilitando la recopilación de todos los datos necesarios para las respuestas.
Construcción del conjunto de datos
Crear este conjunto de datos implicó un proceso exhaustivo:
-
Recolección de datos: El equipo reunido datos de DBLP, una base de datos de publicaciones de informática, y SemOpenAlex, que contiene información académica. También recopilaron textos relacionados de Wikipedia.
-
Generación de preguntas: Usando un modelo de lenguaje, crearon preguntas basadas en la información recogida. El modelo produjo pares de preguntas y respuestas que reflejan la complejidad de las indagaciones académicas.
-
Control de calidad: Los investigadores revisaron las preguntas generadas para asegurarse de que fueran claras y tuvieran sentido. Cualquier pregunta que tuviera respuestas incompletas se revisó para mejorar la calidad.
Tipos de preguntas en Hybrid-SQuAD
Las preguntas en este conjunto de datos abarcan varios tipos:
-
Preguntas puente: Estas requieren vincular datos de diferentes fuentes para encontrar respuestas. Por ejemplo, averiguar las cuentas de citas para un autor involucrado en un trabajo particular.
-
Preguntas de comparación: Estas piden comparaciones entre entidades, como determinar qué autor tiene una mayor cantidad de citas.
-
Preguntas basadas en texto: Algunas preguntas implican extraer información específica del texto, como el enfoque principal de investigación de un autor.
-
Preguntas complejas: Algunas preguntas piden información que necesita datos de múltiples fuentes, requiriendo tanto datos textuales como gráficos para encontrar respuestas.
Rendimiento del modelo
Para ver qué tan bien podían los sistemas responder a estas preguntas, se desarrolló un modelo base. Este modelo logró alcanzar una impresionante tasa de precisión de más del 69%, demostrando su efectividad al responder preguntas de Hybrid-SQuAD. En contraste, modelos populares como ChatGPT tuvieron dificultades, logrando apenas un 3% de precisión cuando se probaron sin ningún contexto.
Importancia de Hybrid-SQuAD
Hybrid-SQuAD es esencial porque fomenta el progreso en cómo respondemos a preguntas académicas complejas. Al empujar los límites de los sistemas y metodologías existentes, puede ayudar a establecer nuevos estándares en la investigación académica y la integración de datos.
Conclusión
Hybrid-SQuAD es un paso importante hacia la mejora de cómo abordamos preguntas académicas. Al combinar diferentes tipos de datos y crear un recurso rico para construir mejores sistemas de preguntas y respuestas, busca mejorar la precisión y eficiencia de la investigación académica. ¿Quién diría que responder preguntas de investigación podría despertar tanto entusiasmo? Los investigadores ahora tienen una herramienta más en su caja de herramientas, haciendo que la búsqueda del conocimiento sea un poco más fácil y mucho más divertida.
Fuente original
Título: Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
Resumen: Existing Scholarly Question Answering (QA) methods typically target homogeneous data sources, relying solely on either text or Knowledge Graphs (KGs). However, scholarly information often spans heterogeneous sources, necessitating the development of QA systems that integrate information from multiple heterogeneous data sources. To address this challenge, we introduce Hybrid-SQuAD (Hybrid Scholarly Question Answering Dataset), a novel large-scale QA dataset designed to facilitate answering questions incorporating both text and KG facts. The dataset consists of 10.5K question-answer pairs generated by a large language model, leveraging the KGs DBLP and SemOpenAlex alongside corresponding text from Wikipedia. In addition, we propose a RAG-based baseline hybrid QA model, achieving an exact match score of 69.65 on the Hybrid-SQuAD test set.
Autores: Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
Última actualización: 2024-12-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.02788
Fuente PDF: https://arxiv.org/pdf/2412.02788
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.w3.org/TR/rdf-sparql-query/
- https://dblp.org
- https://semopenalex.org/resource/semopenalex:UniversalSearch
- https://orkg.org
- https://openai.com/blog/chatgpt
- https://github.com/semantic-systems/hybrid-squad
- https://www.quora.com/
- https://stackexchange.com/
- https://www.mturk.com/
- https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct
- https://sbert.net
- https://huggingface.co/google/flan-t5-small
- https://huggingface.co/deepset/bert-base-cased-squad2
- https://blog.dblp.org/2022/03/02/dblp-in-rdf/
- https://semopenalex.org/authors/context
- https://semopenalex.org/institutions/context
- https://dblp-april24.skynet.coypu.org/sparql
- https://semoa.skynet.coypu.org/sparql
- https://drive.google.com/file/d/1ISxvb4q1TxcYRDWlyG-KalInSOeZqpyI/view?usp=drive_link
- https://orcid.org
- https://pypi.org/project/beautifulsoup4/
- https://huggingface.co/BAAI/bge-small-en-v1.5
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://www.w3.org/1999/02/
- https://dblp.org/rdf/schema#
- https://semopenalex.org/ontology/
- https://purl.org/spar/bido/
- https://dbpedia.org/ontology/
- https://dbpedia.org/property/
- https://xmlns.com/foaf/0.1/
- https://www.w3.org/ns/org#
- https://www.w3.org/
- https://www.w3.org/2002/07/owl#