Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Recuperación de información

Analizando conjuntos de datos de preguntas y respuestas

Un estudio de conjuntos de datos y métricas en la investigación de respuesta a preguntas.

Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

― 4 minilectura


Perspectivas del ConjuntoPerspectivas del Conjuntode Datos de Respuestas aPreguntasdatos y métricas clave.Evaluación y análisis de conjuntos de
Tabla de contenidos

En este artículo, echamos un vistazo a diferentes Conjuntos de datos que usamos para nuestra investigación. La información incluye detalles como el número de muestras, la cantidad de preguntas y pistas proporcionadas en cada conjunto de datos.

Detalles del Conjunto de Datos

Examinamos tres conjuntos de datos principales: TriviaQA, NQ y WebQ. Aquí están los detalles sobre los conjuntos de datos.

Conjunto de datosEscenarioNúmero de PreguntasNúmero de Pistas
TriviaQAFinetuned11,313105,709
TriviaQAVanilla11,313103,018
NQFinetuned3,61033,131
NQVanilla3,61030,976
WebQFinetuned2,03216,978
WebQVanilla2,03215,812

Distribución de Tipos de Pregunta

La distribución de tipos de pregunta en los conjuntos de datos también es crucial para nuestro estudio.

Tipo de PreguntaTriviaQANQWebQ
Entrenamiento14,6451,0001,000
Validación140,9739,6389,619
Prueba14.1814.0813.95
Longitud Prom. de Pista14.9815.0715.14
Prom. Pistas/Pregunta9.629.639.61
Prom. Entidades/Pregunta1.351.401.35
Prom. Entidades/Pista0.961.000.98
Prom. Fuentes/Pregunta6.276.176.71

Métricas Usadas

En esta sección, hablamos de las métricas usadas para evaluar los métodos en nuestra investigación. La librería scikit-learn nos ayudó a calcular estas métricas.

Precisión (ACC)

Esta métrica verifica si las respuestas dadas por el modelo son correctas.

Coincidencia Exacta (EM)

Esto mide si el pasaje recuperado o generado incluye la respuesta correcta tal como aparece.

Precisión (PR)

Esto muestra cuántas palabras en el pasaje también se encuentran en la respuesta correcta.

Recall (RC)

Esto calcula el número de palabras de la respuesta correcta que se incluyen en el pasaje recuperado.

F1-measure (F1)

Esto es un equilibrio entre precisión y recall.

Contiene (CON)

Esta métrica verifica si el pasaje recuperado tiene toda la respuesta correcta.

BERTScore (BERT)

Esta métrica checa cuán similares son las palabras en el pasaje recuperado a la respuesta usando incrustaciones de palabras de BERT.

Resultados Experimentales

En esta sección, proporcionamos resultados de nuestros experimentos en varios escenarios. Analizamos cómo diferentes condiciones y factores afectan los resultados.

El número de pistas da contexto, mientras que la columna de ranking lista métodos para reordenar estas pistas.

Resultados para el Conjunto de Datos TriviaQA

En nuestros experimentos, analizamos los resultados de usar T5-3b como el lector. Aplicamos estrategias de aprendizaje tanto de zero-shot como de few-shot en el conjunto de datos TriviaQA.

Aquí están los resultados basados en diferentes métodos de ranking y cantidades de pistas.

Número de PistasRankingEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Resultados del Conjunto de Datos NQ

Similar al conjunto de datos anterior, proporcionamos resultados para el conjunto de datos NQ usando T5-3b en condiciones de zero-shot y few-shot.

Número de PistasRankingEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Resultados del Conjunto de Datos WebQ

Por último, presentamos resultados para el conjunto de datos WebQ bajo las mismas condiciones.

Número de PistasRankingEMF1PRRCCONBERT
8cZero-Shot
8cFew-Shot

Rendimiento de T5-3b y LLaMA-7b

También examinamos el rendimiento de T5-3b y LLaMA-7b en varios escenarios usando diferentes métodos de pistas.

Estudios de Caso

En esta sección, mostramos varios estudios de caso que demuestran los prompts que elegimos, junto con ejemplos de nuestros experimentos.

Preguntas y Respuestas de Muestra

Aquí hay algunas preguntas de muestra de los conjuntos de datos, junto con cómo respondieron los modelos:

PreguntaRecuperadorLLaMA-70bRespuesta Verdadera
¿Cuántas posiciones de puntos se usan normalmente en cada letra del sistema Braille?6seis6, seis
¿Quién fue el líder de la pandilla cuyos miembros incluían a Benny el Bola, Brain y Choo Choo?los chicos de bowerytop cattop cat
¿Qué grupo de Glasgow firmó con Creation Records y grabó su sencillo debut "All Fall Down", en 1985?primal screamthe pastelsthe jesus and mary chain
¿Quién es el único hombre en ganar un Oscar al mejor actor interpretando hermanos?jack nicholsondaniel dayhenry fonda

Pistas Generadas

Nuestros estudios de caso ilustran cómo se generaron pistas para varias preguntas. Cada pista proporcionó contexto para ayudar a los modelos a encontrar las respuestas correctas.

Conclusión

En este artículo, exploramos varios conjuntos de datos utilizados para nuestra investigación, centrándonos en sus detalles, las métricas utilizadas para la evaluación, resultados experimentales y estudios de caso que ilustran la aplicación práctica de nuestros métodos. El objetivo es contribuir a la comprensión de cómo distintos modelos rinden al responder preguntas con la ayuda de pistas contextuales.

Fuente original

Título: Exploring Hint Generation Approaches in Open-Domain Question Answering

Resumen: Automatic Question Answering (QA) systems rely on contextual information to provide accurate answers. Commonly, contexts are prepared through either retrieval-based or generation-based methods. The former involves retrieving relevant documents from a corpus like Wikipedia, whereas the latter uses generative models such as Large Language Models (LLMs) to generate the context. In this paper, we introduce a novel context preparation approach called HINTQA, which employs Automatic Hint Generation (HG) techniques. Unlike traditional methods, HINTQA prompts LLMs to produce hints about potential answers for the question rather than generating relevant context. We evaluate our approach across three QA datasets including TriviaQA, NaturalQuestions, and Web Questions, examining how the number and order of hints impact performance. Our findings show that the HINTQA surpasses both retrieval-based and generation-based approaches. We demonstrate that hints enhance the accuracy of answers more than retrieved and generated contexts.

Autores: Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt

Última actualización: 2024-09-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.16096

Fuente PDF: https://arxiv.org/pdf/2409.16096

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares