Analizando conjuntos de datos de preguntas y respuestas
Un estudio de conjuntos de datos y métricas en la investigación de respuesta a preguntas.
Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt
― 4 minilectura
Tabla de contenidos
- Detalles del Conjunto de Datos
- Distribución de Tipos de Pregunta
- Métricas Usadas
- Precisión (ACC)
- Coincidencia Exacta (EM)
- Precisión (PR)
- Recall (RC)
- F1-measure (F1)
- Contiene (CON)
- BERTScore (BERT)
- Resultados Experimentales
- Resultados para el Conjunto de Datos TriviaQA
- Resultados del Conjunto de Datos NQ
- Resultados del Conjunto de Datos WebQ
- Rendimiento de T5-3b y LLaMA-7b
- Estudios de Caso
- Preguntas y Respuestas de Muestra
- Pistas Generadas
- Conclusión
- Fuente original
- Enlaces de referencia
En este artículo, echamos un vistazo a diferentes Conjuntos de datos que usamos para nuestra investigación. La información incluye detalles como el número de muestras, la cantidad de preguntas y pistas proporcionadas en cada conjunto de datos.
Detalles del Conjunto de Datos
Examinamos tres conjuntos de datos principales: TriviaQA, NQ y WebQ. Aquí están los detalles sobre los conjuntos de datos.
Conjunto de datos | Escenario | Número de Preguntas | Número de Pistas |
---|---|---|---|
TriviaQA | Finetuned | 11,313 | 105,709 |
TriviaQA | Vanilla | 11,313 | 103,018 |
NQ | Finetuned | 3,610 | 33,131 |
NQ | Vanilla | 3,610 | 30,976 |
WebQ | Finetuned | 2,032 | 16,978 |
WebQ | Vanilla | 2,032 | 15,812 |
Distribución de Tipos de Pregunta
La distribución de tipos de pregunta en los conjuntos de datos también es crucial para nuestro estudio.
Tipo de Pregunta | TriviaQA | NQ | WebQ |
---|---|---|---|
Entrenamiento | 14,645 | 1,000 | 1,000 |
Validación | 140,973 | 9,638 | 9,619 |
Prueba | 14.18 | 14.08 | 13.95 |
Longitud Prom. de Pista | 14.98 | 15.07 | 15.14 |
Prom. Pistas/Pregunta | 9.62 | 9.63 | 9.61 |
Prom. Entidades/Pregunta | 1.35 | 1.40 | 1.35 |
Prom. Entidades/Pista | 0.96 | 1.00 | 0.98 |
Prom. Fuentes/Pregunta | 6.27 | 6.17 | 6.71 |
Métricas Usadas
En esta sección, hablamos de las métricas usadas para evaluar los métodos en nuestra investigación. La librería scikit-learn nos ayudó a calcular estas métricas.
Precisión (ACC)
Esta métrica verifica si las respuestas dadas por el modelo son correctas.
EM)
Coincidencia Exacta (Esto mide si el pasaje recuperado o generado incluye la respuesta correcta tal como aparece.
PR)
Precisión (Esto muestra cuántas palabras en el pasaje también se encuentran en la respuesta correcta.
RC)
Recall (Esto calcula el número de palabras de la respuesta correcta que se incluyen en el pasaje recuperado.
F1-measure (F1)
Esto es un equilibrio entre precisión y recall.
Contiene (CON)
Esta métrica verifica si el pasaje recuperado tiene toda la respuesta correcta.
BERTScore (BERT)
Esta métrica checa cuán similares son las palabras en el pasaje recuperado a la respuesta usando incrustaciones de palabras de BERT.
Resultados Experimentales
En esta sección, proporcionamos resultados de nuestros experimentos en varios escenarios. Analizamos cómo diferentes condiciones y factores afectan los resultados.
El número de pistas da contexto, mientras que la columna de ranking lista métodos para reordenar estas pistas.
Resultados para el Conjunto de Datos TriviaQA
En nuestros experimentos, analizamos los resultados de usar T5-3b como el lector. Aplicamos estrategias de aprendizaje tanto de zero-shot como de few-shot en el conjunto de datos TriviaQA.
Aquí están los resultados basados en diferentes métodos de ranking y cantidades de pistas.
Número de Pistas | Ranking | EM | F1 | PR | RC | CON | BERT |
---|---|---|---|---|---|---|---|
8c | Zero-Shot | ||||||
8c | Few-Shot |
Resultados del Conjunto de Datos NQ
Similar al conjunto de datos anterior, proporcionamos resultados para el conjunto de datos NQ usando T5-3b en condiciones de zero-shot y few-shot.
Número de Pistas | Ranking | EM | F1 | PR | RC | CON | BERT |
---|---|---|---|---|---|---|---|
8c | Zero-Shot | ||||||
8c | Few-Shot |
Resultados del Conjunto de Datos WebQ
Por último, presentamos resultados para el conjunto de datos WebQ bajo las mismas condiciones.
Número de Pistas | Ranking | EM | F1 | PR | RC | CON | BERT |
---|---|---|---|---|---|---|---|
8c | Zero-Shot | ||||||
8c | Few-Shot |
Rendimiento de T5-3b y LLaMA-7b
También examinamos el rendimiento de T5-3b y LLaMA-7b en varios escenarios usando diferentes métodos de pistas.
Estudios de Caso
En esta sección, mostramos varios estudios de caso que demuestran los prompts que elegimos, junto con ejemplos de nuestros experimentos.
Preguntas y Respuestas de Muestra
Aquí hay algunas preguntas de muestra de los conjuntos de datos, junto con cómo respondieron los modelos:
Pregunta | Recuperador | LLaMA-70b | Respuesta Verdadera |
---|---|---|---|
¿Cuántas posiciones de puntos se usan normalmente en cada letra del sistema Braille? | 6 | seis | 6, seis |
¿Quién fue el líder de la pandilla cuyos miembros incluían a Benny el Bola, Brain y Choo Choo? | los chicos de bowery | top cat | top cat |
¿Qué grupo de Glasgow firmó con Creation Records y grabó su sencillo debut "All Fall Down", en 1985? | primal scream | the pastels | the jesus and mary chain |
¿Quién es el único hombre en ganar un Oscar al mejor actor interpretando hermanos? | jack nicholson | daniel day | henry fonda |
Pistas Generadas
Nuestros estudios de caso ilustran cómo se generaron pistas para varias preguntas. Cada pista proporcionó contexto para ayudar a los modelos a encontrar las respuestas correctas.
Conclusión
En este artículo, exploramos varios conjuntos de datos utilizados para nuestra investigación, centrándonos en sus detalles, las métricas utilizadas para la evaluación, resultados experimentales y estudios de caso que ilustran la aplicación práctica de nuestros métodos. El objetivo es contribuir a la comprensión de cómo distintos modelos rinden al responder preguntas con la ayuda de pistas contextuales.
Título: Exploring Hint Generation Approaches in Open-Domain Question Answering
Resumen: Automatic Question Answering (QA) systems rely on contextual information to provide accurate answers. Commonly, contexts are prepared through either retrieval-based or generation-based methods. The former involves retrieving relevant documents from a corpus like Wikipedia, whereas the latter uses generative models such as Large Language Models (LLMs) to generate the context. In this paper, we introduce a novel context preparation approach called HINTQA, which employs Automatic Hint Generation (HG) techniques. Unlike traditional methods, HINTQA prompts LLMs to produce hints about potential answers for the question rather than generating relevant context. We evaluate our approach across three QA datasets including TriviaQA, NaturalQuestions, and Web Questions, examining how the number and order of hints impact performance. Our findings show that the HINTQA surpasses both retrieval-based and generation-based approaches. We demonstrate that hints enhance the accuracy of answers more than retrieved and generated contexts.
Autores: Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt
Última actualización: 2024-09-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2409.16096
Fuente PDF: https://arxiv.org/pdf/2409.16096
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.