Analizando conjuntos de datos de preguntas y respuestas

Un estudio de conjuntos de datos y métricas en la investigación de respuesta a preguntas.

2025-06-06T18:53:24+00:00 ― 4 minilectura

Tabla de contenidos

Métricas Usadas
Resultados Experimentales
Rendimiento de T5-3b y LLaMA-7b
Conclusión
Fuente original
Enlaces de referencia

En este artículo, echamos un vistazo a diferentes Conjuntos de datos que usamos para nuestra investigación. La información incluye detalles como el número de muestras, la cantidad de preguntas y pistas proporcionadas en cada conjunto de datos.

Detalles del Conjunto de Datos

Examinamos tres conjuntos de datos principales: TriviaQA, NQ y WebQ. Aquí están los detalles sobre los conjuntos de datos.

Conjunto de datos	Escenario	Número de Preguntas	Número de Pistas
TriviaQA	Finetuned	11,313	105,709
TriviaQA	Vanilla	11,313	103,018
NQ	Finetuned	3,610	33,131
NQ	Vanilla	3,610	30,976
WebQ	Finetuned	2,032	16,978
WebQ	Vanilla	2,032	15,812

Distribución de Tipos de Pregunta

La distribución de tipos de pregunta en los conjuntos de datos también es crucial para nuestro estudio.

Tipo de Pregunta	TriviaQA	NQ	WebQ
Entrenamiento	14,645	1,000	1,000
Validación	140,973	9,638	9,619
Prueba	14.18	14.08	13.95
Longitud Prom. de Pista	14.98	15.07	15.14
Prom. Pistas/Pregunta	9.62	9.63	9.61
Prom. Entidades/Pregunta	1.35	1.40	1.35
Prom. Entidades/Pista	0.96	1.00	0.98
Prom. Fuentes/Pregunta	6.27	6.17	6.71

Métricas Usadas

En esta sección, hablamos de las métricas usadas para evaluar los métodos en nuestra investigación. La librería scikit-learn nos ayudó a calcular estas métricas.

Precisión (ACC)

Esta métrica verifica si las respuestas dadas por el modelo son correctas.

Coincidencia Exacta (EM)

Esto mide si el pasaje recuperado o generado incluye la respuesta correcta tal como aparece.

Precisión (PR)

Esto muestra cuántas palabras en el pasaje también se encuentran en la respuesta correcta.

Recall (RC)

Esto calcula el número de palabras de la respuesta correcta que se incluyen en el pasaje recuperado.

F1-measure (F1)

Esto es un equilibrio entre precisión y recall.

Contiene (CON)

Esta métrica verifica si el pasaje recuperado tiene toda la respuesta correcta.

BERTScore (BERT)

Esta métrica checa cuán similares son las palabras en el pasaje recuperado a la respuesta usando incrustaciones de palabras de BERT.

Resultados Experimentales

En esta sección, proporcionamos resultados de nuestros experimentos en varios escenarios. Analizamos cómo diferentes condiciones y factores afectan los resultados.

El número de pistas da contexto, mientras que la columna de ranking lista métodos para reordenar estas pistas.

Resultados para el Conjunto de Datos TriviaQA

En nuestros experimentos, analizamos los resultados de usar T5-3b como el lector. Aplicamos estrategias de aprendizaje tanto de zero-shot como de few-shot en el conjunto de datos TriviaQA.

Aquí están los resultados basados en diferentes métodos de ranking y cantidades de pistas.

Número de Pistas	Ranking	EM	F1	PR	RC	CON	BERT
8c	Zero-Shot
8c	Few-Shot

Resultados del Conjunto de Datos NQ

Similar al conjunto de datos anterior, proporcionamos resultados para el conjunto de datos NQ usando T5-3b en condiciones de zero-shot y few-shot.

Número de Pistas	Ranking	EM	F1	PR	RC	CON	BERT
8c	Zero-Shot
8c	Few-Shot

Resultados del Conjunto de Datos WebQ

Por último, presentamos resultados para el conjunto de datos WebQ bajo las mismas condiciones.

Número de Pistas	Ranking	EM	F1	PR	RC	CON	BERT
8c	Zero-Shot
8c	Few-Shot

Rendimiento de T5-3b y LLaMA-7b

También examinamos el rendimiento de T5-3b y LLaMA-7b en varios escenarios usando diferentes métodos de pistas.

Estudios de Caso

En esta sección, mostramos varios estudios de caso que demuestran los prompts que elegimos, junto con ejemplos de nuestros experimentos.

Preguntas y Respuestas de Muestra

Aquí hay algunas preguntas de muestra de los conjuntos de datos, junto con cómo respondieron los modelos:

Pregunta	Recuperador	LLaMA-70b	Respuesta Verdadera
¿Cuántas posiciones de puntos se usan normalmente en cada letra del sistema Braille?	6	seis	6, seis
¿Quién fue el líder de la pandilla cuyos miembros incluían a Benny el Bola, Brain y Choo Choo?	los chicos de bowery	top cat	top cat
¿Qué grupo de Glasgow firmó con Creation Records y grabó su sencillo debut "All Fall Down", en 1985?	primal scream	the pastels	the jesus and mary chain
¿Quién es el único hombre en ganar un Oscar al mejor actor interpretando hermanos?	jack nicholson	daniel day	henry fonda

Pistas Generadas

Nuestros estudios de caso ilustran cómo se generaron pistas para varias preguntas. Cada pista proporcionó contexto para ayudar a los modelos a encontrar las respuestas correctas.

Conclusión

En este artículo, exploramos varios conjuntos de datos utilizados para nuestra investigación, centrándonos en sus detalles, las métricas utilizadas para la evaluación, resultados experimentales y estudios de caso que ilustran la aplicación práctica de nuestros métodos. El objetivo es contribuir a la comprensión de cómo distintos modelos rinden al responder preguntas con la ayuda de pistas contextuales.

Analizando conjuntos de datos de preguntas y respuestas

Un estudio de conjuntos de datos y métricas en la investigación de respuesta a preguntas.

#Detalles del Conjunto de Datos

#Distribución de Tipos de Pregunta

#Métricas Usadas

#Precisión (ACC)

#Coincidencia Exacta (EM)

#Precisión (PR)

#Recall (RC)

#F1-measure (F1)

#Contiene (CON)

#BERTScore (BERT)

#Resultados Experimentales

#Resultados para el Conjunto de Datos TriviaQA

#Resultados del Conjunto de Datos NQ

#Resultados del Conjunto de Datos WebQ

#Rendimiento de T5-3b y LLaMA-7b

#Estudios de Caso

#Preguntas y Respuestas de Muestra

#Pistas Generadas

#Conclusión

Enlaces de referencia

Temas referenciados