Voz vs. Texto: Un Estudio sobre Juicios de Relevancia
Esta investigación compara métodos de voz y texto para evaluaciones de relevancia en la recuperación de información.
― 6 minilectura
Tabla de contenidos
Crear evaluaciones de relevancia es clave cuando se arman colecciones de prueba para la recuperación de información. Este estudio investiga cómo el uso de la voz en vez de Texto impacta la forma en que la gente decide si los documentos son relevantes para una consulta específica. A medida que las interfaces de voz se vuelven más comunes, es útil saber si pueden ayudar a juzgar la relevancia de los documentos.
Antecedentes
Tradicionalmente, las evaluaciones de relevancia se han basado en evaluadores humanos que leen varios documentos y determinan su relevancia según consultas específicas. Este proceso a menudo involucra varios factores, como el tipo de documentos, su longitud y el conocimiento previo de los evaluadores.
Los avances recientes en tecnología han hecho que las interfaces de voz sean populares. Estas herramientas permiten a las personas interactuar con contenido usando su voz, y este estudio busca entender qué tan bien funcionan estas interfaces para evaluaciones de relevancia en comparación con las basadas en texto.
Objetivos de la Investigación
Los objetivos de esta investigación son tres:
- Averiguar si el uso de la voz afecta la precisión de los Juicios de relevancia.
- Examinar cómo la longitud del documento impacta el tiempo que se tarda en hacer esos juicios en entornos de voz y texto.
- Explorar cómo las habilidades cognitivas de los evaluadores, como la memoria de trabajo y la inhibición, influyen en su rendimiento en las evaluaciones.
Metodología
Diseño del Estudio de Usuario
Los participantes en el estudio fueron invitados a juzgar la relevancia de varias emparejamientos de consultas y pasajes. Estos pasajes se presentaron ya sea como texto o como clips de audio. El objetivo del estudio era equilibrar la longitud y la modalidad del pasaje para evaluar diferentes factores de manera sistemática.
Primero, los participantes completaron una encuesta para proporcionar información de fondo sobre ellos mismos y su familiaridad con las interfaces de voz. Luego, completaron dos tareas que midieron sus habilidades cognitivas. Después, evaluaron una serie de pasajes.
Participantes
Se reclutó un total de participantes para el estudio. Se les examinó para asegurarse de que no tuvieran discapacidades visuales y que fueran usuarios regulares de interfaces de voz. La diversidad en edad y antecedentes educativos ayudó a obtener una visión más completa de los resultados.
Tarea de Juicio de Relevancia
Se presentó a los participantes una serie de consultas junto con pasajes específicos. Dependiendo de la condición asignada, estos pasajes se leyeron en voz alta como audio o se mostraron como texto en la pantalla. Después de leer o escuchar, los participantes juzgaron la relevancia de ese pasaje según opciones específicas.
Medición de Habilidades Cognitivas
Las habilidades cognitivas se evaluaron a través de pruebas establecidas para la memoria de trabajo y la inhibición. La memoria de trabajo se midió usando una tarea de recordar secuencias, donde los participantes debían recordar y repetir una serie de letras. La inhibición se evaluó con una tarea donde los participantes debían identificar rápidamente el color de palabras que eran nombradas de manera diferente.
Hallazgos Clave
Juicios de Relevancia
Los resultados mostraron que los participantes fueron igualmente precisos al juzgar la relevancia, ya sea usando voz o texto. Esto fue un resultado alentador, sugiriendo que ambas modalidades pueden ayudar de manera efectiva en las evaluaciones de relevancia.
Impacto de la Longitud del Documento
Se encontró que a medida que aumentaba la longitud del documento, los participantes tardaban significativamente más en hacer juicios usando la interfaz de voz. De hecho, para documentos más largos, los participantes tardaban aproximadamente el doble en llegar a una conclusión en comparación con el texto. Esto es esencial a considerar al elegir un modo de presentación.
Importancia de las Habilidades Cognitivas
El estudio reveló que los participantes con mejores habilidades de inhibición se desempeñaron significativamente mejor en las tareas basadas en voz. Aquellos que podían ignorar distracciones y mantenerse enfocados eran más precisos en sus juicios. Esto indica que las habilidades cognitivas juegan un papel vital en qué tan bien los evaluadores rinden al juzgar la relevancia.
Carga de Trabajo y Esfuerzo Percibido
Los participantes informaron sentir menos carga mental al juzgar la relevancia a través de voz en comparación con el texto. Encontraron que las tareas de voz eran menos desafiantes, lo cual es un factor positivo al considerar interfaces de voz para tareas de evaluación de relevancia.
Implicaciones
Los hallazgos sugieren que las interfaces de voz pueden usarse de manera confiable para recopilar juicios de relevancia. Sin embargo, es vital considerar la longitud de los documentos que se evalúan y las habilidades cognitivas de los participantes. Para pasajes más cortos, la voz puede ser más eficiente, mientras que los documentos más largos pueden beneficiarse de la presentación en texto.
Direcciones para Futuras Investigaciones
Varios áreas merecen más exploración:
Acelerar la Reproducción de Audio: Permitir que los participantes aceleren o salten partes de los pasajes de audio podría ayudar a minimizar el tiempo gastado sin sacrificar la precisión. Sería interesante ver cómo esto impacta la eficiencia de las evaluaciones de relevancia.
Límites de Longitud de Documentos: Entender cuán largos pueden ser los pasajes de audio mientras se logra una precisión comparable al texto sería valioso. Esto podría llevar a un mejor diseño en futuras tareas de evaluación de relevancia.
Razonamiento para los Juicios: Pedir a los participantes que proporcionen razones para sus juicios podría mejorar la precisión de las evaluaciones de relevancia, especialmente en tareas de voz. Examinar esto podría mejorar aún más la fiabilidad de los resultados.
Evaluar el Impacto del Ruido de Fondo: El estudio no controló el ruido de fondo durante las tareas de voz. Investigar cómo el ruido afecta los juicios de relevancia sería importante para aplicaciones prácticas.
Usabilidad en Dispositivos Móviles: Dada la amplia utilización de teléfonos inteligentes, evaluar la relevancia a través de voz en dispositivos móviles podría ser un paso importante hacia aumentar la accesibilidad para los trabajadores del crowdsourcing.
Conclusión
Este estudio exploró el uso de interfaces de voz para juicios de relevancia y encontró resultados prometedores. Las evaluaciones basadas en voz pueden ser tan precisas como los métodos basados en texto, con la salvedad de que los documentos más largos pueden requerir más tiempo para evaluar. Además, las habilidades cognitivas, particularmente la inhibición, juegan un papel crucial en la precisión de las decisiones. En general, esta investigación abre la puerta a más exploraciones en el ámbito de la tecnología de voz y sus aplicaciones en tareas de recuperación de información.
Título: Hear Me Out: A Study on the Use of the Voice Modality for Crowdsourced Relevance Assessments
Resumen: The creation of relevance assessments by human assessors (often nowadays crowdworkers) is a vital step when building IR test collections. Prior works have investigated assessor quality & behaviour, though into the impact of a document's presentation modality on assessor efficiency and effectiveness. Given the rise of voice-based interfaces, we investigate whether it is feasible for assessors to judge the relevance of text documents via a voice-based interface. We ran a user study (n = 49) on a crowdsourcing platform where participants judged the relevance of short and long documents sampled from the TREC Deep Learning corpus-presented to them either in the text or voice modality. We found that: (i) participants are equally accurate in their judgements across both the text and voice modality; (ii) with increased document length it takes participants significantly longer (for documents of length > 120 words it takes almost twice as much time) to make relevance judgements in the voice condition; and (iii) the ability of assessors to ignore stimuli that are not relevant (i.e., inhibition) impacts the assessment quality in the voice modality-assessors with higher inhibition are significantly more accurate than those with lower inhibition. Our results indicate that we can reliably leverage the voice modality as a means to effectively collect relevance labels from crowdworkers.
Autores: Nirmal Roy, Agathe Balayn, David Maxwell, Claudia Hauff
Última actualización: 2023-04-21 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2304.10881
Fuente PDF: https://arxiv.org/pdf/2304.10881
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://drive.google.com/file/d/1sckq16K78A_wY8QP74E-e3CvnPE3SpoC/view?usp=sharing
- https://drive.google.com/file/d/1VCAsBzh6M_KJwiC8YD488dge1tBq-cTC/view?usp=sharing
- https://drive.google.com/file/d/1vySeF5ob6juBgENn-apcJzK8WJCsA5aP/view?usp=sharing
- https://osf.io/48vx5/?view_only=9ed09286e3b74c6c853e24411b798826
- https://aws.amazon.com/polly/
- https://www.qualtrics.com/
- https://www.prolific.co/
- https://ctan.org/pkg/amssymb
- https://www.acm.org/publications/taps/whitelist-of-latex-packages