Evaluando Explicaciones Hechas por Humanos en el Entrenamiento de IA
Un nuevo método para evaluar la calidad de las explicaciones en modelos de IA.
― 7 minilectura
Tabla de contenidos
Las explicaciones hechas por humanos juegan un papel clave en el entrenamiento de modelos que entienden el lenguaje natural. Mientras que podemos revisar fácilmente la calidad de las etiquetas suministradas por humanos, lo mismo no se puede decir de las explicaciones en forma libre. Estas explicaciones pueden ser bastante personales y variar mucho de una persona a otra. Por eso, es importante hacer una pregunta crucial: ¿Cómo determinamos la calidad de estas explicaciones hechas por humanos?
En el contexto del entrenamiento de modelos de aprendizaje automático, sugerimos que la calidad de una explicación debería evaluarse según cuánto ayuda o dificulta el Desempeño de los modelos en las tareas para las que están diseñados. Nuestra investigación presenta una nueva manera de medir la utilidad de las explicaciones, comparada con otros métodos que solo consideran cuán similares son las explicaciones.
Al analizar varios Conjuntos de datos y tipos de modelos, encontramos que nuestra nueva herramienta de medición puede juzgar efectivamente la calidad de las explicaciones hechas por humanos. Las mediciones tradicionales que se enfocan en cómo se ven o suenan las explicaciones tienen limitaciones y a menudo no reflejan su verdadero valor.
A pesar del progreso en modelos de lenguaje a gran escala, la gente sigue teniendo curiosidad sobre cómo estos modelos hacen predicciones. Los investigadores a menudo dependen de anotadores humanos para proporcionar explicaciones que acompañan las salidas del modelo. Sin embargo, solo porque los humanos estén involucrados no garantiza que las explicaciones sean de alta calidad.
Herramientas de evaluación comunes como BLEU y ROUGE miden cuán similares son las explicaciones generadas por máquinas a las hechas por humanos, asumiendo que las explicaciones humanas siempre son las mejores. Este método puede ser engañoso, ya que diferentes personas podrían explicar la misma información de maneras únicas. Como resultado, no es suficiente tratar todas las explicaciones humanas como perfectas. En cambio, argumentamos que el verdadero valor de las explicaciones debería venir de cuánto mejoran las predicciones del modelo, en lugar de cuán similares son entre sí.
Instancias de Datos y Conjuntos de Datos
Para evaluar la efectividad de nuestro método, trabajamos con cinco conjuntos de datos bien conocidos que involucran explicaciones creadas por humanos. Cada uno de estos conjuntos tiene sus características únicas, y los evaluamos usando nuestra nueva herramienta de medición. Los conjuntos son:
- CoS-E v1.0: Esto involucra responder preguntas de sentido común con tres opciones.
- CoS-E v1.11: Una variante del conjunto anterior con cinco opciones.
- ECQA: También respuesta a preguntas de sentido común, pero con una configuración de cinco opciones.
- e-SNLI: Este conjunto trata sobre inferencia de lenguaje natural con tres etiquetas.
- ComVE: Un conjunto que implica decidir qué oración va en contra del sentido común.
Compilamos una visión general completa de estos conjuntos de datos, incluyendo los tipos de preguntas que hacen y cuántas instancias contienen. Esta información nos permite evaluar sistemáticamente las explicaciones proporcionadas para cada conjunto de datos.
La Importancia de Explicaciones de Calidad
Muchos investigadores creen que buenas explicaciones pueden ayudar a que los modelos funcionen mejor. Por ejemplo, las explicaciones pueden ser alimentadas a los modelos como entrada o usarse para entrenar a los modelos a crear sus propias explicaciones. Sin embargo, el problema de la calidad sigue presente. La mayoría de los Métodos de Evaluación existentes, como BLEU y ROUGE, comparan textos sin realmente abordar la efectividad de una explicación en la toma de decisiones.
Una métrica establecida llamada Simulabilidad se centra en cómo las explicaciones pueden influir en las predicciones del modelo. Sin embargo, no considera cuán útiles son estas explicaciones durante diferentes etapas, como el ajuste fino o la realización de predicciones. Encontramos que las explicaciones pueden proporcionar diferentes niveles de valor en estas etapas, por lo que proponemos un método mejorado que evalúa la utilidad de las explicaciones de manera más integral.
Nuestra métrica de evaluación toma en cuenta tanto el ajuste fino como las etapas de inferencia del procesamiento del modelo. Esto ayuda a proporcionar una imagen más clara de la utilidad de una explicación.
Método de Evaluación
Para analizar las explicaciones hechas por humanos, propusimos un método de evaluación simple pero efectivo. Observamos cuidadosamente cómo las explicaciones impactaron el desempeño del modelo en ambas etapas, el ajuste fino y la inferencia. Nuestra nueva métrica amplía la puntuación de Simulabilidad existente al considerar cómo reaccionan los modelos cuando se ajustan con y sin las explicaciones proporcionadas.
Probamos nuestra herramienta de evaluación en cinco conjuntos de datos usando dos tipos diferentes de modelos. Los resultados mostraron que nuestro método clasificaba consistentemente la calidad de las explicaciones humanas más acertadamente que los métodos existentes.
Resultados del Experimento
En nuestros experimentos, descubrimos cosas importantes sobre la efectividad de las explicaciones. Observamos que las explicaciones pueden variar en utilidad según el tipo de conjunto de datos y la tarea. Por ejemplo, al mirar el conjunto de datos CoS-E, vimos que incluso las explicaciones consideradas "ruidosas" o de baja calidad por humanos aún tenían un impacto positivo en las predicciones del modelo.
Nuestros hallazgos también revelaron dinámicas interesantes al usar explicaciones durante el entrenamiento. Los modelos que recibieron explicaciones como parte de su entrada de entrenamiento generalmente funcionaron mejor que aquellos que solo generaron sus propias explicaciones. Esto sugiere que incorporar explicaciones hechas por humanos de manera reflexiva puede mejorar el rendimiento del modelo.
Además, notamos que la forma en que se redactaron las explicaciones también importaba. Por ejemplo, las explicaciones que involucraban palabras que denotan negación a veces confundían a los modelos y los hacían menos efectivos. Esto sugiere que proporcionar explicaciones claras y directas es clave.
El Papel de las Tareas y Categorías
La efectividad de las explicaciones hechas por humanos también depende de las tareas o categorías específicas involucradas. En nuestra investigación, encontramos que los modelos respondían de manera diferente según cómo se estructuraban las explicaciones para varios tipos de preguntas. Algunas categorías recibieron explicaciones más claras, facilitando la comprensión de los modelos, mientras que otras sufrieron debido a la provisión de contraejemplos o redacción compleja.
Por ejemplo, las explicaciones en algunas categorías causaron altos niveles de confusión para los modelos. Esto indica que los anotadores humanos deben tener cuidado con cómo enmarcan sus explicaciones. En lugar de usar frases complejas o negativas, expresiones más directas pueden conducir a mejores resultados.
Conclusión
En conclusión, nuestra investigación examina de cerca la calidad de las explicaciones hechas por humanos y su impacto en el rendimiento del modelo. Al desarrollar una nueva forma de evaluar estas explicaciones, buscamos mejorar la colaboración entre humanos y IA en tareas de anotación de datos de entrenamiento. Los hallazgos de nuestra investigación deberían animar a futuros investigadores a mantener altos estándares para las explicaciones generadas por humanos, lo que finalmente lleva a modelos de IA más efectivos.
Al entender cómo se pueden estructurar y medir mejor las explicaciones humanas, abrimos la puerta a métodos de entrenamiento más efectivos que aprovechan las fortalezas tanto de la inteligencia humana como del aprendizaje automático. A medida que la IA continúa evolucionando, asegurar la calidad de su comprensión será vital para desarrollar sistemas más avanzados y confiables.
Título: Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations
Resumen: Human-annotated labels and explanations are critical for training explainable NLP models. However, unlike human-annotated labels whose quality is easier to calibrate (e.g., with a majority vote), human-crafted free-form explanations can be quite subjective. Before blindly using them as ground truth to train ML models, a vital question needs to be asked: How do we evaluate a human-annotated explanation's quality? In this paper, we build on the view that the quality of a human-annotated explanation can be measured based on its helpfulness (or impairment) to the ML models' performance for the desired NLP tasks for which the annotations were collected. In comparison to the commonly used Simulatability score, we define a new metric that can take into consideration the helpfulness of an explanation for model performance at both fine-tuning and inference. With the help of a unified dataset format, we evaluated the proposed metric on five datasets (e.g., e-SNLI) against two model architectures (T5 and BART), and the results show that our proposed metric can objectively evaluate the quality of human-annotated explanations, while Simulatability falls short.
Autores: Bingsheng Yao, Prithviraj Sen, Lucian Popa, James Hendler, Dakuo Wang
Última actualización: 2023-05-22 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.03117
Fuente PDF: https://arxiv.org/pdf/2305.03117
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://docs.google.com/document/d/1trByMxa1KQT60hba3EkKNVvlTD5KsqS4zxeQ96hh-WI/edit?usp=sharing
- https://arxiv.org/abs/2205.03401?context=cs
- https://arxiv.org/abs/2207.00779
- https://arxiv.org/abs/2107.00753
- https://arxiv.org/abs/2210.14011
- https://aclanthology.org/2020.acl-main.771/
- https://aclanthology.org/2020.emnlp-main.747/
- https://aclanthology.org/2020.acl-main.408.pdf
- https://airc.rpi.edu
- https://ibm.biz/AIHorizons
- https://huggingface.co/datasets/esnli/viewer/plain_text/test