Mejorando la detección de moralidad en textos
Un nuevo marco mejora la detección de fundamentos morales en textos diversos.
― 12 minilectura
Tabla de contenidos
Los modelos de lenguaje se pueden entrenar para entender los sentimientos morales expresados en un texto. Esto ofrece nuevas maneras de estudiar cómo la moralidad influye en la vida humana. A medida que más personas se enfocan en el lenguaje y la moralidad, varios conjuntos de datos que etiquetan aspectos morales en textos han estado disponibles. Sin embargo, estos conjuntos de datos difieren en cómo fueron recogidos, los temas que cubren, las instrucciones dadas a quienes etiquetan los textos y otros factores. Simplemente unir estos conjuntos de datos variados puede llevar a modelos que no funcionan bien en diferentes situaciones.
Presentamos un marco que combina diferentes conjuntos de datos para mejorar el aprendizaje de aspectos morales en textos. Este modelo aplica un método llamado Entrenamiento Adversarial de Dominio para acercar los conjuntos de datos en las características que utilizan. También emplea una función de pérdida especial que ayuda a manejar las diferencias en las etiquetas. Nuestro marco muestra resultados sólidos en diferentes conjuntos de datos en comparación con métodos anteriores que se centran en entender la moralidad.
La moralidad ayuda a las personas a distinguir entre lo correcto y lo incorrecto e influye en sus interacciones diarias. También moldea los juicios, creencias y actitudes de las personas, lo que puede llevar a diferentes experiencias morales en diversas culturas. La investigación ha relacionado los sentimientos morales con creencias políticas, estrategias de comunicación en los medios e incluso actos de violencia.
Para medir la moralidad, los investigadores han creado una escala para capturar las reacciones éticas instintivas de las personas ante situaciones sociales. La Teoría de los Fundamentos Morales (MFT) describe la moralidad en cinco áreas clave:
- Cuidado/Dañar: Preocupación por el sufrimiento de otros.
- Justicia/Engaño: Problemas relacionados con la justicia y los derechos.
- Lealtad/Traición: Compromiso con el grupo.
- Autoridad/Subversión: Respeto por la autoridad.
- Santidad/Degradación: Enfoque en la pureza y evitar la contaminación.
En el pasado, estudiar la moralidad dependía de cuestionarios e historias diseñadas para revelar estas dimensiones. Recientemente, los métodos automatizados para el procesamiento de lenguaje natural (NLP) han hecho posible evaluar la moralidad en grandes cantidades de texto, como artículos de noticias y publicaciones en redes sociales. Este avance ha abierto nuevas vías para estudiar la moralidad.
Técnicas más avanzadas entrenan modelos de lenguaje usando conjuntos de datos etiquetados por anotadores humanos que identifican las expresiones morales en textos. Una vez que estos modelos están entrenados, pueden evaluar la moralidad en nuevos textos. El creciente interés en esta área ha llevado a la creación de múltiples conjuntos de datos etiquetados para el análisis de fundamentos morales.
Los investigadores esperan que al entrenar modelos utilizando varios conjuntos de datos, lograrán mejores resultados y más flexibilidad. Sin embargo, estos conjuntos de datos etiquetados difieren mucho: algunos se enfocan en noticias mientras que otros miran redes sociales; algunos cubren política mientras que otros pueden abordar salud; algunos ofrecen instrucciones amplias mientras que otros tienen directrices específicas. Simplemente fusionar estos diferentes tipos de datos puede llevar a predicciones inesperadas y sesgadas. Por ejemplo, los modelos entrenados en conjuntos de datos combinados podrían producir resultados que entran en conflicto con los de modelos entrenados en conjuntos de datos separados, un problema conocido como la paradoja de Simpson.
Abordamos el problema de enseñar clasificadores morales usando conjuntos de datos diferentes a través de un método inspirado en la fusión de datos. En lugar de usar datos combinados, nuestro enfoque aplica el entrenamiento adversarial de dominio para alinear las características de varios conjuntos de datos en un espacio unificado. Esto reduce las complicaciones causadas por las diferencias en los temas y mejora la capacidad del modelo para generalizar a través de diversas fuentes de datos.
Los conjuntos de datos también pueden diferir en la distribución de sus etiquetas. Por ejemplo, los tuits sobre problemas de salud pueden tener más mensajes enfocados en el cuidado que los tuits que discuten protestas políticas. Si esta diferencia no se considera, puede llevar a un mal desempeño en los clasificadores. Para contrarrestar este problema, sugerimos usar una Función de Pérdida Ponderada que equilibre las diferentes clases de etiquetas, cuidando de representar de manera justa tanto ejemplos positivos como negativos.
Comparado con métodos anteriores para detectar la moralidad, nuestro marco propuesto ofrece un rendimiento de primer nivel en muchos conjuntos de datos, especialmente en pruebas fuera del dominio. Creemos que nuestro trabajo es el primero en mejorar la flexibilidad de los modelos utilizados para el análisis de fundamentos morales a través de técnicas de Entrenamiento con múltiples conjuntos de datos y adaptación de dominio.
Trabajos Relacionados
Muchos estudios anteriores han trabajado para crear métodos para clasificar fundamentos morales en textos. Algunos usan enfoques basados en diccionarios que dependen de recursos léxicos existentes, como el Diccionario de Fundamentos Morales (MFD). Otros han propuesto usar representaciones de diccionarios distribuidos para encontrar similitudes semánticas entre palabras. Algunos métodos observan qué tan lejos está un texto de los ejes definidos por palabras que representan virtudes y vicios según los fundamentos morales.
Con el auge de modelos de lenguaje basados en transformadores avanzados como BERT, los investigadores han descubierto que estos grandes modelos preentrenados comienzan a entender normas sociales, lo que les permite identificar acciones correctas e incorrectas. Varios estudios han aplicado estos modelos de lenguaje para crear embeddings para la evaluación de fundamentos morales.
A medida que crece el interés en los estudios de moralidad, especialmente con grandes cantidades de contenido en redes sociales disponibles, la tarea de inferir la moralidad de vastas cantidades de datos no etiquetados se ha vuelto común. El desafío radica en utilizar de manera efectiva los recursos limitados mientras se obtiene un buen rendimiento a través de diferentes conjuntos de datos.
Los investigadores desarrollaron un marco mínimamente supervisado que combina muchas etiquetas débiles junto con un número más pequeño de etiquetas fuertes para analizar fundamentos morales relacionados con la vacuna COVID. Algunos han examinado la detección de moralidad en entornos de bajos recursos, entrenando modelos en un mayor volumen de datos disponibles mientras se refinan con un pequeño conjunto de ejemplos etiquetados.
Sin embargo, las etiquetas en el dominio no siempre son accesibles y etiquetar la moralidad es una tarea compleja. Esta dificultad a menudo resulta en altos costos de tiempo y bajo acuerdo entre los anotadores. En este estudio, miramos la situación más desafiante de realizar inferencias de moralidad fuera del dominio sin ninguna etiqueta en el dominio. Nuestro método utiliza conjuntos de datos heterogéneos existentes con etiquetas de moralidad y aplica ideas de adaptación de dominio para mejorar el rendimiento del modelo en situaciones fuera del dominio.
Enfoque y Método
La adaptación de dominio no supervisada es un área clave de investigación en aprendizaje automático. Se han desarrollado muchas estrategias para abordar esto, incluidas las que mejoran la calidad de los datos de entrenamiento y técnicas que permiten a los extractores de características generar características que no son específicas de ningún dominio.
Un enfoque es la red neuronal adversarial de dominio (DANN). Este modelo tiene un extractor de características, un clasificador de etiquetas y un clasificador de dominio que trabaja en oposición al extractor de características, promoviendo la producción de características que pueden engañar al clasificador de dominio. Este enfoque ha mostrado éxito en varias tareas de NLP, incluyendo clasificación de textos y detección de postura.
Si bien trabajos previos han utilizado ideas similares para la detección de postura, la detección de moralidad tiene desafíos únicos. Las categorías varían significativamente entre conjuntos de datos, ya que algunos se enfocan en si un texto es de apoyo o contrario, mientras que otros pueden centrarse en varios objetivos. La predicción de moralidad, en contraste, se basa en principios claramente definidos de la Teoría de los Fundamentos Morales y a menudo comparte las mismas etiquetas entre conjuntos de datos.
La estructura de nuestro modelo incluye un codificador BERT para la representación del texto, un módulo de transformación para la alineación de características, un clasificador de fundamentos morales con una función de pérdida ponderada, un clasificador de dominio adversarial y un módulo de reconstrucción para prevenir efectos adversos del entrenamiento en dominio. El objetivo es desarrollar embeddings independientes del dominio que puedan manejar diversos dominios de manera efectiva mientras siguen sobresaliendo en la detección de moralidad.
El codificador BERT convierte los textos en embeddings. Sin embargo, estos embeddings a menudo incluyen información específica del dominio que puede obstaculizar el rendimiento a través de diferentes conjuntos de datos. Para abordar esto, añadimos una capa de transformación invariante al dominio para modificar los embeddings de salida, asegurando que se retenga la información original.
El clasificador de fundamentos morales luego aprende a identificar fundamentos morales utilizando estos embeddings ajustados. Toma en cuenta que un solo texto puede relacionarse con múltiples fundamentos morales, permitiendo clasificaciones de múltiples etiquetas.
Para gestionar el desequilibrio entre ejemplos positivos y negativos, utilizamos una función de pérdida ponderada de entropía cruzada binaria, permitiendo que el modelo represente mejor las diversas clases. El clasificador de dominio distingue de qué conjunto de datos proviene una muestra, promoviendo el aprendizaje de características que son independientes del dominio.
Finalmente, incluimos un módulo de reconstrucción para mantener la integridad de los embeddings originales durante el entrenamiento adversarial. Combinando estos componentes, creamos un modelo robusto que alinea efectivamente diferentes conjuntos de datos.
Evaluación y Resultados
Evaluamos el rendimiento de nuestro modelo utilizando varios conjuntos de datos etiquetados en diferentes escenarios de prueba. Un conjunto de datos, el Corpus de Twitter de Fundamentos Morales, contiene tuits etiquetados por anotadores humanos sobre varios temas. Otro conjunto incluye tuits de miembros del Congreso de EE. UU. que cubren temas políticos, mientras que el Diccionario de Fundamentos Morales extendido consiste en artículos de noticias anotados por una gran multitud.
Comparó nuestro modelo con baselines establecidos: el método de Representaciones de Diccionario Distribuido, BERT y una versión de BERT mejorada con Filtrado Adversarial Ligero (AFLite). Nuestras evaluaciones utilizan la puntuación F1 para medir la efectividad a través de diferentes clases.
Un hallazgo clave es que mientras que el método no supervisado, DDR, puede desempeñarse bien con datos de entrenamiento pequeños, la efectividad de métodos supervisados como BERT y nuestro modelo aumenta significativamente cuando hay más datos etiquetados disponibles. Al fusionar diferentes conjuntos de datos y utilizar modelos sólidos, nuestro enfoque supera consistentemente a DDR.
Además, nuestro modelo también supera a BERT, especialmente cuando se enfrenta a datos de entrenamiento y prueba que tienen distribuciones distintas en características o etiquetas. En casos donde el conjunto de datos de entrenamiento es pequeño en comparación con un conjunto de prueba más grande y diverso, nuestro modelo demuestra sus fortalezas de manera más clara.
Mientras que comparar contra BERT con AFLite revela que nuestro modelo ofrece un rendimiento más consistente a través de varios conjuntos de datos sin sucumbir al sobreajuste relacionado con los datos de entrenamiento. La combinación de conjuntos de datos para el entrenamiento generalmente beneficia el rendimiento de todos los modelos, pero se necesita una consideración cuidadosa al fusionar conjuntos de datos con diferentes características o balances de etiquetas, ya que esto puede influir en las predicciones.
En general, nuestros hallazgos muestran que nuestro método maneja efectivamente los cambios en características y etiquetas, permitiendo un aprendizaje mejorado al trabajar con conjuntos de datos diversos. Además, marca un paso significativo en el avance de los métodos de vanguardia para detectar moralidad en varios contextos.
Conclusión
Hemos introducido un marco de fusión de datos destinado a mejorar el aprendizaje de fundamentos morales a través de conjuntos de datos diversos. Nuestro trabajo enfatiza la importancia de fusionar conjuntos de datos apropiados y demuestra que nuestro modelo supera a baselines tradicionales en muchos entornos. La incorporación del módulo adversarial de dominio y la función de pérdida ponderada contribuyen significativamente a la alineación de datos de diferentes fuentes.
A pesar de estos avances, quedan desafíos. Los esfuerzos futuros se centrarán en descomponer aún más grandes conjuntos de datos en temas específicos y mejorar los métodos de adaptación de dominio para abordar mejor los cambios de etiqueta. Además, trabajaremos para mitigar posibles sesgos derivados de la naturaleza subjetiva de la moralidad expresada en diferentes contextos culturales.
Al empujar los límites de cómo estudiamos la moralidad a través del lenguaje, esperamos crear modelos más precisos que puedan manejar las complejidades de las consideraciones éticas en entornos diversos.
Título: A Data Fusion Framework for Multi-Domain Morality Learning
Resumen: Language models can be trained to recognize the moral sentiment of text, creating new opportunities to study the role of morality in human life. As interest in language and morality has grown, several ground truth datasets with moral annotations have been released. However, these datasets vary in the method of data collection, domain, topics, instructions for annotators, etc. Simply aggregating such heterogeneous datasets during training can yield models that fail to generalize well. We describe a data fusion framework for training on multiple heterogeneous datasets that improve performance and generalizability. The model uses domain adversarial training to align the datasets in feature space and a weighted loss function to deal with label shift. We show that the proposed framework achieves state-of-the-art performance in different datasets compared to prior works in morality inference.
Autores: Siyi Guo, Negar Mokhberian, Kristina Lerman
Última actualización: 2023-04-04 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2304.02144
Fuente PDF: https://arxiv.org/pdf/2304.02144
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.