Avanzando en la detección de posturas con modelos de lenguaje
Este estudio examina cómo los Modelos de Lenguaje Grande mejoran la clasificación de postura.
― 12 minilectura
Tabla de contenidos
- El Reto de la Detección de Postura
- Avances Recientes en Modelos de Lenguaje Grande
- Investigaciones Relacionadas
- Ingeniería de Prompts con LLMs
- Conjuntos de Datos Usados en Este Estudio
- Técnicas de Prompting
- Configuración de Pruebas
- Métricas de Evaluación
- Resultados Experimentales
- Inconsistencias en las Salidas de LLM
- Investigando Clasificación de Postura vs. Sentimiento
- Conclusión
- Fuente original
- Enlaces de referencia
La Detección de postura es la tarea de averiguar qué piensa alguien sobre un tema específico. Este ha sido un área de investigación importante, especialmente para entender las opiniones y puntos de vista de las personas sobre varios temas. Los métodos tradicionales para la detección de postura a menudo implican que las personas etiqueten manualmente frases con sus opiniones, lo que puede limitar la capacidad de los modelos para comprender diferentes contextos. En este estudio, examinamos cómo los Modelos de Lenguaje Grande (LLMs) pueden ayudar con la clasificación de postura usando muy pocas etiquetas humanas.
Analizamos diferentes maneras de incitar a los LLMs y comparamos su precisión con el etiquetado manual de postura. Nuestros hallazgos muestran que a veces los LLMs pueden igualar o superar los resultados estándar, pero en general no superan consistentemente a los Modelos Supervisados. Esto señala áreas donde los LLMs pueden mejorar en la clasificación de postura. Usar LLMs también reduce la necesidad de recolección manual de datos, facilitando la extensión de la detección de postura a múltiples idiomas.
Nos enfocamos en la capacidad de los LLMs en la clasificación de postura, proporcionando ideas que pueden ser útiles para futuros avances. El código de esta investigación está disponible para que otros lo usen y exploren.
El Reto de la Detección de Postura
Identificar y categorizar cómo se siente alguien sobre un tema en particular es un reto clave en la investigación sobre cómo las personas interactúan en las redes sociales. La detección de postura trata de predecir si alguien está de acuerdo, en desacuerdo o es neutral sobre un tema. Sin embargo, lo que significan estas etiquetas puede cambiar dependiendo del tema o contexto específico.
La detección de postura es crucial para varias tareas, como detectar noticias falsas, realizar encuestas de opinión y analizar rumores. La tarea puede parecer simple, pero viene con su propio conjunto de desafíos. La forma en que definimos las posturas puede ser confusa. La investigación ha demostrado que las definiciones pueden diferir en varios conjuntos de datos. Esta inconsistencia genera preocupaciones sobre la efectividad de los modelos entrenados con estos conjuntos de datos.
Otro desafío es que las posturas dependen en gran medida del contexto. Sin entender la situación, es difícil determinar con precisión la postura de alguien. Estos problemas hacen que sea difícil que los modelos de detección de postura sean aplicables de manera amplia, dejando la clasificación de postura como un desafío persistente.
Avances Recientes en Modelos de Lenguaje Grande
Los nuevos avances en LLMs han abierto oportunidades emocionantes para entender el lenguaje. Al incitar a estos modelos, los investigadores los han usado para abordar diversas tareas complejas del lenguaje. Cuando se aplican correctamente, las motivaciones también pueden funcionar bien con pocos o ningún dato etiquetado.
Estudios recientes han comenzado a usar ChatGPT para la clasificación de postura, pero con resultados mixtos. Algunos estudios indican que ChatGPT se desempeña mejor que algunos modelos supervisados, mientras que otros sugieren que podría tener problemas con la detección de postura. Aún no está claro si los LLMs pueden usarse efectivamente para la clasificación de postura a gran escala.
En este documento, preguntamos: ¿Qué tan efectivamente pueden los LLMs con ingeniería de prompts realizar clasificación de postura sin entrenamiento adicional? Usamos cinco conjuntos de datos disponibles públicamente en nuestra investigación, empleando diferentes métodos de prompts para evaluar su rendimiento en situaciones del mundo real donde a menudo faltan datos etiquetados. Si bien algunos métodos mostraron promesas, nuestros hallazgos indican que los LLMs aún enfrentan desafíos en esta área.
Investigaciones Relacionadas
La mayoría de los trabajos existentes en la detección de postura se han centrado en desarrollar modelos de aprendizaje automático supervisado. Las Máquinas de Soporte Vectorial han sido populares, especialmente en competiciones como el concurso de detección de postura SemEval-2016. Otros modelos supervisados a menudo utilizan redes neuronales, incluidas redes convolucionales y recurrentes.
Muchos estudios recientes han explorado el aprendizaje multitarea y el aprendizaje por transferencia adoptando modelos basados en transformadores. Si bien estos modelos suelen rendir mejor en sus conjuntos de datos específicos, a menudo tienen dificultades para adaptarse a nuevos tipos de datos o puntos de vista, lo que los hace menos útiles para aplicaciones del mundo real.
También existen técnicas no supervisadas, que se basan en el concepto de similitud de lenguaje para la clasificación. Un ejemplo es el uso de redes gráficas para inferir posturas basadas en los historiales de los usuarios en las redes sociales. Sin embargo, muchos de estos métodos requieren condiciones específicas para ser efectivos, como redes de interacción de usuarios, lo que limita su aplicabilidad.
Recientemente, ha crecido el interés en la detección de postura de cero disparos, donde se prueba a los modelos en datos para los que no fueron entrenados. Varios estudios han adaptado conjuntos de datos para explorar estrategias de cero disparos, demostrando que los modelos suelen tener un rendimiento peor en este entorno en comparación con la supervisión completa.
En cuanto a los LLMs y la detección de postura, el enfoque actual se ha centrado principalmente en ChatGPT, con resultados variables en diferentes estudios. Algunos hallazgos sugieren que puede ofrecer mejores resultados en ciertos conjuntos de datos que los métodos supervisados tradicionales, pero otras evidencias generan preocupaciones sobre la contaminación de datos que afecta las evaluaciones.
Ingeniería de Prompts con LLMs
A medida que los LLMs han evolucionado, ha surgido un nuevo área conocida como ingeniería de prompts. Este campo se enfoca en crear las entradas adecuadas para guiar a los modelos hacia producciones de mejores resultados. Varias técnicas han demostrado ser efectivas en esta área.
Una técnica común es el prompting de pocos disparos, donde los usuarios proporcionan algunos ejemplos de resultados deseados como parte de la entrada. Esto difiere del ajuste fino, donde los parámetros internos del modelo se ajustan según los datos de entrenamiento. El prompting de pocos disparos ha llevado consistentemente a mejores resultados, aunque factores como el orden de los ejemplos pueden causar variaciones en el rendimiento.
Otro método efectivo es el Razonamiento en Cadena de Pensamientos, que anima a los modelos a explicar su razonamiento paso a paso. Este enfoque ha mostrado promesas en estudios anteriores, ya que ayuda a los modelos a evitar dar respuestas plausibles pero incorrectas.
A pesar de la investigación en curso para determinar los mejores métodos de interacción con los LLMs, algunas técnicas de prompting han mejorado notablemente la calidad general de los resultados.
Conjuntos de Datos Usados en Este Estudio
En nuestra investigación, usamos cinco conjuntos de datos disponibles públicamente que han sido etiquetados manualmente. Estos conjuntos incluyen una mezcla de publicaciones de Twitter relacionadas con varios temas, que van desde desinformación sobre COVID-19, las elecciones presidenciales de EE. UU. de 2016, y tragedias. Cada conjunto de datos tiene propiedades y objetivos únicos, lo que significa que la forma en que se definen las posturas puede diferir entre ellos.
Por ejemplo, en conjuntos de datos sobre rumores de COVID-19, las posturas reflejan si una declaración apoya o niega el rumor. En otros conjuntos de datos, como los de las elecciones, las posturas expresan opiniones sobre la entidad.
Entender las diferentes estructuras y objetivos de estos conjuntos de datos fue crucial mientras nos preparábamos para usar LLMs con varias técnicas de prompting para clasificar posturas.
Técnicas de Prompting
Para evaluar el rendimiento de los LLMs en la clasificación de postura, aplicamos cuatro métodos de prompting diferentes. Cada método se basó en el anterior, agregando gradualmente más contexto e información.
Prompt Solo de Tarea
En el prompt solo de tarea, usamos un enfoque sencillo que solo proporcionó la descripción de la tarea. Este método de cero disparos pidió al LLM que clasificara una declaración dada sin contexto o ejemplos adicionales.
Prompt de Contexto
En el esquema de prompt de contexto, agregamos información contextual relacionada con la declaración y su objetivo. Esto le dio al LLM un poco de trasfondo, que es esencial para determinar las posturas.
Prompt de Contexto + Poco Disparo
Para este método, combinamos el prompt de contexto con un enfoque de pocos disparos. Incluimos algunos ejemplos de cómo podría funcionar la clasificación mientras manteníamos el contexto del esquema anterior.
Prompt de Contexto + Poco Disparo + Razonamiento
En el esquema final, introdujimos razonamiento a los prompts. Esto llevó a que el LLM diera una breve explicación para cada clasificación que producía. Al hacer esto, buscamos aprovechar el razonamiento en cadena de pensamientos y mejorar el proceso general.
Configuración de Pruebas
Seleccionamos cuidadosamente los LLMs para nuestra investigación, optando por usar solo modelos locales y de código abierto. Esta decisión buscó evitar problemas de contaminación potenciales encontrados en modelos cerrados. Para nuestros experimentos, nos enfocamos en modelos específicos de codificador-decodificador y solo decodificador disponibles en HuggingFace.
Desafortunadamente, descubrimos que los modelos solo de decodificador tenían dificultades para producir clasificaciones de postura satisfactorias. A menudo devolvían resultados sin sentido o no lograban responder al prompt. Como resultado, no incluimos los resultados de rendimiento de esos modelos.
Por el contrario, experimentamos con modelos de codificador-decodificador, que mostraron más promesas en nuestras pruebas. Utilizamos las clases AutoTokenizer y pipeline de HuggingFace para nuestros experimentos, asegurando consistencia en nuestras configuraciones.
Métricas de Evaluación
Para la evaluación, informamos el puntaje de precisión macro-F1 no ponderada, siguiendo metodologías de investigación anteriores. Esta métrica ajusta la distribución de las etiquetas de clase para tener en cuenta cualquier desequilibrio en los conjuntos de datos.
Resultados Experimentales
Nuestra evaluación se centró en evaluar el rendimiento de los LLMs con diferentes métodos de prompting a través de los conjuntos de datos seleccionados. Cada combinación de pruebas se realizó múltiples veces para tener en cuenta la variabilidad en los resultados, particularmente para prompts que carecían de contexto.
Encontramos que solo en dos de los cinco conjuntos de datos los LLMs con prompting superaron a los modelos supervisados de referencia. Sin embargo, el rendimiento de los LLMs a menudo estuvo cerca de los resultados de referencia, dentro de un margen de 0.05 o menos.
De nuestras pruebas, la inclusión de contexto en los prompts consistentemente arrojó mejores resultados. El contexto es crucial para determinar con precisión las posturas, lo que se alinea con la naturaleza de cómo se definen típicamente las posturas. Notamos que si bien la adición de ejemplos de pocos disparos y razonamiento no garantizó siempre un rendimiento mejorado, el modelo T-5 más grande realmente funcionó mejor que alternativas más pequeñas.
Inconsistencias en las Salidas de LLM
Durante nuestras pruebas, observamos inconsistencias en los formatos de salida proporcionados por los LLMs. Por ejemplo, el modelo a veces proporcionaba variaciones como "A FAVOR", "a favor", o "La postura es A FAVOR", lo que lleva a discrepancias en el etiquetado esperado. Si bien podríamos abordar estos problemas con scripts de post-procesamiento simples, sigue siendo una consideración importante.
Además, cuando incitamos al LLM a proporcionar razonamiento junto con sus clasificaciones, la salida podría carecer de explicaciones significativas. A menudo, el modelo reciclaba razones de los ejemplos proporcionados u omitía explicaciones por completo. Nuevamente, si bien esto podría solucionarse con post-procesamiento, resalta un desafío en aprovechar efectivamente a los LLMs para la clasificación de postura.
Investigando Clasificación de Postura vs. Sentimiento
Para explorar más formas de aumentar el rendimiento de los LLMs, intentamos cambiar la redacción de nuestros prompts de "postura" a "sentimiento." Dado que el análisis de sentimientos está estrechamente relacionado y tiene metodologías más establecidas, pensamos que este cambio podría producir mejores resultados.
Sin embargo, nuestros hallazgos indicaron que usar "sentimiento" no mejoró el rendimiento en ninguno de los casos que analizamos. De hecho, en realidad disminuyó los resultados, sugiriendo que los LLMs perciben estas tareas de manera diferente.
Conclusión
En conclusión, nuestra investigación muestra la versatilidad de los LLMs en las predicciones de postura, especialmente cuando se usan con prompts ricos en contexto y selecciones de modelos efectivas. Si bien los LLMs pueden producir resultados comparables a los modelos completamente supervisados, no superan consistentemente a estos.
La clasificación de postura sigue siendo una tarea compleja debido a las sutilezas del lenguaje y el contexto. Sin embargo, los LLMs ofrecen perspectivas emocionantes, particularmente en entornos donde una extensa anotación humana no es factible. Esta investigación proporciona una comprensión más profunda de las capacidades de los LLMs, sugiriendo que futuras mejoras podrían refinar aún más su rendimiento en tareas de clasificación de postura.
Al explorar varios métodos y consideraciones en este estudio, buscamos contribuir a una comprensión creciente de cómo se pueden utilizar efectivamente los LLMs en el ámbito de la detección de postura y potencialmente informar desarrollos en esta área en el futuro.
Título: Prompting and Fine-Tuning Open-Sourced Large Language Models for Stance Classification
Resumen: Stance classification, the task of predicting the viewpoint of an author on a subject of interest, has long been a focal point of research in domains ranging from social science to machine learning. Current stance detection methods rely predominantly on manual annotation of sentences, followed by training a supervised machine learning model. However, this manual annotation process requires laborious annotation effort, and thus hampers its potential to generalize across different contexts. In this work, we investigate the use of Large Language Models (LLMs) as a stance detection methodology that can reduce or even eliminate the need for manual annotations. We investigate 10 open-source models and 7 prompting schemes, finding that LLMs are competitive with in-domain supervised models but are not necessarily consistent in their performance. We also fine-tuned the LLMs, but discovered that fine-tuning process does not necessarily lead to better performance. In general, we discover that LLMs do not routinely outperform their smaller supervised machine learning models, and thus call for stance detection to be a benchmark for which LLMs also optimize for. The code used in this study is available at \url{https://github.com/ijcruic/LLM-Stance-Labeling}
Autores: Iain J. Cruickshank, Lynnette Hui Xian Ng
Última actualización: 2024-03-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.13734
Fuente PDF: https://arxiv.org/pdf/2309.13734
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.