Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Estadística# Computación y lenguaje# Informática y sociedad# Aprendizaje automático# Aprendizaje automático

Clasificando Manifiestos Políticos en Diferentes Contextos

Un estudio sobre el uso de modelos de lenguaje para clasificar manifiestos políticos según varios factores.

― 6 minilectura


Estudio de ClasificaciónEstudio de Clasificaciónde Texto Políticoen diferentes contextos.clasificación de manifiestos políticosExaminando modelos para la
Tabla de contenidos

Los manifiestos de los partidos políticos juegan un papel crucial en las elecciones, delineando los principales objetivos y promesas de cada partido. Estos documentos ayudan a los votantes a entender lo que cada partido representa, guiando sus decisiones durante las elecciones. Analizar los manifiestos políticos también puede revelar patrones en cómo los partidos se adaptan después de las elecciones, cómo forman coaliciones y si toman ideas prestadas de partidos extranjeros exitosos. Sin embargo, uno de los grandes desafíos que enfrentan los investigadores es el tiempo y el esfuerzo requeridos para anotar estos manifiestos.

El Desafío de la Anotación

Anotar grandes conjuntos de datos de manifiestos políticos es laborioso. Los codificadores humanos necesitan leer y etiquetar cada documento según varios temas. Esto puede ser un proceso lento, a menudo obstaculizando la investigación. Una forma de abordar este problema es a través de la transferencia de dominio, que permite a los investigadores usar datos previamente anotados en diferentes contextos. Aún así, no está claro cuán confiable es este método al transferir entre lugares, idiomas, períodos y estilos de escritura.

Lo Que Pretendíamos Hacer

Nuestra investigación tenía como objetivo analizar una vasta colección de manifiestos políticos para ver qué tan bien se pueden clasificar al transferir entre diferentes factores como idioma, tiempo y género. Utilizamos una gran base de datos que contiene manifiestos políticos de más de 1,000 partidos políticos de 50 países, desde 1945 hasta la actualidad. El objetivo era probar la efectividad de modelos de lenguaje modernos, como BERT y su versión más pequeña, DistilBERT, en la Clasificación de estos documentos.

El Proyecto Manifiesto

El Proyecto Manifiesto ofrece una rica base de datos de agendas políticas. Anotadores humanos de diversos orígenes contribuyeron a este recurso, desglosando los manifiestos en partes más pequeñas y categorizándolos bajo 54 temas. Estos temas fueron agrupados en ocho tópicos más amplios. Automatizar el proceso de anotación podría llevar a ahorros significativos de tiempo y eficiencia en la investigación.

Métodos de Clasificación

Para clasificar las cuasi-oraciones de los manifiestos políticos en temas específicos, exploramos varios métodos de procesamiento de lenguaje natural (NLP). El enfoque base utilizó TF-IDF combinado con regresión logística, un método común en clasificación de textos. Además, empleamos varias versiones de BERT, un modelo de lenguaje de última generación diseñado para entender el lenguaje natural de manera más efectiva.

Nuestro Proceso de Investigación

Primero, revisamos estudios existentes para entender cómo otros abordaron la clasificación cruzada de dominios. Extrajimos manifiestos de la base de datos del Proyecto Manifiesto y consolidamos nuestros conjuntos de datos. Esto incluyó diferentes años y países, permitiendo un análisis más profundo de los textos políticos a lo largo del tiempo.

Configuración Experimental

Realizamos experimentos para examinar qué tan bien nuestros modelos podían clasificar textos al transferir entre géneros, épocas y países. Típicamente, los investigadores evalúan cómo los modelos manejan textos de la misma distribución. En nuestro caso, observamos específicamente cómo se desempeñaron los modelos al enfrentarse a datos de diferentes contextos.

Clasificación Cruzada de Dominios

La clasificación cruzada de dominios se refiere a aplicar un modelo entrenado en un tipo de dato a otro. Esto puede involucrar varios factores, como diferentes idiomas, temas o géneros. Nuestro estudio buscó ver qué tan bien los modelos podían transferir su conocimiento a través de estas diferentes dimensiones.

Transferencia de Género

En el aspecto de la transferencia de género, probamos modelos entrenados en manifiestos de partidos para clasificar discursos realizados en el Parlamento de Nueva Zelanda. Esto nos ayudó a determinar si los modelos podían adaptar estilos de escritura y temas de una forma de comunicación política a otra.

Transferencia Temporal

Para la transferencia temporal, nuestros modelos se entrenaron en manifiestos de cualquier año antes de 2018 y luego se probaron en los de 2019 a 2022. Esto fue especialmente importante, ya que los contextos políticos podrían cambiar significativamente debido a problemas emergentes como la pandemia de COVID-19.

Transferencia de País

Para la transferencia de país, evaluamos qué tan bien se desempeñaron nuestros modelos en manifiestos de diferentes países que hablan el mismo idioma. Buscamos ver si las diferencias culturales y políticas afectaban la precisión del modelo al clasificar los textos.

Resultados y Hallazgos

Al analizar el rendimiento de nuestros modelos, descubrimos que BERT a menudo superó a modelos más simples como TF-IDF y regresión logística. DistilBERT mostró resultados competitivos con menores costos computacionales, lo que lo convierte en una opción práctica para nuestros experimentos posteriores.

Rendimiento Dentro del Dominio

En nuestros experimentos, notamos diferencias significativas entre cómo los modelos se desempeñaron cuando fueron entrenados y probados en datos de la misma fuente en comparación con diferentes dominios. Generalmente, los modelos funcionaron bien cuando los datos provenían del mismo tipo de escritura o período de tiempo.

Rendimiento en la Transferencia de Género y Tiempo

Observamos que transferir entre géneros, como de manifiestos a discursos, fue más desafiante. En contraste, los modelos se desempeñaron mejor al transferir a través del tiempo, indicando que los temas políticos centrales podrían permanecer estables a pesar de los contextos cambiantes.

Rendimiento a Través de Idiomas y Países

Al analizar el rendimiento entre diferentes países, encontramos variaciones notables. Incluso entre países que comparten un idioma, los estilos de comunicación política diferían lo suficiente como para impactar la precisión de la clasificación.

Discusión y Limitaciones

Nuestro estudio destacó las fortalezas de usar técnicas modernas de NLP para clasificar textos políticos. Sin embargo, persisten desafíos, especialmente al aplicar estos métodos a contextos muy diferentes. El rendimiento variable sugiere que, aunque los modelos pueden adaptarse, pueden necesitar más refinamiento para reflejar con precisión las sutilezas de cada contexto.

Conclusión

En resumen, nuestra investigación demostró que los modelos de lenguaje modernos podrían clasificar de manera efectiva manifiestos políticos y discursos, incluso cuando se enfrentan a diferentes idiomas, épocas y géneros. Sin embargo, el rendimiento varió según el contexto, lo que indica que se necesita más trabajo para mejorar su adaptabilidad.

Direcciones Futuras

Mirando hacia adelante, proponemos investigar más sobre el uso de modelos de lenguaje emergentes para abordar estas tareas de clasificación. A medida que nuevos datos continúan surgiendo del Proyecto Manifiesto, la investigación en curso podría proporcionar aún más conocimientos sobre la comunicación política en todo el mundo.

Fuente original

Título: Classifying multilingual party manifestos: Domain transfer across country, time, and genre

Resumen: Annotating costs of large corpora are still one of the main bottlenecks in empirical social science research. On the one hand, making use of the capabilities of domain transfer allows re-using annotated data sets and trained models. On the other hand, it is not clear how well domain transfer works and how reliable the results are for transfer across different dimensions. We explore the potential of domain transfer across geographical locations, languages, time, and genre in a large-scale database of political manifestos. First, we show the strong within-domain classification performance of fine-tuned transformer models. Second, we vary the genre of the test set across the aforementioned dimensions to test for the fine-tuned models' robustness and transferability. For switching genres, we use an external corpus of transcribed speeches from New Zealand politicians while for the other three dimensions, custom splits of the Manifesto database are used. While BERT achieves the best scores in the initial experiments across modalities, DistilBERT proves to be competitive at a lower computational expense and is thus used for further experiments across time and country. The results of the additional analysis show that (Distil)BERT can be applied to future data with similar performance. Moreover, we observe (partly) notable differences between the political manifestos of different countries of origin, even if these countries share a language or a cultural background.

Autores: Matthias Aßenmacher, Nadja Sauter, Christian Heumann

Última actualización: 2023-07-31 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.16511

Fuente PDF: https://arxiv.org/pdf/2307.16511

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares