Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Analyser les biais politiques avec des modèles de langage

Étude sur l'utilisation des LLMs pour suivre les positions politiques dans l'UE.

― 8 min lire


Les LLM dans la politiqueLes LLM dans la politiquede l'UEmodèles de langage.Examiner les biais politiques avec des
Table des matières

Ces dernières années, les Grands Modèles de Langage (GML) ont attiré l'attention pour leur capacité à traiter et à comprendre le langage humain. Ils peuvent aider dans divers domaines, y compris la recherche en sciences politiques. Cette étude se concentre sur la façon dont les GML peuvent être utilisés pour analyser les biais politiques dans le contexte de l'Union Européenne (UE) en regardant les positions politiques des différents partis.

Contexte

Les orientations politiques peuvent influencer la performance des GML sur des tâches spécifiques. Cette recherche vise à aller au-delà du typique système à deux partis trouvé aux États-Unis pour examiner comment ces modèles réagissent à un paysage politique plus diversifié de l'UE. En utilisant le modèle Llama Chat, nous avons analysé ses connaissances sur divers Partis politiques européens et sa capacité à raisonner dans le contexte politique.

Le Parlement Européen et Ses Partis Politiques

Le Parlement Européen est composé de plus de 700 représentants élus des États membres de l'UE connus sous le nom de Députés Européens (DE). Ces DE représentent des partis nationaux qui forment des coalitions plus grandes appelées euro-partis. Les discussions au Parlement Européen couvrent divers sujets, y compris les politiques économiques, l'immigration et les questions environnementales, qui reflètent une large gamme de points de vue politiques. Les partis politiques peuvent avoir des positions soit favorables, soit sceptiques à l'égard de l'intégration de l'UE.

Création d'un Dataset

Nous avons créé un nouveau dataset qui comprend environ 87 000 discours prononcés au Parlement Européen de 2009 à 2023. Ce corpus inclut des discours organisés thématiquement et horodatés. Il fournit une source riche d'informations pour comprendre comment les différents partis politiques expriment leurs points de vue dans les débats. Le dataset est disponible pour ceux qui s'intéressent à l'étude de la politique de l'UE.

Questions de Recherche

Cette étude vise à répondre à trois questions clés :

  1. Connaissance Politique des GML : Les GML ont-ils une compréhension des biais politiques des différents partis de l'UE ?
  2. Capacité de Raisonnement : Les GML peuvent-ils raisonner sur des sujets politiques lorsqu'on leur présente des déclarations ou des questions ?
  3. Alignement sur les Idéologies Politiques : Pouvons-nous ajuster les GML pour mieux refléter les positions de partis politiques spécifiques ?

Méthodologie

Pour répondre à ces questions, nous avons divisé nos expériences en deux parties : l'audit contextualisé et l'adaptation politique.

Audit Contextualisé

Dans cette partie, nous avons évalué la connaissance politique et les capacités de raisonnement de Llama Chat. Nous avons utilisé un questionnaire politique incluant des déclarations reflétant diverses opinions politiques. Le questionnaire était conçu pour aider les gens à déterminer quel parti politique correspond à leurs croyances.

  • Cadre A : Nous avons fourni le nom d'un parti national et demandé au modèle de prédire l'accord du parti avec une déclaration.
  • Cadre B : Nous avons offert une justification d'un parti pour une position et demandé au modèle de prédire le niveau d'accord.
  • Cadre C : Nous avons combiné les deux premiers cadres, en donnant des justifications et en demandant à quel parti elles appartenaient.

Les résultats variaient en fonction des cadres, montrant que Llama Chat a une connaissance substantielle des positions politiques des partis mais a des domaines où il a du mal, surtout avec les partis appartenant à la même coalition.

Adaptation Politique

Dans la deuxième partie de notre recherche, nous avons adapté Llama Chat. Cela a impliqué un affinage du modèle en utilisant des discours spécifiques aux partis pour l'aider à refléter les vues de ces partis de manière plus précise. Nous avons entraîné le modèle en utilisant une méthode appelée Low-Rank Adaptation (LoRA).

Nous nous sommes concentrés sur les discours de cinq grands groupes politiques au Parlement Européen :

  • Le Parti Populaire Européen (PPE) - centre-droit
  • L'Alliance Progressiste des Socialistes et Démocrates (S&D) - social-démocrate
  • La Gauche Unie Européenne (GUE/NGL) - gauche
  • Les Verts–Alliance Libre Européenne (Verts) - gauche écolo
  • Identité et Démocratie (ID) - extrême droite

Après affinage, nous avons comparé les réponses du modèle modifié avec celles du modèle Llama Chat original pour voir dans quelle mesure il s'alignait avec l'idéologie du parti choisi.

Résultats

Les résultats ont montré que Llama Chat pouvait prédire des opinions politiques et des affiliations avec différents degrés de précision. Le modèle montrait une meilleure compréhension lorsqu'il était fourni avec des justifications des partis, ce qui a conduit à des prédictions plus précises concernant leurs positions politiques.

Cependant, l'alignement n'était pas parfait pour tous les partis. C'était surtout vrai pour les plus grands partis qui englobent une gamme diversifiée d'idéologies. Alors que Llama Chat était capable de refléter avec précision les vues des partis avec des idéologies cohérentes, il avait du mal avec ceux ayant des coalitions plus larges.

Défis et Limitations

Problèmes Multilingues

En raison du manque de modèles basés sur le chat multilingues au moment de l'étude, nous avons dû nous fier aux modèles Llama uniquement en anglais. Cela a impliqué la traduction de certains discours, ce qui a pu introduire des inexactitudes.

Problèmes de Non-Alignement

Nous avons également constaté que parfois les options choisies par le modèle ne s'alignaient pas avec les justifications fournies. Cette divergence a nécessité des annotations manuelles qui ne pouvaient pas être étendues à des études plus larges.

Cadres Temporels

Les Jeux de données utilisés incluaient des discours de diverses années, tandis que le questionnaire reflétait les sentiments politiques d'avant les élections de l'UE de 2019. Cet écart temporel pourrait influencer la précision avec laquelle le modèle représente les points de vue politiques actuels.

Biais d'Annotation

Les annotations manuelles comportaient des biais basés sur les interprétations des auteurs, ce qui pourrait ne pas représenter avec précision des points de vue politiques plus larges. Les études futures devraient employer une équipe d'annotateurs plus diversifiée pour minimiser ces biais.

Couverture des Données Limitée

Cette recherche ne s'est concentrée que sur un nombre limité de partis. Une analyse plus large couvrant plus de partis pourrait offrir des perspectives plus riches sur les tendances à travers diverses idéologies politiques.

Biais de Données

Le dataset consiste en une couverture thématique inégale. Des sujets comme l'intégration de l'UE et les questions économiques sont discutés plus fréquemment que d'autres comme les questions environnementales et l'immigration, ce qui pourrait affecter l'alignement du modèle avec ces domaines moins discutés.

Considérations Éthiques

Cette étude soulève plusieurs questions éthiques, notamment en ce qui concerne l'adaptation des GML pour refléter des opinions politiques. Les modèles entraînés sur des discours politiques peuvent reproduire involontairement des biais nuisibles ou de la désinformation. Bien que l'objectif soit de mieux comprendre les points de vue politiques, les chercheurs doivent être prudents quant à la façon dont ces modèles sont déployés.

Nous recommandons que toute utilisation de ces modèles dans des contextes publics ou commerciaux soit soigneusement surveillée. Les chercheurs doivent promouvoir la transparence en dirigeant les utilisateurs vers des plateformes officielles des partis et des sources crédibles pour les informations politiques.

Conclusion

Cette recherche constitue une étape significative vers l'utilisation des GML pour comprendre les dynamiques politiques européennes. Elle souligne la nécessité d'une adaptation prudente des modèles et met en lumière les défis impliqués dans la capture de la complexité des idéologies politiques.

L'étude montre que Llama Chat a du potentiel en tant qu'outil d'analyse politique, mais il doit être affiné davantage. Les recherches futures peuvent s'appuyer sur ces résultats, explorer d'autres partis et aborder les défis rencontrés dans cette étude. La création d'un dataset public aidera à faciliter d'autres analyses dans ce domaine. Les chercheurs sont encouragés à développer ces idées tout en étant conscients des implications éthiques de leur travail.

En avançant notre compréhension des GML dans un contexte politique, nous espérons contribuer à des conversations politiques plus éclairées et à un engagement public accru dans les processus démocratiques.

Source originale

Titre: Llama meets EU: Investigating the European Political Spectrum through the Lens of LLMs

Résumé: Instruction-finetuned Large Language Models inherit clear political leanings that have been shown to influence downstream task performance. We expand this line of research beyond the two-party system in the US and audit Llama Chat in the context of EU politics in various settings to analyze the model's political knowledge and its ability to reason in context. We adapt, i.e., further fine-tune, Llama Chat on speeches of individual euro-parties from debates in the European Parliament to reevaluate its political leaning based on the EUandI questionnaire. Llama Chat shows considerable knowledge of national parties' positions and is capable of reasoning in context. The adapted, party-specific, models are substantially re-aligned towards respective positions which we see as a starting point for using chat-based LLMs as data-driven conversational engines to assist research in political science.

Auteurs: Ilias Chalkidis, Stephanie Brandl

Dernière mise à jour: 2024-03-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.13592

Source PDF: https://arxiv.org/pdf/2403.13592

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires