Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Systèmes multi-agents

Nouvelle technique pour trouver un accord dans des opinions diverses

Une nouvelle approche pour aider les modèles de langage à trouver un terrain d'entente entre des points de vue différents.

― 6 min lire


Trouver un terrainTrouver un terraind'entente avec l'IAutilisant l'IA.entre des opinions différentes enUn cadre pour atteindre un consensus
Table des matières

Trouver un terrain d’entente quand les gens ont des avis différents, c’est pas toujours simple. Ça devient encore plus compliqué quand beaucoup de personnes partagent leurs Opinions. Récemment, de nouvelles technologies comme les grands modèles de langage (LLMs) ont montré qu’elles pouvaient aider avec ce genre de problème. Ces modèles peuvent lire et comprendre différentes opinions et écrire des textes qui semblent avoir été rédigés par un humain.

Mais pour bien marcher, ces modèles ont souvent besoin de beaucoup de données que les gens ont étiquetées ou annotées. Et ça, c’est un souci, parce que récupérer des données annotées de qualité peut être long et coûteux.

Présentation de l'Auto-Accord

Pour résoudre ce problème, on propose une nouvelle méthode pour aider les LLMs à trouver un consensus entre différentes opinions en utilisant un processus qu’on appelle l’Auto-Accord. Cette méthode permet au modèle de créer ses propres données au lieu de dépendre d’entrées humaines. Le processus fonctionne comme suit :

  1. On utilise un modèle de langage puissant appelé GPT-3 pour générer plusieurs opinions pour chaque question de notre dataset.
  2. GPT-3 crée aussi des Accords potentiels basés sur ces opinions.
  3. On évalue ensuite lequel de ces accords représente le mieux les opinions données.
  4. Enfin, on ajuste un autre modèle de langage en utilisant les accords que l’on a trouvés.

Ça nous donne un dataset qui comprend des questions, des opinions et des accords, qu’on utilise pour former un modèle de langage capable de trouver un terrain d'entente parmi des opinions divergentes.

Étapes clés du processus

La première étape, c’est de générer des opinions pour chaque question de notre dataset. On demande à GPT-3 de créer plusieurs points de vue sur chaque question. Ça se fait sans avoir besoin d’opinions écrites par des humains auparavant, ce qui rend le processus plus rapide et moins cher.

Ensuite, on demande à GPT-3 de créer des candidats d’accords basés sur les opinions qu’il a générées. Ça aide à voir comment différentes opinions peuvent se rassembler.

Après avoir généré les accords, il faut les évaluer. Pour ça, on utilise un modèle qui mesure à quel point un accord correspond aux opinions. On définit un score qui montre à quel point un accord s’aligne bien avec les opinions. Un score de 0 signifie que l’accord ne correspond pas du tout aux opinions, tandis qu’un score de 1 signifie qu’il correspond parfaitement.

Ensuite, on attribue un score à chaque candidat d’accord. L’accord avec le score le plus élevé est choisi comme la meilleure représentation des opinions.

Une fois qu’on a notre dataset qui contient des questions, des opinions et des accords, on ajuste un modèle de langage pour qu’il puisse efficacement trouver un terrain d’entente parmi différentes opinions.

Ajustement du Modèle de langue

Pour ajuster le modèle de langue, on utilise une version d’un modèle appelé LLaMA qui a 7 milliards de paramètres. On se concentre sur la tâche de trouver des accords basés sur le dataset structuré qu’on a créé.

Chaque élément de notre jeu de données d’entraînement comprend des instructions, une entrée et une sortie attendue. L’instruction indique que le modèle doit trouver un accord parmi les opinions données, ce qui aide à guider son entraînement.

Évaluation de notre approche

Pour tester l’efficacité de notre méthode, on a utilisé le dataset Yahoo! Answers qui contient un grand nombre de questions et de réponses. On a choisi un sous-ensemble de questions pour générer des opinions et des accords. On a créé des opinions conflictuelles et non conflictuelles pour voir à quel point notre modèle pouvait trouver des accords dans différentes situations.

On a comparé notre modèle ajusté à GPT-3, qui est largement plus gros mais sert de référence pour l’évaluation. En sélectionnant aléatoirement des candidats d’accords et en utilisant l’approche du candidat optimal, on a aussi testé différentes façons de trouver des accords.

À travers ces tests, notre modèle ajusté a montré des résultats prometteurs. Dans les cas où on sélectionnait un accord au hasard, notre modèle a bien performé par rapport à GPT-3 dans des situations tant conflictuelles que non conflictuelles. Quand on a choisi le meilleur accord, les scores se sont améliorés, montrant l’avantage de sélectionner la réponse la plus pertinente.

Résultats et conclusions

Les résultats montrent que notre approche peut résumer efficacement les opinions et trouver des accords, même quand les opinions sont en désaccord. Dans un exemple concernant le pays avec les meilleurs indicateurs de développement, les réponses des deux modèles ont montré leur capacité à créer des déclarations d’accord. Pourtant, notre modèle a démontré une vue plus équilibrée en reconnaissant différents points de vue sans forcer une seule conclusion.

En plus, on a examiné un problème courant connu sous le nom d’oubli catastrophique. C’est quand un modèle oublie comment réaliser des tâches précédentes après avoir été entraîné sur de nouvelles. On a testé notre modèle et découvert qu’il continuait à bien fonctionner sur des tâches générales même après l’ajustement, ce qui suggère que le modèle garde ses connaissances antérieures.

Conclusion

En résumé, on a présenté le cadre de l'Auto-Accord comme une façon d’ajuster des modèles de langage pour qu'ils trouvent de manière autonome des accords entre différentes opinions. Cette méthode réduit la dépendance aux données annotées coûteuses, rendant le tout plus accessible à un public plus large.

On a fourni un grand dataset contenant des questions, des opinions et des candidats d’accords, qui sert de ressource précieuse pour d’autres applications dans la recherche de consensus entre différentes vues. Nos expériences ont confirmé l’efficacité de notre cadre d’Auto-Accord, et on a montré qu’un modèle plus petit peut égaler les performances d’un plus grand avec moins de ressources. Ça met en lumière son potentiel pour gérer des opinions diverses et trouver un terrain d’entente dans les discussions.

Source originale

Titre: Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions

Résumé: Finding an agreement among diverse opinions is a challenging topic in multiagent systems. Recently, large language models (LLMs) have shown great potential in addressing this challenge due to their remarkable capabilities in comprehending human opinions and generating human-like text. However, they typically rely on extensive human-annotated data. In this paper, we propose Self-Agreement, a novel framework for fine-tuning LLMs to autonomously find agreement using data generated by LLM itself. Specifically, our approach employs the generative pre-trained transformer-3 (GPT-3) to generate multiple opinions for each question in a question dataset and create several agreement candidates among these opinions. Then, a bidirectional encoder representations from transformers (BERT)-based model evaluates the agreement score of each agreement candidate and selects the one with the highest agreement score. This process yields a dataset of question-opinion-agreements, which we use to fine-tune a pre-trained LLM for discovering agreements among diverse opinions. Remarkably, a pre-trained LLM fine-tuned by our Self-Agreement framework achieves comparable performance to GPT-3 with only 1/25 of its parameters, showcasing its ability to identify agreement among various opinions without the need for human-annotated data.

Auteurs: Shiyao Ding, Takayuki Ito

Dernière mise à jour: 2023-05-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.11460

Source PDF: https://arxiv.org/pdf/2305.11460

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires