Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Multiagentensysteme

Neue Technik zur Findung von Übereinstimmung bei unterschiedlichen Meinungen

Ein neuer Ansatz, um Sprachmodelle dabei zu unterstützen, gemeinsame Grundlagen zwischen unterschiedlichen Ansichten zu erkennen.

― 5 min Lesedauer


Gemeinsame Basis mit KIGemeinsame Basis mit KIfindenvon KI zu erreichen.unterschiedlichen Meinungen mit HilfeEin Rahmen, um Konsens zwischen
Inhaltsverzeichnis

Gemeinsame Lösungen zu finden, wenn Leute unterschiedliche Meinungen haben, kann ganz schön schwierig sein. Das ist besonders der Fall, wenn viele Menschen ihre Ansichten teilen. Neulich hat eine neue Technologie, die grossen Sprachmodelle (LLMs), vielversprechende Ansätze gezeigt, um bei diesem Problem zu helfen. Diese Modelle können verschiedene Meinungen lesen und verstehen und Texte schreiben, die wie von einem Menschen verfasst klingen.

Um gut zu funktionieren, brauchen diese Modelle in der Regel viel Daten, die von Menschen gekennzeichnet oder annotiert wurden. Das kann ein Problem sein, weil es zeitaufwendig und teuer sein kann, qualitativ hochwertige, menschlich annotierte Daten zu bekommen.

Einführung von Selbst-Zustimmung

Um dieses Problem anzugehen, schlagen wir einen neuen Weg vor, um LLMs zu helfen, Übereinstimmung zwischen verschiedenen Meinungen zu finden, und zwar durch einen Prozess, den wir Selbst-Zustimmung nennen. Diese Methode erlaubt es dem Modell, eigene Daten zu erstellen, anstatt auf menschliche Eingaben angewiesen zu sein. Der Ansatz funktioniert folgendermassen:

  1. Wir nutzen ein leistungsstarkes Sprachmodell namens GPT-3, um mehrere Meinungen zu jeder Frage in unserem Datensatz zu generieren.
  2. GPT-3 erstellt auch potenzielle Übereinstimmungen basierend auf diesen Meinungen.
  3. Dann bewerten wir, welche dieser Übereinstimmungen die gegebenen Meinungen am besten repräsentiert.
  4. Schliesslich verfeinern wir ein anderes Sprachmodell mithilfe der gefundenen Übereinstimmungen.

Diese Methode führt zu einem Datensatz, der Fragen, Meinungen und Übereinstimmungen enthält, und den wir verwenden, um ein Sprachmodell zu trainieren, das gemeinsame Lösungen zwischen unterschiedlichen Meinungen findet.

Wichtige Schritte im Prozess

Der erste Schritt ist, Meinungen zu jeder Frage in unserem Datensatz zu generieren. Wir fordern GPT-3 auf, mehrere Perspektiven zu jeder Frage zu erstellen. Das geschieht, ohne dass vorherige menschlich geschriebene Meinungen benötigt werden, was den Prozess schneller und kostengünstiger macht.

Im nächsten Schritt bitten wir GPT-3, Übereinstimmungs-Kandidaten basierend auf den von ihm generierten Meinungen zu erstellen. Das hilft dabei, zu erkennen, wie unterschiedliche Meinungen zusammenkommen können.

Nachdem die Übereinstimmungen generiert wurden, müssen wir sie bewerten. Dazu nutzen wir ein Modell, das misst, wie gut eine Übereinstimmung zu den Meinungen passt. Wir definieren einen Score, der zeigt, wie nah eine Übereinstimmung an den Meinungen ist. Ein Score von 0 bedeutet, dass die Übereinstimmung überhaupt nicht mit den Meinungen übereinstimmt, während ein Score von 1 bedeutet, dass sie perfekt übereinstimmt.

Als nächstes bewerten wir jeden Übereinstimmungs-Kandidaten. Die am höchsten bewertete Übereinstimmung wird als die beste Darstellung der Meinungen ausgewählt.

Nachdem wir unseren Datensatz mit Fragen, Meinungen und Übereinstimmungen haben, verfeinern wir ein Sprachmodell, sodass es effizient gemeinsame Lösungen zwischen verschiedenen Meinungen finden kann.

Verfeinerung des Sprachmodells

Um das Sprachmodell zu verfeinern, nutzen wir eine Version eines Modells namens LLaMA, das 7 Milliarden Parameter hat. Wir konzentrieren uns auf die Aufgabe, Übereinstimmungen basierend auf dem strukturierten Datensatz zu finden, den wir erstellt haben.

Jedes Stück Daten in unserem Trainingsset beinhaltet Anweisungen, Eingaben und erwartete Ausgaben. Die Anweisung zeigt an, dass das Modell eine Übereinstimmung unter den gegebenen Meinungen finden soll, was hilft, das Training zu leiten.

Bewertung unseres Ansatzes

Um zu testen, wie gut unsere Methode funktioniert, haben wir den Yahoo! Answers-Datensatz verwendet, der eine grosse Anzahl von Fragen und Antworten enthält. Wir haben eine Teilmenge von Fragen ausgewählt, um Meinungen und Übereinstimmungen zu generieren. Wir haben sowohl widersprüchliche als auch nicht widersprüchliche Meinungen erstellt, um zu sehen, wie gut unser Modell in verschiedenen Situationen Übereinstimmungen finden kann.

Wir haben unser verfeinertes Modell mit GPT-3 verglichen, das erheblich grösser ist, aber einen Benchmark für die Bewertung bietet. Indem wir zufällig Übereinstimmungs-Kandidaten ausgewählt und den optimalen Kandidatenansatz genutzt haben, haben wir auch verschiedene Methoden getestet, um Übereinstimmungen zu finden.

Durch diese Tests zeigte unser verfeinertes Modell vielversprechende Ergebnisse. In Fällen, in denen wir zufällig eine Übereinstimmung ausgewählt haben, schnitt unser Modell sowohl in widersprüchlichen als auch in nicht widersprüchlichen Situationen vergleichbar mit GPT-3 ab. Als wir die beste Übereinstimmung gewählt haben, verbesserten sich die Scores, was den Vorteil zeigt, die relevanteste Antwort auszuwählen.

Ergebnisse und Erkenntnisse

Die Ergebnisse zeigen, dass unser Ansatz effektiv Meinungen zusammenfassen und Übereinstimmungen finden kann, selbst wenn die Meinungen im Widerspruch stehen. In einem Beispiel, das sich auf welches Land die besten Entwicklungsindikatoren hat, bezog, zeigten die Antworten beider Modelle ihre Fähigkeit, Übereinstimmungserklärungen zu erstellen. Unser Modell zeigte jedoch eine ausgewogenere Sichtweise, indem es unterschiedliche Perspektiven anerkannte, ohne auf eine einzelne Schlussfolgerung zu drängen.

Ausserdem haben wir ein häufiges Problem untersucht, das als katastrophales Vergessen bekannt ist. Das passiert, wenn ein Modell vergisst, wie man frühere Aufgaben ausführt, nachdem es auf neuen trainiert wurde. Wir haben unser Modell getestet und festgestellt, dass es auch nach dem Feinabstimmen noch gut bei allgemeinen Aufgaben abschneidet, was darauf hindeutet, dass das Modell sein früheres Wissen behält.

Fazit

Zusammenfassend haben wir das Selbst-Zustimmung-Rahmenwerk vorgestellt, um Sprachmodelle so zu verfeinern, dass sie autonom Übereinstimmungen zwischen unterschiedlichen Meinungen finden. Diese Methode reduziert die Abhängigkeit von teuren menschlich annotierten Daten, was es für ein breiteres Publikum zugänglich macht.

Wir haben einen grossen Datensatz bereitgestellt, der Fragen, Meinungen und Übereinstimmungs-Kandidaten enthält und als wertvolle Ressource für weitere Anwendungen zur Findung von Konsens unter variierenden Ansichten dient. Unsere Experimente bestätigten die Effektivität unseres Selbst-Zustimmung-Rahmenwerks und wir zeigten, dass ein kleineres Modell die Leistung eines grösseren mit weniger Ressourcen erreichen kann. Das hebt sein Potenzial hervor, mit unterschiedlichen Meinungen umzugehen und gemeinsame Lösungen in Diskussionen zu finden.

Originalquelle

Titel: Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions

Zusammenfassung: Finding an agreement among diverse opinions is a challenging topic in multiagent systems. Recently, large language models (LLMs) have shown great potential in addressing this challenge due to their remarkable capabilities in comprehending human opinions and generating human-like text. However, they typically rely on extensive human-annotated data. In this paper, we propose Self-Agreement, a novel framework for fine-tuning LLMs to autonomously find agreement using data generated by LLM itself. Specifically, our approach employs the generative pre-trained transformer-3 (GPT-3) to generate multiple opinions for each question in a question dataset and create several agreement candidates among these opinions. Then, a bidirectional encoder representations from transformers (BERT)-based model evaluates the agreement score of each agreement candidate and selects the one with the highest agreement score. This process yields a dataset of question-opinion-agreements, which we use to fine-tune a pre-trained LLM for discovering agreements among diverse opinions. Remarkably, a pre-trained LLM fine-tuned by our Self-Agreement framework achieves comparable performance to GPT-3 with only 1/25 of its parameters, showcasing its ability to identify agreement among various opinions without the need for human-annotated data.

Autoren: Shiyao Ding, Takayuki Ito

Letzte Aktualisierung: 2023-05-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.11460

Quell-PDF: https://arxiv.org/pdf/2305.11460

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel