Sprache Modelle anpassen ohne teure Daten

Inhaltsverzeichnis

Originalquelle
Referenz Links

Grosse Sprachmodelle (LLMs) werden auf riesigen Datensätzen trainiert, um verschiedene Informationen durch selbstüberwachtes Training zu lernen. Nach dieser Phase durchlaufen sie einen Schritt namens Instruction-Tuning. Das hilft ihnen, verschiedene Arten von Fragen korrekt zu beantworten. Wenn wir jedoch diese vortrainierten LLMs an neue Bereiche anpassen wollen, wie spezielle Organisationen oder Zeitperioden, erfordert das oft viel manuelle Arbeit zum Labeln von Daten. Das kann teuer werden. Um dieses Problem anzugehen, haben wir eine neue Aufgabe eingeführt: die unüberwachte LLM-Anpassung für Frage-Antwort-Systeme.

In dieser Aufgabe nutzen wir ein vortrainiertes LLM zusammen mit einem bestehenden Frage-Antwort-Datensatz und unmarkierten Dokumenten aus dem Bereich, auf den wir uns konzentrieren wollen. Unser Ziel ist es, dem LLM zu helfen, Fragen zu beantworten, die sich auf diese unmarkierten Dokumente beziehen.

Wir haben einen synthetischen Datensatz und zwei reale Datensätze erstellt, um Modelle zu testen, die sowohl mit den Quell- als auch mit den Zielformulardaten feinjustiert wurden. Dabei haben wir einige interessante Ergebnisse gefunden:

Die angepassten Modelle konnten korrekte Antworten auf Fragen zum neuen Bereich geben, selbst ohne diese speziellen Fragen vorher gesehen zu haben.
Sie hatten Schwierigkeiten, Informationen zu finden, die sich in der Mitte oder am Ende von Dokumenten befanden.
Dieses Problem konnte etwas verbessert werden, indem einige Eingabetokens während des Trainingsprozesses durch zufällige Tokens ersetzt wurden.

Instruction-getunte grosse Sprachmodelle, die auf grossen Datenmengen vortrainiert sind, zeigen eine gute Fähigkeit, eine Vielzahl von Aufgaben zu bewältigen.

Die Standardmethode zur Anpassung von LLMs umfasst einen Prozess namens Feinabstimmung, der oft mit erheblichen Kosten verbunden ist. Stattdessen konzentrieren wir uns in unserer Aufgabe darauf, wie man LLMs anpasst, ohne spezifische QA-Paare aus dem Bereich, den wir untersuchen, zu verwenden. Wir verwenden einen allgemeinen QA-Datensatz als Ausgangspunkt, was die Annotationskosten niedrig hält.

Der Trainingsprozess für LLMs besteht aus zwei Hauptphasen: Pre-Training und Instruction-Tuning. Während des Pre-Trainings lernt das Modell aus einem grossen Datensatz unter Verwendung selbstüberwachter Ziele. In der Phase des Instruction-Tunings wird es auf eine Reihe von Aufgaben feinjustiert, die als Anweisungen formuliert sind. In unserer Arbeit bezieht sich Pre-Training auf dieses grossangelegte Training mit selbstüberwachtem Lernen auf unmarkierten Daten.

Diese Modelle sind gut darin, faktisches Wissen durch QA abzurufen. Dieses „Wissen“ bezieht sich auf Informationen, die faktisch sind und in den Daten erwähnt werden, auf denen sie trainiert wurden. Eine Schlüsselrolle des Instruction-Tunings besteht darin, dem Modell zu helfen, dieses Wissen aus seinem Pre-Training-Prozess zu extrahieren. Da das Wissen jedoch auf die während der Trainingszeit verfügbaren Daten – wie Wikipedia und andere Quellen – beschränkt ist, können die Modelle keine Informationen über Bereiche abrufen, die nicht in ihren Trainingsdaten enthalten sind.

Wenn wir das Modell an einen neuen Bereich anpassen wollen, wie etwa eine spezielle Organisation, ein wissenschaftliches Feld oder aktuelle Nachrichtenartikel, muss das Modell neue Informationen lernen, die durch verschiedene Dokumente präsentiert werden, die sich täglich ändern können. Allerdings erfordert das ständige Sammeln von Trainingsdaten für das Instruction-Tuning jedes neuen Bereichs viele Ressourcen. Daher wäre es besser, wenn LLMs sich an neue Bereiche anpassen könnten, ohne teure Trainingsdaten zu benötigen.

Um diese Herausforderung zu bewältigen, schlagen wir unsere neue Aufgabe vor: unüberwachte LLM-Anpassung für Frage-Antwort-Systeme. Wir gehen davon aus, dass wir Zugriff auf ein vortrainiertes LLM, einen allgemeinen Instruction-Tuning-Datensatz und unmarkierte Dokumente haben, die neue Informationen enthalten. Diese Dokumente sind einfach Sammlungen von Sätzen ohne QA-Markierungen. Die Quelldaten sollen die Fähigkeit des LLM, Fragen zu beantworten, erhalten, während die Zieldaten das sind, was während des Tests abgefragt wird.

Wir hoffen, das LLM so zu trainieren, dass es korrekt auf Fragen reagiert, die sich auf das Wissen in diesen Zieldokumenten beziehen, obwohl es keine direkte Überwachung in Form von QA-Paaren aus diesem Bereich hat. Diese Arbeit zielt nicht nur darauf ab, eine kosteneffektive Lösung zur Anpassung von LLMs an spezifische Bereiche bereitzustellen, sondern auch darauf, zu zeigen, wie gut diese Modelle Wissen aus unmarkierten Dokumenten speichern und später abrufen können, wenn es nötig ist.

Wir haben auch frühere Forschungen untersucht, die erforschen, wie LLMs faktisches Wissen speichern. Einige Studien haben überprüft, ob LLMs Fragen beantworten können, basierend auf der Exposition gegenüber ähnlichen Fragen während der Instruction-Tuning-Phase oder ob sie tatsächlich Informationen extrahieren, die während des Pre-Trainings gelernt wurden. Sie fanden heraus, dass LLMs Fragen zu neuen Entitäten beantworten können, wenn während des Pre-Trainings umfangreiche Datenaugmentation eingesetzt wird.

In unserer Arbeit konzentrieren wir uns mehr auf die Fähigkeit des Modells, Wissen zu speichern und zu extrahieren, ohne spezifische QA-Paare für den neuen Bereich zu benötigen. Andere Studien haben sich auch damit befasst, wie man Wissen in LLMs ändert, wobei der Fokus typischerweise auf der Bearbeitung vorhandener Fakten und nicht auf dem Hinzufügen neuer Informationen liegt. Unser Interesse liegt darin, wie man neues Wissen hinzufügen und nutzen kann, was oft einen breiteren Kontext als einfache Sätze erfordert.

Es gibt bereits Ansätze, die LLMs für spezifische Bereiche, wie medizinisches Wissen, feinjustieren, aber sie verlassen sich immer noch auf Instruktionsdaten, im Gegensatz zu unserer Methode, die einen Weg sucht, die Anpassung ohne starken Bedarf an kostspieligen markierten Daten zu erreichen. Unsupervised Domain Adaptation (UDA) wurde ebenfalls für verschiedene Aufgaben in der natürlichen Sprachverarbeitung (NLP) untersucht. Wir sind die Ersten, die sich auf unüberwachte LLM-Anpassung für Frage-Antwort-Aufgaben konzentrieren und untersuchen, wie gut feinabgestimmte LLMs Wissen aus unmarkierten Dokumenten speichern und extrahieren können.

Eine Möglichkeit, Fragen zu neuen Bereichen zu beantworten, umfasst die retrieval-augmentierte Generation (RAG), bei der das Modell mehrere Dokumente abruft, um Antworten zu formulieren. RAG erfordert jedoch ein leistungsstarkes Retrieval-Modell, und das LLM muss mit einem langen Kontext umgehen – was komplex sein kann. Somit ist unsere Methode zur Anpassung von LLMs, die kein Retrieval erfordert, eine einfachere Lösung.

Positional Bias ist ein bekanntes Problem bei LLMs. Das bedeutet, dass LLMs oft Schwierigkeiten haben, Informationen aus der Mitte eines langen Textes für QA-Aufgaben abzurufen. Modelle, die mit verzerrten Verteilungen von Antwortpositionen trainiert wurden, haben ebenfalls damit zu kämpfen. Einige Lösungen wurden vorgeschlagen, um mit diesem Bias umzugehen, aber unsere Arbeit prüft speziell, ob LLMs Informationen aus ihren Trainingsdokumenten abrufen können, ohne einen langen Kontext zu benötigen.

Wir haben auch drei Datensätze eingeführt, um die Fähigkeit von LLMs zu testen, neues Wissen zu lernen. Ein Datensatz ist synthetisch, während zwei reale Datensätze sind. Wir betonen, ob feinjustierte LLMs Fakten extrahieren können, obwohl sie keine spezifischen QA-Daten für den neuen Bereich gesehen haben.

Der synthetische Biografie-Datensatz enthält Sätze, die verschiedene Eigenschaften (wie Geburtstag, Geburtsort, Schule usw.) einer Gruppe von Personen beschreiben. Wir verwendeten ein Setup, bei dem wir das Modell nach spezifischen Eigenschaften basierend auf den Informationen fragen, die es gelernt hat.

Der Paper2023-Datensatz besteht aus Paaren von Papertiteln und Abstracts von aktuellen Konferenzen. Hier gehen wir davon aus, dass Dokumente in der realen Welt eine gewisse Struktur haben. Wissenschaftliche Arbeiten listen zum Beispiel ihren Inhalt mit Abschnittsüberschriften auf. Daher haben wir einen Datensatz erstellt, bei dem die Inhalte um einige Hauptthemen organisiert sind.

Schliesslich haben wir für den News2023-Datensatz Artikel zu verschiedenen Themen über mehrere Monate gesammelt. Wir wollten untersuchen, wie gut das Modell mit unstrukturierten Informationen im Vergleich zu strukturierten Dokumenten umgeht.

Unsere Tests haben gezeigt, dass ein unüberwachtes, feinabgestimmtes LLM Fragen korrekt beantworten kann, jedoch allgemein besser abschneidet, wenn die Antwort am Anfang der Dokumente zu finden ist. Das Modell hat Schwierigkeiten, Informationen aus der Mitte oder dem Ende abzurufen, was auf seine Trainingsmethode zurückzuführen ist.

Der zufällige Token-Ersatz (RTR) erwies sich als effektiv, um die Robustheit des Modells in Bezug auf den positional bias zu verbessern. Indem bestimmte Tokens während des Trainings ersetzt werden, lernt das Modell, Antworten selbst mit unvollständigen Informationen vorherzusagen, was reale Abfrageszenarien simuliert.

Zusammenfassend lassen sich unsere Beiträge wie folgt zusammenfassen:

Wir haben eine neue Aufgabe für die unüberwachte LLM-Anpassung für Frage-Antwort-Systeme eingeführt und Datensätze erstellt, um zu bewerten, wie gut Modelle abschneiden.
Unsere Ergebnisse zeigen, dass LLMs Informationen aus Dokumenten abrufen können, ohne spezifische QA-Daten zu benötigen.
Wir haben eine Herausforderung identifiziert, bei der LLMs tendenziell einen positional bias zeigen, wenn sie auf Fragen basierend auf Dokumenten antworten. Die RTR-Technik hilft, dieses Problem zu mindern.

Wir haben auch untersucht, wie Faktoren wie die Modellgrösse und die Art des externen QA-Datensatzes die Leistung beeinflussen.

Im Abschnitt zu verwandten Arbeiten haben wir überprüft, wie LLMs Fakten speichern und wie ihre Fähigkeiten zum Wissensabruf untersucht werden. Wir haben die Schwierigkeiten vieler Modelle beim Umgang mit positional bias festgestellt.

Wir haben drei neue Datensätze entwickelt, um die Lern- und Abruffähigkeiten von LLMs zu testen: einen synthetischen Biografie-Datensatz, einen Paper2023-Datensatz mit wissenschaftlichen Arbeiten und einen News2023-Datensatz mit Nachrichtenartikeln. Jeder Datensatz soll Aufschluss darüber geben, wie gut Modelle sich an verschiedene Informationsarten anpassen.

Durch unsere Untersuchungen haben wir herausgefunden, dass feinjustierte LLMs allgemein gut darin sind, korrekte Informationen abzurufen, insbesondere wenn diese Informationen zu Beginn eines Dokuments zu finden sind. Im Gegensatz dazu haben sie Schwierigkeiten, wenn Informationen in der Mitte oder am Ende von Texten zu finden sind.

Darüber hinaus haben wir festgestellt, dass unsere Methode des zufälligen Token-Ersatzes dazu beiträgt, den positional bias zu reduzieren, was eine bedeutende Erkenntnis für zukünftige Arbeiten darstellt. Diese Studie eröffnet neue Wege für die kosteneffektive Annotierung von Modellen.

Im Abschnitt über die breitere Auswirkung betonen wir, dass unsere Arbeit das Feld des effizienten maschinellen Lernens erheblich verbessern kann. Während es immer potenzielle gesellschaftliche Auswirkungen unserer Forschung gibt, ist es wichtig, diese Aspekte in zukünftigen Entwicklungen zu berücksichtigen.

Schliesslich danken wir denjenigen, die wertvolle Einblicke während unserer Arbeit gegeben haben. Diese Forschung wurde von verschiedenen unterstützenden Institutionen gefördert und nutzte eine erhebliche Menge an Rechenressourcen.

Im letzten Abschnitt skizzieren wir die Prozesse, die an der Erstellung unserer Datensätze beteiligt waren, und detaillieren die experimentellen Methoden, die während der Tests verwendet wurden. Die Verfahren zur Sammlung unserer synthetischen Datensätze beinhalteten die Generierung fiktiver Individuen sowie deren jeweilige Beschreibungen, während die realen Datensätze aus professionellen Konferenzen und aktuellen Ereignissen zusammengestellt wurden.

Zusammenfassend bieten unsere Ergebnisse wertvolle Einblicke in die Anpassung von LLMs an neue Bereiche ohne die überwältigenden Kosten umfangreicher Annotationen und markieren einen Fortschritt in der Effizienz von Technologien des maschinellen Lernens.

Sprache Modelle anpassen ohne teure Daten

Eine neue Methode, um LLMs anzupassen, ohne viel zu labeln.

Referenz Links

Referenzierte Themen