Herausforderungen von retrieval-augmentierten Sprachmodellen
Eine Studie zeigt Einschränkungen bei retrieval-unterstützten Sprachmodellen für die Textgenerierung.
― 5 min Lesedauer
Inhaltsverzeichnis
In den letzten Jahren gab's viel Interesse an speziellen Sprachmodellen, die die Standard-Wortvorhersage mit externen Informationsquellen kombinieren. Diese Modelle nennt man retrieval-augmented language models. Sie sagen das nächste Wort voraus, basierend darauf, was das Modell aus dem Training gelernt hat und Informationen aus einer Textdatenbank. Eine gängige Methode, um diese Vorhersagen zu verbessern, nennt man Interpolation, die die eigenen Vorhersagen des Modells mit denen aus der Datenbank mischt.
Trotz der vielversprechenden Möglichkeiten dieser Modelle und wie sie Verwirrung bei den Vorhersagen reduzieren können, haben neueste Studien gezeigt, dass sie die generative Textproduktion nicht signifikant verbessern. Offene Generierung bedeutet, Texte zu erstellen, die nicht nur Lücken füllen, sondern eine kohärente und sinnvolle Fortsetzung basierend auf einer Ausgangsphrase erzeugen. Diese Art von Aufgabe ist komplexer, als nur das nächste Wort zu füllen und erfordert ein starkes Verständnis von Kontext und Kohärenz über längere Textsequenzen hinweg.
Was Wir Gemacht Haben
Wir haben die Leistung von zwei spezifischen Interpolations-basierten retrieval-augmented Sprachmodellen untersucht und sie mit traditionellen Modellen verglichen, die keinen Zugang zu externen Datenbanken haben. Der Fokus lag darauf, zu verstehen, warum diese neuen Modelle trotz niedrigerer Verwirrungswerte (bekannt als Perplexität) nicht besser bei der Erzeugung von sinnvollem Text abschnitten.
Unsere Forschung beinhaltete die Erstellung einer Reihe von Aufforderungen aus einem bekannten Textdatensatz und liess die Modelle Fortsetzungen generieren. Dann haben wir diese Ausgaben mit automatischen Messwerkzeugen und menschlichen Gutachtern bewertet, um zu sehen, welcher Text von höherer Qualität war.
Ergebnisse
Keine Verbesserung in der Qualität
Die Hauptfeststellung unserer Forschung ist, dass die neuen Modelle zwar die Perplexitätswerte senken, aber keine signifikante Verbesserung in der Qualität des erzeugten Texts bringen. Automatische Werkzeuge zur Messung der Textgenerationsqualität zeigten, dass diese Modelle die traditionellen Baseline-Modelle nicht übertrafen. Tatsächlich produzierten die traditionellen Modelle manchmal qualitativ besseren Text.
Auch menschliche Bewertungen stützten diese Schlussfolgerung. Als Gutachter den von den neuen Modellen erzeugten Text mit dem der traditionellen Modelle verglichen, hatten sie Schwierigkeiten, einen klaren Gewinner auszuwählen. Meistens bevorzugten sie den von den traditionellen Modellen erzeugten Text.
Warum Haben Sie Nicht Funktioniert?
Wir haben tiefer gegraben, um die Gründe für dieses Fehlen an Verbesserung herauszufinden. Zwei wichtige Probleme traten zutage:
Begrenzte Vorteile für Token-Vorhersagen: Obwohl die neuen Modelle die Gesamtperplexität verringerten, verbesserten sie die Vorhersagen nur für eine kleine Anzahl von Tokens. Tatsächlich wurden die meisten Tokens weniger effektiv vorhergesagt, als die neuen Modelle eingesetzt wurden. Die Verbesserungen in der Perplexität kamen nur durch ein paar Wörter, die genauer vorhergesagt wurden. Bei der Erstellung längerer Sequenzen wurde dieser kleine Vorteil durch schlechtere Vorhersagen für die Mehrheit der Tokens überschattet.
Verschlechterung der Retrieval-Qualität: Während der Text sequentiell generiert wird, nimmt die Qualität der aus der Datenbank abgerufenen Informationen ab. Das geschah, weil das Modell sich auf seinen eigenen erzeugten Text als Abfragen für zusätzliche Informationen stützen musste. Wenn der erzeugte Text Fehler enthielt oder nicht kohärent war, wurde auch die abgerufene Information weniger zuverlässig. Das Modell wurde essentially weniger selbstsicher und weniger genau, je mehr Text es erzeugte.
Bewertungen und Methoden
Um diese Modelle zu bewerten, haben wir mehrere Ansätze genutzt:
Automatische Bewertungsmetriken: Metriken wie MAUVE, die misst, wie gut der erzeugte Text mit Referenztextverteilungen übereinstimmt, und Perplexität von leistungsstarken Sprachmodellen, halfen uns, die Qualität des erzeugten Texts zu analysieren.
Menschliche Bewertung: Wir haben uns auf erfahrene Gutachter verlassen, die die von beiden Modelltypen erzeugten Texte überprüften. Sie bewerteten Dinge wie Grammatik, Flüssigkeit und logische Konsistenz und gaben direktes Feedback, welche Texte kohärenter und besser formuliert waren.
Ergebnisse der Bewertungen
Durch automatische Bewertungen war klar, dass die Nutzung der neuen Modelle oft nicht zu besseren Ausgaben führte. Die verschiedenen angewandten Metriken deuteten darauf hin, dass die traditionellen Modelle eine höhere Qualität aufrechterhielten.
In den menschlichen Bewertungen neigte die Präferenz eher zu den traditionellen Modellen als zu den neuen. Gutachter gaben an, dass sie den Text der traditionellen Modelle kohärenter und leichter nachvollziehbar fanden, während die Texte der neueren Modelle oft unzusammenhängend oder repetitiv wirkten.
Fazit
Unsere Studie hebt wichtige Mängel im aktuellen Ansatz zur Integration von Retrieval in Sprachmodelle für die Textgenerierung hervor. Das zugrunde liegende Problem scheint zu sein, dass, obwohl die neuen Modelle eine niedrigere Perplexität erreichen können, dies nicht in eine verbesserte Textgenerationsqualität umschlägt. Die Retrieval-Methoden könnten in bestimmten Kontexten einige Vorteile bieten, könnten aber auch Komplikationen einführen, die die Gesamtqualität der Ausgabe beeinträchtigen.
Wir glauben, dass unsere Ergebnisse zu bedeutenden Fortschritten bei der Gestaltung von Sprachmodellen führen können. Künftige Arbeiten könnten sich darauf konzentrieren, wie Retrieval in den Generationsprozess integriert wird, um sicherzustellen, dass es die Flüssigkeit und Kohärenz des erzeugten Textes verbessert, anstatt sie zu behindern. Indem wir diese Probleme angehen, können wir darauf hinarbeiten, Modelle zu schaffen, die wirklich sowohl die Vorhersagekraft als auch externe Informationen nutzen, um qualitativ hochwertigen Text effizient zu produzieren.
Weitere Forschung ist notwendig, um die Faktoren zu erkunden, die diese Modelle beeinflussen, und um Wege zu finden, ihre Stärken zu nutzen und gleichzeitig die Schwächen anzugehen, die unsere Analyse aufgedeckt hat.
Titel: KNN-LM Does Not Improve Open-ended Text Generation
Zusammenfassung: In this paper, we study the generation quality of interpolation-based retrieval-augmented language models (LMs). These methods, best exemplified by the KNN-LM, interpolate the LM's predicted distribution of the next word with a distribution formed from the most relevant retrievals for a given prefix. While the KNN-LM and related methods yield impressive decreases in perplexity, we discover that they do not exhibit corresponding improvements in open-ended generation quality, as measured by both automatic evaluation metrics (e.g., MAUVE) and human evaluations. Digging deeper, we find that interpolating with a retrieval distribution actually increases perplexity compared to a baseline Transformer LM for the majority of tokens in the WikiText-103 test set, even though the overall perplexity is lower due to a smaller number of tokens for which perplexity dramatically decreases after interpolation. However, when decoding a long sequence at inference time, significant improvements on this smaller subset of tokens are washed out by slightly worse predictions on most tokens. Furthermore, we discover that the entropy of the retrieval distribution increases faster than that of the base LM as the generated sequence becomes longer, which indicates that retrieval is less reliable when using model-generated text as queries (i.e., is subject to exposure bias). We hope that our analysis spurs future work on improved decoding algorithms and interpolation strategies for retrieval-augmented language models.
Autoren: Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun Manjunatha, Mohit Iyyer
Letzte Aktualisierung: 2023-05-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.14625
Quell-PDF: https://arxiv.org/pdf/2305.14625
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.upwork.com
- https://labelstud.io/
- https://colab.research.google.com/drive/1Zw1QQDmIeKPp-Q5OXAkuU1o6-E-PcuT9?authuser=1#scrollTo=8mX7u0ap7pl7
- https://docs.google.com/spreadsheets/d/1j-W6BfAosR0ugn_JTsv0Ylk603KDI0xU1i1L-30X2HI/edit#gid=1921046367
- https://github.com/neulab/knn-transformers