Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Umgang mit Namensverwirrung in der Textgenerierung

Neue Methode verbessert das Faktenchecken von computergenerierten Texten mit mehrdeutigen Namen.

― 8 min Lesedauer


Umgang mitUmgang mitNamensverwirrung inKI-Textencomputer-generierten Biografien auf.Neuer Ansatz zeigt Fehler in
Inhaltsverzeichnis

Lange Texte, die von Computern generiert werden und als Langform-Generierungen bekannt sind, können wahre und falsche Informationen vermischen. Das macht es schwer, die Fakten zu überprüfen. Frühere Studien haben versucht, dieses Problem zu lösen, indem sie diese Texte in kleinere, überprüfbare Fakten zerlegt und jeden einzelnen separat verifiziert haben. Die Idee war, dass, wenn die meisten dieser kleineren Fakten wahr sind, dann sollte der ganze Text auch als wahr betrachtet werden. Allerdings kann dieser Ansatz scheitern, wenn der Computer Fakten über verschiedene Personen mit dem gleichen Namen vermischt, was zu irreführenden Ergebnissen führt.

Probleme bei der Bewertung der Faktizität

Ein häufiges Problem beim Überprüfen, ob ein langer Text wahr ist, ist, dass Fakten durcheinander geraten können, besonders wenn sie Personen betreffen, die sich den Namen teilen. Wenn ein Text zum Beispiel "John Smith" erwähnt, es aber mehrere John Smiths gibt, könnte ein Leser fälschlicherweise denken, dass alle Informationen über eine Person sind. Das kann eine Situation schaffen, in der jeder einzelne Fakt wahr sein könnte, aber wenn sie kombiniert werden, ergibt das keinen Sinn mehr.

Die bestehenden Methoden, die die Wahrheit dieser Texte bewerten, haben Schwierigkeiten, wenn sie mit dieser Mischerei von Fakten konfrontiert werden. Sie erkennen oft nicht, dass, selbst wenn jedes Stück Information durch eine Quelle gestützt wird, der ganze Absatz dennoch irreführend sein kann.

Um dieses Problem anzugehen, stellen wir eine neue Methode vor, um diese Texte zu bewerten, die sich speziell auf die Verwirrung konzentriert, die durch Namen entsteht, die sich auf mehrere Personen beziehen können. Diese Methode funktioniert besser, um zu bestimmen, ob eine Langform-Generierung tatsächlich faktisch ist.

Wie wir eine neue Bewertungsmethode entwickelt haben

Unsere aktualisierte Methode besteht darin, Gruppen von Fakten aus dem Text zu betrachten. Anstatt jeden Fakt einzeln zu überprüfen, gruppieren wir Fakten, die anscheinend über dieselbe Person handeln, basierend darauf, wie sie im Text präsentiert werden. Wir überprüfen dann, ob diese Gruppe von Fakten alle auf dieselbe reale Person hinweisen kann, basierend auf den verfügbaren Informationen. So können wir besser bewerten, ob die Informationen im Absatz tatsächlich über eine einzelne Person sind oder ob sie fälschlicherweise verschiedene Personen vermischen.

Wir haben diese neue Bewertungsmethode an Biografien getestet, die von verschiedenen Computerprogrammen erstellt wurden, die zum Generieren von Text entworfen wurden. Wir haben festgestellt, dass unsere Methode genau identifizieren konnte, wann diese Programme Fakten über verschiedene Personen vermischt haben.

Warum Biografien?

Wir haben uns entschieden, Biografien für unsere Studie zu verwenden, weil sie oft klare Beispiele dafür präsentieren, wie Namen Verwirrung stiften können. Biografien erwähnen häufig wichtige Lebensereignisse, was es einfacher macht, sie in kleinere Fakten zu zerlegen. Ausserdem suchen viele Menschen online nach spezifischen Personen, sodass das Risiko, auf vermischte Informationen zu stossen, hoch ist.

Der Prozess der Biografien-Generierung

Um die Biografien für unsere Studie zu erstellen, haben wir damit begonnen, Namen zu sammeln, die sich auf mehrere Personen beziehen könnten, von Wikipedia. Wir haben 500 Namen ausgewählt, die diese Art von Mehrdeutigkeit haben, und sie in das, was wir die AmbigBio-Sammlung nennen, aufgenommen.

Als wir die Biografien generiert haben, haben wir eine Technik verwendet, die die Beschaffung verwandter Informationen mit der Textgenerierung kombiniert. Für jeden Namen haben wir relevante Passagen von Wikipedia herausgezogen, um die Biografien zu gestalten. Wir haben die Computerprogramme speziell darum gebeten, sich ausschliesslich auf diese abgerufenen Quellen zu stützen, um sicherzustellen, dass die generierten Texte klare Zitationen hatten.

Wie wir unsere Tests eingerichtet haben

Wir haben mehrere grosse Sprachmodelle (LLMs) getestet, die Computerprogramme sind, die darauf trainiert sind, Text zu generieren. Jedes hat unterschiedliche Grössen und Methoden, wie es lernt, auf Aufforderungen zu reagieren. Wir haben jedes Modell gebeten, Biografien für die mehrdeutigen Namen zu generieren, die wir gesammelt haben.

Nachdem wir diese Texte generiert hatten, haben wir sie basierend auf der Anzahl der unterschiedlichen Personen, auf die sie Bezug nahmen, der Anzahl der identifizierbaren Biografien und wie oft die Informationen korrekt waren, bewertet.

Bewertung der Ergebnisse

Wir haben die generierten Absätze basierend auf zwei wichtigen Aspekten kategorisiert: der Anzahl der unterschiedlichen Entitäten und der Anzahl der identifizierbaren Biografien. Das hat uns geholfen zu verstehen, ob diese Texte Fakten aus verschiedenen Quellen vermischt haben oder ob sie getrennt blieben.

  1. Eine Biografie, eine Entität: Der Text sprach klar über eine Person mit Informationen aus einer Quelle.

  2. Eine Biografie, mehrere Entitäten: Der Text erwähnte Informationen, die für mehr als eine Person relevant waren, ohne sie zu unterscheiden.

  3. Mehrere Biografien, mehrere Entitäten: Der Text konnte Informationen über mehrere Personen klarstellen, sodass die Leser die Unterschiede verstehen konnten.

Indem wir die Texte auf diese Weise sortiert haben, konnten wir sehen, wie oft die generierten Biografien nicht einfach ein Durcheinander von Fakten über nicht verwandte Personen waren.

Die Ergebnisse unserer Bewertung

Unsere Ergebnisse zeigten ein erhebliches Problem mit der Fähigkeit einiger LLMs, genaue Biografien zu erstellen, wenn sie mit mehrdeutigen Namen konfrontiert wurden. Viele dieser Modelle neigten dazu, Informationen über verschiedene Personen so zu vermischen, dass sie den Leser verwirrten.

Zum Beispiel, wenn LLMs Biografien über berühmte Sportler generierten, die den gleichen Namen teilten, vermischten sie oft ihre Leistungen in einem Absatz, was zu irreführenden Ergebnissen führte, bei denen die Fakten nicht genau eine einzige Person repräsentieren konnten.

Unsere neue Bewertungsmethode erwies sich als effektiv, um diese Probleme zu erkennen. Die von unserer Methode vergebenen Punkte, die die Mehrdeutigkeit von Entitäten berücksichtigen, hoben die Einschränkungen älterer Methoden hervor, die dies nicht taten.

Wie unterschiedliche Modelle abgeschnitten haben

Wir haben die Leistung verschiedener LLMs verglichen, einschliesslich sowohl Open-Source-Modelle als auch proprietäre. Die Ergebnisse zeigten, dass proprietäre Modelle beim Entwirren von Fakten besser abschnitten als Open-Source-Modelle.

Ein Modell namens ChatGPT lieferte konsequent klarere Unterschiede zwischen verschiedenen Personen, was zu genaueren Biografien führte. Im Gegensatz dazu hatten die Open-Source-Modelle Schwierigkeiten und vermischten häufig Fakten über mehrere Personen in einem einzigen Text.

Zusätzlich haben wir festgestellt, dass die blosse Erhöhung der Grösse dieser Modelle keine Garantie für eine bessere Leistung beim Unterscheiden zwischen Personen war. Selbst grössere Modelle zeigten nur begrenzte Verbesserungen in ihrer Fähigkeit, mit der Mehrdeutigkeit von Entitäten umzugehen.

Automatische Bewertungstechniken

Um die Bewertungen schneller und einfacher zu machen, haben wir ein automatisches Bewertungssystem basierend auf unserem neuen Mass entwickelt. Dies beinhaltete, den generierten Text in Fakten zu zerlegen, sie zu gruppieren und sie mit Entitäten in einer Wissensquelle zur Verifizierung zu verknüpfen.

Durch diesen Ansatz konnten wir die Faktizität der Biografien bewerten, ohne so viele manuelle Überprüfungen durchführen zu müssen, die zeitaufwendig und teuer sein können.

Beobachtungen aus der automatischen Bewertung

Die automatische Bewertung stimmte eng mit den menschlichen Bewertungen überein und lieferte eine zuverlässige Schätzung, welche Modelle besser mit der Faktizität umgingen. Unsere automatische Methode zeigte, dass sie effektiv mit der Mehrdeutigkeit von Entitäten umgehen und sinnvolle Vergleiche zwischen verschiedenen generierten Texten liefern konnte.

Wir stellten fest, dass die Modelle eine ähnliche Rangordnung in der Leistung zeigten, egal ob sie von menschlichen Bewertern oder durch unser automatisches System bewertet wurden, was ihre Wirksamkeit bestätigte.

Herausforderungen mit der Entitätenmehrdeutigkeit

Eine der Hauptschwierigkeiten, die wir in unserer Forschung hervorgehoben haben, ist, wie oft Computer Schwierigkeiten haben, genaue Inhalte zu generieren, wenn sie aus Quellen schöpfen, die mehrdeutige Namen enthalten. Dieses Problem ist besonders offensichtlich, wenn die abgerufenen Informationen aus einer begrenzten Quelle wie Wikipedia stammen.

In der realen Nutzung ist die Herausforderung sogar noch grösser, da Modelle durch eine breitere Palette von Informationen aus dem Internet filtern müssten, von denen viele möglicherweise nicht die Klarheit bieten, die Wikipedia manchmal hat.

Breitere Implikationen

Die Herausforderungen, die durch die Mehrdeutigkeit von Entitäten entstehen, sind entscheidend für den genauen Einsatz von Modellen, die auf retrieval-unterstützter Generierung basieren. Modelle müssen mehr tun, als nur Text zu generieren; sie müssen sicherstellen, dass die präsentierten Fakten nicht irreführend oder verwirrend für den Leser sind.

Diese Forschung bietet Einblicke, wie man die Faktizität von Texten, die von diesen Modellen generiert werden, besser bewerten kann. Sie öffnet die Tür für zukünftige Studien, die ähnliche Probleme in verschiedenen Inhaltsbereichen über Biografien hinaus angehen möchten.

Fazit

Unsere Studie beleuchtet die oft übersehene Verwirrung, die durch das Kombinieren von faktischen Behauptungen in Absätzen entsteht, die die Leser irreführen. Indem wir eine neue Bewertungsmethode entwickelt haben, die sich auf die Mehrdeutigkeit von Entitäten konzentriert, haben wir gezeigt, wie aktuelle Metriken versagen können, und einen Weg vorgeschlagen, um die faktischen Bewertungen in von Computerprogrammen generierten Texten zu verbessern.

Die Ergebnisse deuten darauf hin, dass viele Open-Source-Modelle eine weitere Verfeinerung benötigen, um die Mehrdeutigkeit von Entitäten besser zu handhaben. Die Ergebnisse betonen auch die Notwendigkeit für kontinuierliche Verbesserungen in der Ausbildung und Bewertung von Modellen, die zur Generierung von Texten verwendet werden, um sicherzustellen, dass sie akkurate und zuverlässige Informationen bereitstellen.

Zusammenfassend ist die Behebung der Mehrdeutigkeit von Entitäten entscheidend für die Verbesserung der Zuverlässigkeit von Texten, die von Computern generiert werden, insbesondere da Modelle weiterhin in verschiedene Anwendungen im Alltag integriert werden. Zukünftige Forschungen sollten auf dieser Grundlage aufbauen, um Wege zu erkunden, diese Modelle weiter zu verfeinern und ihre Fähigkeit zur Generierung klarer und faktischer Inhalte zu verbessern.

Originalquelle

Titel: Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations

Zusammenfassung: Long-form generations from large language models (LLMs) contain a mix of factual and non-factual claims, making evaluating factuality difficult. Prior works evaluate the factuality of a long paragraph by decomposing it into multiple facts, verifying those facts independently, and aggregating the results. Such methods assume that combining factual claims forms a factual paragraph. The above assumption can be violated: we show that strong open-source models like Llama-chat can generate paragraphs that contain verifiable facts, but the facts are combined into a non-factual paragraph due to entity ambiguity. We further reveal that existing factuality metrics, including FActScore and citation recall, cannot properly evaluate these non-factual paragraphs and overestimate their factuality. To address this, we introduce an enhanced metric, D-FActScore, specifically designed for content with ambiguous entities. We evaluate the D-FActScores of people biographies generated by retrieval-augmented LLMs. We show that D-FActScore can better assess the factuality of paragraphs with entity ambiguity than FActScore. We also find that four widely used open-source LLMs tend to mix information of distinct entities to form non-factual paragraphs, making their D-FActScore much lower than FActScore by over 10%.

Autoren: Cheng-Han Chiang, Hung-yi Lee

Letzte Aktualisierung: 2024-06-06 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2402.05629

Quell-PDF: https://arxiv.org/pdf/2402.05629

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel