Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Halluzinationen in Sprachmodellen angehen

Ein neuer Massstab bewertet LLMs auf Faktengenauigkeit.

― 6 min Lesedauer


Umgang mitUmgang mitLLM-HalluzinationenFaktengenauigkeit in KI.Neue Methoden verbessern die
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) sind Computerprogramme, die Text generieren können, der wie von einer Person geschrieben klingt. Sie haben sich im Laufe der Zeit stark verbessert und können mittlerweile Texte erstellen, die kohärent und leicht zu lesen sind. Es gibt jedoch ein grosses Problem: Manchmal erfinden diese Modelle Infos, die nicht wahr sind. Dieses Problem nennt man Halluzination.

Was sind Halluzinationen?

Im Kontext von LLMs treten Halluzinationen auf, wenn das Modell Aussagen macht, die falsch oder nicht auf realen Informationen basieren. Das kann ein ernstes Problem sein, besonders wenn diese Modelle in wichtigen Situationen verwendet werden, in denen Leute auf ihre Antworten angewiesen sind. Nutzer vertrauen oft den Ausgaben von LLMs, was zu Problemen führen kann, wenn die Informationen falsch sind.

Der Bedarf an besserer Bewertung

Es wurden viele Tests entwickelt, um zu überprüfen, wie gut LLMs faktische Informationen liefern. Allerdings decken diese Tests oft nicht alle verschiedenen Arten von Wissen ab, die Nutzer im echten Leben suchen. Die meisten vorhandenen Tests konzentrieren sich auf Daten aus Quellen wie Wikipedia, aber viele Themen aus der realen Welt haben keine Wikipedia-Seiten. Das bedeutet, dass die Tests möglicherweise nicht vollständig effektiv sind, um zu zeigen, wie gut die LLMs in realen Situationen abschneiden.

Um dieses Problem anzugehen, wurde ein neuer Bewertungsmassstab geschaffen. Dieser Massstab soll die faktische Genauigkeit von LLMs testen, indem er Informationen aus Gesprächen verwendet, die reale Nutzer mit Chatbots geführt haben. Dadurch deckt die Bewertung eine grössere Bandbreite an Themen und Informationsarten ab als frühere Massstäbe.

Der neue Massstab

Der neue Massstab nutzt Informationen aus tatsächlichen Nutzer-Chatbot-Gesprächen, um LLMs zu testen. Er fordert diese Modelle auf, Informationen über Entitäten – Leute, Orte oder Konzepte – basierend auf realen Anfragen zu generieren. Die generierten Informationen werden dann auf Genauigkeit gegen eine Sammlung von zuverlässigem Wissen aus Websuchen überprüft.

Wichtige Merkmale des Massstabs

  1. Vielfältige Bereiche: Der Massstab umfasst eine breite Palette von Themen, wie Kultur, Finanzen und Technologie. Das spiegelt die unterschiedlichen Interessen der Nutzer wider und macht es relevanter für Anwendungen in der realen Welt.

  2. Automatische Faktenüberprüfung: Der Prozess umfasst die automatische Überprüfung der generierten Ausgaben gegen eine kuratierte Sammlung von Webdokumenten. Das kann helfen herauszufinden, welche Aussagen der LLMs korrekt sind und welche nicht.

  3. Fokus auf Nicht-Wikipedia-Wissen: Ein signifikanter Teil der bewerteten Entitäten hat keine entsprechenden Wikipedia-Seiten, was darauf hinweist, dass Nutzer oft Informationen anfordern, die über das hinausgehen, was typischerweise auf Wikipedia zu finden ist.

Wie der Massstab funktioniert

Schritt 1: Entitätsextraktion

Um den Massstab zu erstellen, werden Eigennamen aus dem Nutzer-Chatbot-Gesprächsdatensatz extrahiert, der Millionen von Interaktionen enthält. Werkzeuge wie GPT-3.5 und GPT-4o werden verwendet, um diese Eigennamen zu identifizieren und ihre Genauigkeit zu überprüfen. Das hilft sicherzustellen, dass nur relevante Entitäten in die Bewertungen aufgenommen werden.

Schritt 2: Aufbau der Wissensquelle

Für jede Entität wird eine Wissensbasis unter Verwendung kommerzieller Suchmaschinen erstellt. Statt sich nur auf Wikipedia zu verlassen, die viele Entitäten nicht haben, sammelt der Massstab Webseiten, die relevante Informationen bieten. Dadurch wird eine umfassendere Ressource für genaue Faktenüberprüfungen geschaffen.

Schritt 3: LLMs anstossen

Sobald die Wissensquelle erstellt ist, werden die LLMs mit Fragen zu jeder Entität angestossen. Sie werden gebeten, beschreibende Absätze zu generieren. Die Ausgaben werden dann automatisch analysiert, um ihre faktische Richtigkeit zu bestimmen.

Ergebnisse der Bewertung

Der Massstab wurde verwendet, um eine Vielzahl von hochmodernen LLMs zu bewerten. Die Ergebnisse zeigten einige interessante Muster:

  1. Halluzinationsraten variieren je nach Bereich: Unterschiedliche Themen führten zu unterschiedlichen Halluzinationsraten. Zum Beispiel machten Modelle in Bereichen wie Finanzen und persönliche Eigenschaften tendenziell mehr Fehler, während sie in Bereichen wie Geografie und Technologie besser abschnitten.

  2. Entitäten ohne Wikipedia-Seiten: Es wurde festgestellt, dass Modelle häufiger Halluzinationen bei Entitäten hatten, die keine zugehörigen Wikipedia-Seiten haben. Das deutet darauf hin, dass die Abwesenheit von leicht verfügbaren Informationen zu falschen Ausgaben führen kann.

  3. Abruf-Effekte: Die Hinzufügung einer Suchekomponente zu den Modellen hilft, Halluzinationen leicht zu reduzieren, beseitigt sie aber nicht vollständig. Das deutet darauf hin, dass, obwohl Abruf helfen kann, genaue Informationen bereitzustellen, LLMs dennoch falsche Fakten generieren können.

Bedeutung des Verständnisses von Halluzinationen

Zu verstehen, wie und warum LLMs halluzinieren, ist entscheidend für die Verbesserung ihrer Zuverlässigkeit. Halluzinationen können aus verschiedenen Gründen auftreten, einschliesslich:

  • Unzureichende Trainingsdaten: Wenn das Modell nicht auf genug akkuraten Informationen zu einem bestimmten Thema trainiert wurde, könnte es falsche Ausgaben generieren, wenn es Text zu diesem Thema erstellt.

  • Komplexe Anfragen: Einige Nutzerfragen können komplex oder mehrdeutig sein, was zu Antworten führt, die missverstehen, was gefragt wird.

  • Informationsrauschen: Die Informationen, die aus Websuchen abgerufen werden, können ungenau oder veraltet sein, was die Qualität der Ausgaben des Modells beeinflusst.

Die Rolle der automatischen Bewertung

Der automatische Bewertungsprozess soll quantifizieren, wie gut LLMs bei der Bereitstellung genauer Informationen abschneiden. Das geschieht, indem ihre generierten Texte in kleinere Ansprüche zerlegt und jeder Anspruch mit der Wissensquelle überprüft wird.

Metriken zur Bewertung

Zwei Hauptmetriken werden verwendet, um die Faktizität von LLMs zu bewerten:

  1. Unterstützende Faktorenverhältnis: Diese misst den Prozentsatz der Ansprüche, die von der Wissensquelle unterstützt werden. Während diese Metrik einen allgemeinen Eindruck von der Leistung vermittelt, könnte sie irreführend sein, wenn das Modell oft nicht antwortet.

  2. Atomare Genauigkeit von Fakten: Diese misst, ob alle Ansprüche über eine Entität korrekt sind. Wenn auch nur ein Anspruch falsch ist, erhält das Modell eine niedrige Punktzahl. Diese Metrik ist strenger und bietet ein klareres Bild der faktischen Genauigkeit.

Auswirkungen auf die zukünftige Entwicklung

Die Ergebnisse aus den Bewertungen könnten helfen, zukünftige Verbesserungen bei LLMs zu leiten. Indem man sich auf die Bereiche konzentriert, in denen Modelle Schwierigkeiten haben, können Entwickler daran arbeiten, ihr Training zu verbessern und die Chancen für Halluzinationen zu verringern. Verbesserungen der Abrufmethoden können auch helfen, sicherzustellen, dass die Modelle auf die genauesten Informationen zugreifen, während sie Texte generieren.

Fazit

Die Entwicklung des neuen Massstabs zur Bewertung von LLMs ist ein wichtiger Schritt zur Bewältigung der Herausforderungen von Halluzinationen. Durch die Fokussierung auf reale Nutzerinteraktionen und die Verwendung vielfältiger Wissensquellen bietet dieser Massstab einen effektiveren Weg, um die faktische Genauigkeit von Sprachmodellen zu messen. Während die Technologie weiterhin fortschreitet, wird es entscheidend sein, Halluzinationen zu verstehen und zu managen, um sicherzustellen, dass LLMs in verschiedenen Anwendungen vertrauenswürdig sind, was letztendlich zu sichereren und zuverlässigeren KI-Systemen führt.

Die Arbeit endet hier jedoch nicht. Kontinuierliche Verbesserungen und Aktualisierungen werden nötig sein, um mit den sich entwickelnden Technologien und der wachsenden Komplexität der Informationen, die Nutzer suchen, Schritt zu halten.

Originalquelle

Titel: WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries

Zusammenfassung: While hallucinations of large language models (LLMs) prevail as a major challenge, existing evaluation benchmarks on factuality do not cover the diverse domains of knowledge that the real-world users of LLMs seek information about. To bridge this gap, we introduce WildHallucinations, a benchmark that evaluates factuality. It does so by prompting LLMs to generate information about entities mined from user-chatbot conversations in the wild. These generations are then automatically fact-checked against a systematically curated knowledge source collected from web search. Notably, half of these real-world entities do not have associated Wikipedia pages. We evaluate 118,785 generations from 15 LLMs on 7,919 entities. We find that LLMs consistently hallucinate more on entities without Wikipedia pages and exhibit varying hallucination rates across different domains. Finally, given the same base models, adding a retrieval component only slightly reduces hallucinations but does not eliminate hallucinations.

Autoren: Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi

Letzte Aktualisierung: 2024-07-24 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.17468

Quell-PDF: https://arxiv.org/pdf/2407.17468

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel