Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Bewertung von Sprachmodellen mit Experteneinsicht

Eine Studie zeigt, wie wichtig Expertenmeinungen für die Ergebnisse von Sprachmodellen sind.

― 7 min Lesedauer


Experteneinblicke zurExperteneinblicke zurLeistung vonSprachmodellenvon KI-generierten Inhalten hervor.Forschung hebt die Expertenbewertung
Inhaltsverzeichnis

Sprachmodelle, die helfen, Texte zu generieren und Fragen zu beantworten, werden immer beliebter. Da verschiedene Nutzer diese Modelle für unterschiedliche Zwecke anpassen, ist es wichtig, dass sie genaue Informationen bereitstellen. Das ist besonders wichtig in kritischen Bereichen wie Medizin und Recht, wo falsche Informationen schwerwiegende Folgen haben können.

Frühere Forschungen haben untersucht, wie diese Modelle Fakten und Quellen präsentieren, aber die meisten Arbeiten haben sich nicht auf spezifische Bereiche konzentriert. Um diese Lücke zu schliessen, haben wir eine Evaluationsstudie durchgeführt, um zu prüfen, wie gut diese Modelle faktenbasierte Informationen bereitstellen und ihre Quellen zitieren, mit Input von Experten aus verschiedenen Fachgebieten.

Studienübersicht

In unserer Studie haben wir Experten aus 32 Bereichen um Input gebeten, um Fragen und Antworten zu erstellen und zu bewerten. Wir haben Experten-fragendive Fragen von 484 Fachleuten gesammelt und sie gebeten, die von Sprachmodellen generierten Antworten zu bewerten. Ausserdem haben Experten die Antworten überarbeitet, um sicherzustellen, dass sie genau sind, was zu einem hochwertigen Datensatz namens ExpertQA führte.

ExpertQA umfasst 2.177 Fragen aus verschiedenen Disziplinen, zusammen mit von Experten verifizierten Antworten. Jede Antwort enthält Behauptungen, die von Experten basierend auf ihrer Genauigkeit und der Zuverlässigkeit der verwendeten Quellen bewertet werden.

Bedeutung des Experteninputs

Da Sprachmodelle in vielen Bereichen eingesetzt werden, spielen Experten eine entscheidende Rolle bei der Bewertung der Qualität der Ergebnisse. Medizinische Fachkräfte könnten beispielsweise auf diese Modelle für Diagnosen oder Literaturübersichten angewiesen sein. Ungenauigkeiten in diesen Antworten können jedoch zu Verwirrung und einem Mangel an Vertrauen in KI-Tools führen.

Um die Zuverlässigkeit der generierten Antworten zu stärken, ist das Bereitstellen von Zitationen eine vielversprechende Lösung. Leider bleibt die Qualität dieser Zitationen und die faktische Genauigkeit der Antworten, insbesondere für spezifische Bereiche, unerforscht.

Sammeln von Expertenfragen

Der erste Schritt in unserer Forschung war es, Fragen von Experten zu sammeln. Wir haben Fachleute angesprochen, die mindestens drei Jahre Erfahrung in ihrem Bereich hatten. Jeder Experte wurde gebeten, fünf herausfordernde Fragen basierend auf seinem Fachwissen zu formulieren. Wir haben über 3.000 Fragen gesammelt, die dann auf Relevanz gefiltert wurden, was zu insgesamt 2.507 Fragen führte.

Die Fragen waren sehr unterschiedlich, wodurch wir eine breite Palette von Themen und Informationsbedürfnissen abdecken konnten. Indem wir Experten auf diese Weise einbezogen, stellten wir sicher, dass die Fragen reale Szenarien ansprachen, mit denen Fachleute konfrontiert sein könnten.

Generieren von Antworten durch Sprachmodelle

Sobald die Fragen erstellt waren, haben wir Antworten von mehreren Sprachmodell-Systemen generiert. Diese Systeme produzierten Antworten mit begleitenden Zitationen. Wir teilten die generierten Antworten in Behauptungen auf, damit die Experten jede Behauptung einzeln bewerten konnten.

Die Experten mussten die Qualität der Antworten bewerten, indem sie verschiedene Faktoren berücksichtigten, wie Unterstützung durch Beweise, Informationsgehalt und Zuverlässigkeit der Beweise. Dieser Bewertungsprozess beinhaltete die Einschätzung, wie nützlich die Antworten waren, wie faktisch die Behauptungen waren und wie vertrauenswürdig die Quellen waren.

Evaluieren der Antworten

Nachdem die Antworten generiert wurden, haben wir die Experten gebeten, die Antworten zu validieren. Dieser Prozess war nützlich, da die Experten die Qualität der Antworten auf ihre Fragen genau bewerten konnten. Die Evaluierung wurde systematisch in die folgenden Komponenten unterteilt:

Nützlichkeit der Antworten

Die Experten bewerteten, ob die komplette Antwort nützlich war, um die gestellte Frage zu beantworten. Die Nützlichkeit wurde auf einer Skala bewertet, wobei berücksichtigt wurde, ob sie vollständig, teilweise oder gar nicht nützlich war.

Attribution der Behauptungen

Die Experten urteilten, ob jede Behauptung durch die begleitenden Beweise unterstützt wurde. Sie kategorisierten die Unterstützung als vollständig, teilweise oder unvollständig. Wenn keine Beweise erbracht wurden, wurde die Unterstützung als fehlend gekennzeichnet.

Informationsgehalt der Behauptungen

Die Experten kennzeichneten die Relevanz jeder Behauptung für die gesamte Frage. Die Labels reichten von sehr relevant bis nicht informativ, um ein nuanciertes Verständnis dafür zu ermöglichen, wie gut jede Behauptung ihren Zweck erfüllte.

Faktizität der Behauptungen

Die Experten bewerteten auch die Genauigkeit jeder Behauptung basierend auf ihrem Fachwissen und den bereitgestellten Beweisen. Sie bewerteten die Behauptungen auf einer Skala, von definitiv korrekt bis definitiv falsch. Diese sorgfältige Bewertung stellte sicher, dass eine zuverlässige Einschätzung der faktischen Genauigkeit jeder Behauptung vorgenommen wurde.

Zuverlässigkeit der Quellen

Die Experten berücksichtigten die Vertrauenswürdigkeit der Quellen, aus denen die Beweise stammen. Sie bewerteten die Quellen als zuverlässig, einigermassen zuverlässig oder überhaupt nicht zuverlässig. Dieser Schritt war entscheidend, um die Glaubwürdigkeit der von den Sprachmodellen präsentierten Informationen festzustellen.

Ergebnisse der Evaluierung

Nach dem Evaluierungsprozess haben wir die Ergebnisse analysiert, um zu verstehen, wie unterschiedlich Sprachmodell-Systeme abschneiden. Unsere Ergebnisse zeigen mehrere wichtige Trends:

Nützlichkeit der generierten Antworten

Insgesamt wurden die meisten Antworten, die von den Modellen bereitgestellt wurden, als nützlich erachtet. Allerdings waren die Antworten, die von rein generativen Systemen erzeugt wurden, oft hilfreicher als die von abrufbasierten Systemen. Die Nützlichkeit der Antworten variierte je nach dem verwendeten Verfahren zu ihrer Generierung.

Vollständigkeit der Attribution

Retrieve-and-read-Systeme neigten dazu, vollständigere Attributionen zu generieren als Modelle, die sich ausschliesslich auf generative Techniken stützten. Diese Systeme hatten jedoch Schwierigkeiten, Zitationen für alle Behauptungen bereitzustellen, die von Experten als notwendig erachtet wurden.

Zuverlässigkeit der Quellen

Experten stellten fest, dass die Qualität der Attribution und die gesamte Faktizität durch die verwendeten Quellen für den Abruf beeinflusst wurden. In hochriskanten Bereichen wie Medizin und Recht hatten viele Behauptungen keine zuverlässigen Attributionen. Dies warf Bedenken hinsichtlich der Qualität der in kritischen Bereichen bereitgestellten Informationen auf.

Korrelation mit automatisierten Metriken

Verschiedene automatische Methoden zur Bewertung von Attribution und Faktizität wurden im Vergleich zu Expertenurteilen getestet. Unsere Analyse zeigte eine fehlende starke Korrelation zwischen den beiden. Allerdings wurden Verbesserungen in der Leistung festgestellt, als die Methoden an unseren Datensatz angepasst wurden.

Erstellung eines hochwertigen Datensatzes

Die überarbeiteten Antworten, die während des Evaluierungsprozesses gesammelt wurden, bilden die Grundlage von ExpertQA, einem hochwertigen Datensatz für langformatige Frage-Antwort-Systeme. Dieser Datensatz soll die zukünftigen Modelle verbessern und deren Leistung effektiver bewerten.

ExpertQA hebt sich hervor, weil es validierte Antworten enthält, die von Experten bearbeitet wurden, und sich auf realistische Fragen konzentriert, mit denen Fachleute in ihrer täglichen Arbeit konfrontiert sein könnten. Bestehende Datensätze fehlen oft diese Qualitäten, was ExpertQA zu einem wertvollen Beitrag für das Feld macht.

Analyse des Annotationprozesses

Der Annotationprozess für ExpertQA verlief in mehreren Phasen. Zuerst schrieben Experten Fragen, gefolgt von der Bewertung der generierten Antworten. Diese gründliche Bewertung ermöglichte ein umfassendes Verständnis dafür, wie Sprachmodelle Fachleuten in verschiedenen Bereichen besser dienen könnten.

Die Studie hat gezeigt, dass Experten eine hohe Übereinstimmung bei der Bewertung von Behauptungen erreicht haben. Trotz gewisser Subjektivität in ihren Urteilen zeigten die Ergebnisse insgesamt ein starkes Konsensniveau unter den Annotatoren.

Fazit

Unsere Studie hebt die Bedeutung der Expertenbeteiligung bei der Bewertung der Outputs von Sprachmodellen hervor, insbesondere in Bereichen mit hohen Einsätzen. Während diese Modelle potenzielle Vorteile bieten, gibt es noch viel zu tun, um ihre Genauigkeit und Zuverlässigkeit sicherzustellen.

Mit der Schaffung von ExpertQA haben wir einen Massstab etabliert, der nicht nur die Leistung von Sprachmodellen verbessert, sondern auch die Bewertung von Faktizität und Attribution. Unsere Ergebnisse zeigen, dass kontinuierliche Zusammenarbeit mit Fachexperten entscheidend ist, um Modelle zu entwickeln, die vertrauenswürdige und genaue Informationen bereitstellen können.

Der Weg nach vorn besteht darin, effektivere Methoden zur Verbesserung von Sprachmodellen zu entwickeln und die spezifischen Bedürfnisse von Experten in verschiedenen Bereichen zu verstehen. Durch laufende Forschung und Zusammenarbeit können wir das Potenzial von Sprachmodellen besser nutzen, um Fachleute in ihrem Streben nach Wissen zu unterstützen.

Zukünftige Richtungen

Blick nach vorn gibt es mehrere Bereiche, in denen weitere Forschung benötigt wird:

  • Die Abdeckung von ExpertQA erweitern, um vielfältigere Bereiche und Fragen einzubeziehen.
  • Zusätzliche Methoden zur Verbesserung der Genauigkeit der von Sprachmodellen generierten Behauptungen untersuchen.
  • Rahmenwerke entwickeln, die den Evaluierungsprozess für Experten optimieren und weniger zeitaufwendig machen.
  • Automatische Bewertungsmethoden verbessern, um besser mit Expertenurteilen übereinzustimmen.

Indem wir uns mit diesen Bereichen befassen, können wir die Sprachmodelle weiterhin verfeinern und sicherstellen, dass sie die Anforderungen von Fachleuten, die genaue und zuverlässige Informationen suchen, erfüllen.

Originalquelle

Titel: ExpertQA: Expert-Curated Questions and Attributed Answers

Zusammenfassung: As language models are adopted by a more sophisticated and diverse set of users, the importance of guaranteeing that they provide factually correct information supported by verifiable sources is critical across fields of study. This is especially the case for high-stakes fields, such as medicine and law, where the risk of propagating false information is high and can lead to undesirable societal consequences. Previous work studying attribution and factuality has not focused on analyzing these characteristics of language model outputs in domain-specific scenarios. In this work, we conduct human evaluation of responses from a few representative systems along various axes of attribution and factuality, by bringing domain experts in the loop. Specifically, we collect expert-curated questions from 484 participants across 32 fields of study, and then ask the same experts to evaluate generated responses to their own questions. In addition, we ask experts to improve upon responses from language models. The output of our analysis is ExpertQA, a high-quality long-form QA dataset with 2177 questions spanning 32 fields, along with verified answers and attributions for claims in the answers.

Autoren: Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, Dan Roth

Letzte Aktualisierung: 2024-04-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.07852

Quell-PDF: https://arxiv.org/pdf/2309.07852

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel