Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Nutzung von grossen Sprachmodellen für den Aufbau von Wissensgraphen

Diese Studie zeigt, wie LLMs beim Erstellen von Wissensgraphen helfen können.

― 6 min Lesedauer


LLMs in WissensgraphenLLMs in WissensgraphenVorhersagen in Wissensdatenbanken.Untersuchen des Potenzials von LLMs bei
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) verändern, wie wir über die Arbeit mit Informationen denken. Sie können verschiedene Aufgaben erledigen, wie Texte verstehen, klassifizieren und Namen erkennen. In letzter Zeit haben Modelle wie ChatGPT und GPT-4 von OpenAI gezeigt, dass sie bei diesen Aufgaben sehr effektiv sind. Der Fokus hat sich darauf verschoben, wie wir diese Modelle effektiv anstossen können, um die besten Ergebnisse zu erzielen.

Wissen Graphen sind eine Möglichkeit, Informationen darzustellen, die es Maschinen ermöglicht, Fakten zu verstehen und darüber nachzudenken. Allerdings ist die Erstellung dieser Wissen Graphen kompliziert, egal ob automatisch oder mit menschlicher Hilfe. Wikidata ist einer der grössten verfügbaren Wissen Graphen, voll mit Informationen über reale Entitäten und wurde durch die Beiträge vieler Menschen aufgebaut.

Während frühere Forschungen untersucht haben, wie LLMs für den Aufbau von Wissen Graphen verwendet werden können, hat das jüngste Verbesserungen bei LLMs neues Interesse geweckt. Obwohl LLMs grosses Potenzial für Wissensmanagement haben, gibt es grundlegende Unterschiede zwischen ihnen und Wissen Graphen. Wissen Graphen speichern Fakten mit strengen Regeln, während LLMs logisches Denken nicht immer auf dieselbe Weise begreifen.

Ausserdem werden LLMs hauptsächlich mit öffentlich verfügbaren Daten trainiert, was dazu führt, dass sie tiefes Wissen über populäre Themen haben, aber weniger Informationen über weniger bekannte Themen. Diese Arbeit zielt darauf ab, zu beleuchten, wie LLMs für Wissensmanagement eingesetzt werden können, mit Fokus auf die ISWC 2023 LM-KBC Challenge.

Worum ging es bei der Herausforderung?

Die Herausforderung bestand darin, Objektentitäten basierend auf einer Subjekteinheit und einer Relation aus Wikidata vorherzusagen. Zum Beispiel, wenn das Subjekt "Robert Bosch LLC" und die Relation "CompanyHasParentOrganisation" ist, besteht die Aufgabe darin, die relevanten Objekte wie "Robert Bosch" vorherzusagen und sie mit ihren entsprechenden Wikidata-IDs zu verknüpfen.

Um das anzugehen, haben wir zwei leistungsstarke LLMs verwendet: gpt-3.5-turbo und GPT-4. Durch das Experimentieren mit verschiedenen Ansätzen erreichten wir einen makro-averaged F1-Score von 0.701, was zeigt, dass die Leistung je nach Art der untersuchten Relation variierte. Einige Relationen erzielten perfekte Punkte, während andere nicht so gut abschnitten.

Verwandte Arbeiten zur Wissensabfrage

Es wurde viel Forschung betrieben, um zu untersuchen, wie gut LLMs wissensintensive Aufgaben bewältigen können. Frühere Studien haben sich damit beschäftigt, Sprachmodelle zum Aufbau oder zur Vervollständigung von Wissen Graphen zu verwenden. Zum Beispiel versuchte eine frühe Studie, LAMA, Fakten von LLMs mithilfe eines spezifischen Abfrageformats abzurufen. Neuere Anstrengungen haben die Verwendung von LLMs für diese Aufgaben weiter analysiert.

Infolgedessen wurden viele neue Benchmarks und Datensätze erstellt, um zu bewerten, wie gut LLMs bei wissensbezogenen Aufgaben abschneiden. Diese Benchmarks decken verschiedene Szenarien ab, wie das Beantworten von Fragen und das Vervollständigen von Fakten, unter Verwendung von Informationen aus Wissen Graphen. LAMA ist einer der wegweisenden Datensätze, der aus zahlreichen Wissensquellen erstellt wurde und Verbesserungen bei der Bewertung der LLM-Fähigkeiten inspiriert hat.

Unsere Methoden erklärt

Die Aufgabe bestand darin, eine Menge von Objekten basierend auf einem Subjekt und einer Relation vorherzusagen. Wir haben eine Pipeline aufgebaut, die zwei Hauptschritte umfasste: Wissensabfrage und Entitätszuordnung zu Wikidata.

Wissensabfrage

In unserem Abfrageschritt haben wir spezifische Abfragevorlagen erstellt, um Wissen von LLMs abzurufen. Wir haben drei verschiedene Setups getestet:

  1. Frageabfrage: Hier haben wir LLMs direkte Fragen gestellt. Zum Beispiel: "Welche Länder grenzen an Brasilien?"

  2. Triple-Vervollständigungsabfrage: In diesem Setup haben wir unvollständige Tripel bereitgestellt, wie "River Thames, RiverBasinsCountry:" und das Modell gebeten, die Lücken zu füllen.

  3. Kontextunterstützte Abfrage: In diesem Fall haben wir zusätzlichen Kontext zu den Fragen gegeben, um den Modellen zu helfen, bessere Vorhersagen zu treffen.

Bei der Verwendung von Kontext liessen wir LLMs zunächst basierend auf ihrem Wissen vorhersagen. Dann führten wir relevante Informationen ein, um sie zu ermutigen, ihre Antworten neu zu bewerten.

In allen Fällen haben wir Beispiele beigefügt, um den LLMs zu helfen, das erwartete Format ihrer Antworten besser zu verstehen.

Wikidata-Entitätszuordnung

Der nächste Schritt war, die vorhergesagten Objektstrings mit tatsächlichen Entitäten in Wikidata unter Verwendung einer von der Plattform bereitgestellten API abzugleichen. Wir suchten nach möglichen Übereinstimmungen basierend auf Labels und Aliasen und wählten dann sorgfältig die richtigen Entitäten aus. Dafür haben wir verbesserte Methoden entwickelt, um den Auswahlprozess zu verfeinern, einschliesslich:

  • Fallbasierte Methode: Eine spezifische Methode zur Handhabung von Fällen mit kleineren Antwortbereichen.

  • Schlüsselwortbasierte Methode: Diese Methode betrachtete die Beschreibungen der Kandidaten und ordnete sie relevanten Schlüsselwörtern zu.

  • Sprachmodellbasierter Ansatz: Hier haben wir ein Wörterbuch von Kandidaten-IDs erstellt und uns auf LLMs verlassen, um die richtige Entität basierend auf komplexeren Unterscheidungen auszuwählen.

Ergebnisse aus unserer Studie

Für unsere Studie haben wir einen Datensatz von der LM-KBC Challenge verwendet, der verschiedene Relationstypen abdeckte, wie Musik, Geografie und Sport. Jeder Satz umfasste 1.940 Aussagen für Training, Validierung und Test.

In unserer Bewertung schnitt GPT-4 besser ab als gpt-3.5-turbo. Wenn wir den Modellen erlaubten, externen Kontext in ihren Vorhersagen zu verwenden, führte dies oft zu besseren Leistungen, insbesondere bei gpt-3.5-turbo. Bei GPT-4 verbesserte der zusätzliche Kontext jedoch nicht immer die Ergebnisse über alle Bereiche hinweg.

Unsere Beobachtungen zeigten auch, dass LLMs gut mit Relationen arbeiteten, die begrenzte Bereiche hatten, aber Schwierigkeiten mit Relationen hatten, die breitere Themen involvierten. Zum Beispiel handhabten sie "PersonHasNobelPrize" effektiv, hatten aber Probleme mit "PersonHasEmployer", wahrscheinlich aufgrund weniger verfügbarer Informationen über viele Personen.

Diskussion über Wikidata und Wissenslücken

Während wir mit Wikidata arbeiteten, identifizierten wir Probleme bezüglich der Qualität der gespeicherten Informationen. Einige Entitäten fehlten wichtige Details, und viele Einträge hielten sich nicht an spezifische Vorgaben. Dieses Fehlen von Vollständigkeit zeigt das Potenzial von LLMs, die Qualität von Wikidata zu verbessern, indem sie fehlende Informationen vorschlagen.

Darüber hinaus fanden wir eine Wissenslücke zwischen Wikipedia und Wikidata, die manchmal zu Abweichungen in der Leistung des Modells führte. Für einige Relationen waren die Informationen in Wikipedia aktueller oder genauer als die in Wikidata. Diese Lücke hebt die Rolle hervor, die LLMs bei der Aktualisierung von Daten spielen könnten.

Fazit

Diese Arbeit hatte zum Ziel, das Potenzial von LLMs bei der Vorhersage von Objekten für Wissen Graphen durch die ISWC 2023 LM-KBC Challenge zu demonstrieren. Wir erzielten bemerkenswerte Ergebnisse, wobei unsere beste Methode einen durchschnittlichen Score von 0.7007 über verschiedene Relationen hinweg erreichte. Während LLMs wertvolle Werkzeuge zum Vervollständigen von Wissensbasen sein können, betonen ihre Einschränkungen auch die Notwendigkeit menschlichen Eingreifens, um die Daten Genauigkeit zu gewährleisten.

Die Ergebnisse ermutigen zur weiteren Erforschung, wie LLMs in Zusammenarbeit mit menschlichen Editoren die Qualität und Vollständigkeit von Informationen in Wissenssystemen verbessern können.

Originalquelle

Titel: Using Large Language Models for Knowledge Engineering (LLMKE): A Case Study on Wikidata

Zusammenfassung: In this work, we explore the use of Large Language Models (LLMs) for knowledge engineering tasks in the context of the ISWC 2023 LM-KBC Challenge. For this task, given subject and relation pairs sourced from Wikidata, we utilize pre-trained LLMs to produce the relevant objects in string format and link them to their respective Wikidata QIDs. We developed a pipeline using LLMs for Knowledge Engineering (LLMKE), combining knowledge probing and Wikidata entity mapping. The method achieved a macro-averaged F1-score of 0.701 across the properties, with the scores varying from 1.00 to 0.328. These results demonstrate that the knowledge of LLMs varies significantly depending on the domain and that further experimentation is required to determine the circumstances under which LLMs can be used for automatic Knowledge Base (e.g., Wikidata) completion and correction. The investigation of the results also suggests the promising contribution of LLMs in collaborative knowledge engineering. LLMKE won Track 2 of the challenge. The implementation is available at https://github.com/bohuizhang/LLMKE.

Autoren: Bohui Zhang, Ioannis Reklos, Nitisha Jain, Albert Meroño Peñuela, Elena Simperl

Letzte Aktualisierung: 2023-09-15 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.08491

Quell-PDF: https://arxiv.org/pdf/2309.08491

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel