Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Maschinelles Lernen

Verknüpfung von Museumsdaten mit alten Technologien

Forscher verbessern das Entity Linking, um die Analyse von Museumsbeständen zu optimieren.

― 6 min Lesedauer


Fortschritte beimFortschritte beimVerknüpfen vonMuseum-Datenvon Museumsbestandsdaten.Neue Methoden verbessern die Analyse
Inhaltsverzeichnis

Forscher in den Sozialwissenschaften und Geisteswissenschaften nutzen grosse Mengen an Textdaten, um verschiedene soziale, wirtschaftliche und historische Themen zu untersuchen. Viele der heutigen Methoden zur Verarbeitung dieser Daten basieren jedoch auf allgemeinen Techniken, die nicht unbedingt gut für spezielle Themen funktionieren. In diesem Artikel wird besprochen, wie moderne Methoden verwendet werden können, um Entitäten mit Museumssammlungsdaten zu verknüpfen, wobei der Fokus auf alten Technologien liegt.

Die Herausforderung von Textdaten

Früher erforderte das Studium grosser Mengen an Textdaten, dass Experten die Daten manuell durchsehen. Dieser Prozess war zeitaufwändig und kostspielig. Zum Beispiel gibt es eine Datenbank namens Human Relations Area Files, die Informationen aus Kulturstudien enthält, und selbst heute fügen Experten weiterhin Daten hinzu. In letzter Zeit sind dank Fortschritten im Bereich der Verarbeitung natürlicher Sprache (NLP) bessere Werkzeuge verfügbar geworden, die dabei helfen, Textdaten effizienter zu analysieren. Diese Werkzeuge basieren oft auf allgemeinen Wissensdatenbanken wie Wikipedia, die möglicherweise nicht gut auf spezifische Themen in den Sozialwissenschaften anwendbar sind.

Unsere Arbeit

Ziel dieser Arbeit ist es, Forschern zu helfen, die neuesten Fortschritte in NLP besser zu nutzen, indem wir verbessern, wie wir Entitäten in Museumdaten verknüpfen. Wir haben einen Datensatz von über 1.700 Texten zu Museumartefakten erstellt, mit insgesamt über 7.500 Nennung-Entität-Paaren, und haben verschiedene aktuelle Methoden an diesen Daten bewertet.

Wir haben uns auf das Getty Arts and Architecture Thesaurus konzentriert, ein spezialisiertes Vokabular für Objekte des kulturellen Erbes, einschliesslich Materialien, Objekte und Techniken. Unsere Ergebnisse zeigen, dass unser verbessertes Modell deutlich bessere Ergebnisse erzielen kann als einfachere Methoden, die derzeit verfügbar sind.

Erstellung des Datensatzes

Um unseren Datensatz zu erstellen, haben wir Beschreibungen von verschiedenen Museen gesammelt, darunter Institutionen wie das British Museum und das Smithsonian. Jedes Objekt hat unterschiedliche Textfelder, wie Titel und detaillierte Beschreibungen. Da einige dieser Beschreibungen sich wiederholen oder zu ähnlich sind, haben wir verschiedene Arten von Textfeldern ausgewählt, um Redundanz zu vermeiden.

Wir haben einen Teil unseres Datensatzes manuell mit Entitäten verknüpften Labels annotiert. Da einige Materialien möglicherweise häufiger auftauchen als andere, haben wir eine Vielzahl von Labels sichergestellt, indem wir einen geschichteten Stichprobenprozess verwendet haben.

Verwendung einer spezialisierten Wissensdatenbank

Im Gegensatz zu den meisten Entitätenverknüpfungsanwendungen, die Wikipedia nutzen, haben wir Entitäten mit dem Getty AAT verknüpft, das über 50.000 Begriffe hat, die speziell mit Kunst und Kultur zu tun haben. Diese Wissensdatenbank ist fokussierter und detaillierter für die Themen, die wir untersuchen. Zum Beispiel bietet Wikipedia oft breite Definitionen, während das AAT spezifische Klassifikationen bietet, die für detaillierte Studien entscheidend sind.

Der Annotierungsprozess

Unser Annotierungsprozess beinhaltete die gleichmässige Verteilung von Texten auf vier Personen, die darin geschult waren, Erwähnungen korrekt zu kennzeichnen. Wir haben Diskussionen geführt, um sicherzustellen, dass die Labels konsistent waren. Trotz unserer Bemühungen haben wir festgestellt, dass es immer noch einige Mehrdeutigkeiten bei der Aufgabe gab. Der endgültige annotierte Datensatz enthielt 1.728 Strings und wurde verwendet, um Modelle auf unsere spezifischen Bedürfnisse abzustimmen.

Herausforderungen bei der Entitätenverknüpfung

Unser Datensatz stellt mehrere Herausforderungen für die Entitätenverknüpfung dar:

  1. Der Kontext ist wichtig: In vielen Fällen ist der Kontext entscheidend, um die richtige Entität auszuwählen. Oft kann dasselbe Wort je nach umgebendem Text auf unterschiedliche Konzepte verweisen.

  2. Vielfältige Bezeichnungen: Einige Labels stimmen nicht genau mit dem Text überein. Bestimmte Beschreibungen könnten sich auf dieselbe Idee beziehen, verwenden jedoch unterschiedliche Formulierungen, was die Verknüpfung kompliziert.

  3. Überlappende Erwähnungen: Manchmal kann eine Erwähnung Teile enthalten, die zu separaten Entitäten gehören, was es schwierig macht, sie klar zu kennzeichnen.

  4. Unvollständige Taxonomie: Es gibt Fälle, in denen ein Objekt zu einer relevanten Kategorie gehört, aber diese Kategorie nicht im AAT enthalten ist.

Baseline-Systeme

Um die Wirksamkeit unserer neuen Methoden zu evaluieren, haben wir sie mit bestehenden Lösungen verglichen. Wir haben verschiedene Ansätze verwendet, die von einfacher Zeichenfolgenübereinstimmung bis zu fortgeschrittenen maschinellen Lernmodellen reichen. Einige Methoden basierten einfach auf vordefinierten Beziehungen, während andere versuchten, den Kontext zu nutzen, um die Ergebnisse zu verbessern.

Einfache Methoden

Mit einem einfachen Zeichenfolgenübereinstimmungsansatz haben wir ein Modell erstellt, das Erwähnungen in den Texten identifizieren konnte, ohne komplexe Verarbeitung. Diese Methode war einfach, hat jedoch oft entscheidenden Kontext verpasst.

Fortgeschrittene Methoden

Wir haben mehrere fortgeschrittene Systeme untersucht, darunter eines namens ELQ, das sowohl Erwähnungen finden als auch sie mit Entitäten verknüpfen kann. Dieses System zielte ursprünglich darauf ab, Modelle zur Fragebeantwortung zu verbessern und wurde an unsere spezifischen Bedürfnisse angepasst.

Leistungsevaluation

Wir haben drei Hauptbereiche betrachtet, um die Methoden zu bewerten: das präzise Erkennen von Erwähnungen, das korrekte Verknüpfen mit den richtigen Entitäten und das gute Abschneiden im gesamten End-to-End-Prozess. Die Ergebnisse zeigten, dass selbst fortgeschrittene Modelle schlecht abschnitten, wenn sie nicht speziell auf unseren Datensatz zugeschnitten waren.

Die Feinabstimmung des ELQ-Modells verbesserte jedoch die Ergebnisse erheblich und zeigte hauptsächlich seine Fähigkeit, sich an neue, unbekannte Daten anzupassen. Bemerkenswerterweise hoben die Ergebnisse auch Verbesserungsbereiche für zukünftige Modelle hervor.

Ein Beispiel aus der Praxis

Wir haben unsere Methode auf eine grosse Sammlung angewendet, die über 2,7 Millionen Objekte umfasst. Wir haben diese Objekte basierend auf technologischem Bedeutung kategorisiert, ihre Standorte kartiert und visualisiert, wie Technologien sich im Laufe der Zeit verbreitet haben. Diese praktische Anwendung zeigt, wie das Verknüpfen von Entitäten wichtige Einblicke in historische Fortschritte in der Technologie offenbaren kann.

Verwandte Forschung

Die Verknüpfung von Entitäten hat in verschiedenen Wissenschaftsbereichen, einschliesslich Biomedizin und Sozialwissenschaften, Anwendung gefunden. Immer mehr Forscher wenden sich textuellen Daten zu, um Einblicke in verschiedene Themen zu gewinnen und verlassen sich auf Methoden, die von einfacher Kategorisierung bis hin zu komplexeren Techniken reichen.

Zukünftige Richtungen

Unsere Forschung konzentriert sich auf englische Texte und das AAT-Vokabular, aber wir sehen Möglichkeiten zur Erweiterung in andere Sprachen und Vokabulare. Darüber hinaus könnten wir Bilder, die mit Museumobjekten verbunden sind, einbeziehen, was möglicherweise die Genauigkeit durch die Kombination von Fotos und Textdaten verbessert.

Fazit

Zusammenfassend haben wir gezeigt, dass fortschrittliche Verknüpfungsmethoden die Analyse spezifischer Datensätze, wie die aus Museen, erheblich verbessern können. Unsere Arbeit hebt das Potenzial hervor, moderne NLP-Tools zu nutzen, um das Verständnis und die Klassifizierung von Daten des kulturellen Erbes zu verbessern und wertvolle Einblicke in historische und technologische Fortschritte zu bieten.

Originalquelle

Titel: Evaluating end-to-end entity linking on domain-specific knowledge bases: Learning about ancient technologies from museum collections

Zusammenfassung: To study social, economic, and historical questions, researchers in the social sciences and humanities have started to use increasingly large unstructured textual datasets. While recent advances in NLP provide many tools to efficiently process such data, most existing approaches rely on generic solutions whose performance and suitability for domain-specific tasks is not well understood. This work presents an attempt to bridge this domain gap by exploring the use of modern Entity Linking approaches for the enrichment of museum collection data. We collect a dataset comprising of more than 1700 texts annotated with 7,510 mention-entity pairs, evaluate some off-the-shelf solutions in detail using this dataset and finally fine-tune a recent end-to-end EL model on this data. We show that our fine-tuned model significantly outperforms other approaches currently available in this domain and present a proof-of-concept use case of this model. We release our dataset and our best model.

Autoren: Sebastian Cadavid-Sanchez, Khalil Kacem, Rafael Aparecido Martins Frade, Johannes Boehm, Thomas Chaney, Danial Lashkari, Daniel Simig

Letzte Aktualisierung: 2023-05-23 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.14588

Quell-PDF: https://arxiv.org/pdf/2305.14588

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel