Jambu: Eine umfassende Datenbank für südasiatische Linguistik
Eine neue Datenbank verbindet und organisiert Wortbeziehungen in südasianischen Sprachen.
― 5 min Lesedauer
Inhaltsverzeichnis
Jambu ist eine Datenbank, die entwickelt wurde, um Informationen über Wörter in südasiatischen Sprachen zu sammeln und zu organisieren. Sie bringt Infos aus vielen verschiedenen Quellen in ein einziges, benutzerfreundliches Format. Diese Datenbank enthält eine riesige Anzahl von Wörtern und verlinkt sie, um zu zeigen, wie verschiedene Sprachen miteinander verwandt sind.
Was ist ein Kognat?
Ein Kognat ist ein Wort in einer Sprache, das eine ähnliche Form und Bedeutung wie ein Wort in einer anderen Sprache hat, weil sie aus einer gemeinsamen Quelle stammen. Zum Beispiel sind die Wörter "sleep" im Englischen und "schlafen" im Deutschen Kognate; sie stammen beide von einem älteren Wort ab. Linguisten untersuchen Kognate, um herauszufinden, wie Sprachen miteinander verbunden sind und wie sie sich im Laufe der Zeit verändert haben.
Die Bedeutung linguistischer Forschung
Zu verstehen, wie Sprachen verwandt sind, hilft Forschern, mehr über die Geschichte und Kultur der Menschen zu erfahren, die sie sprechen. Die Untersuchung der Verbindungen zwischen Sprachen kann Muster von Migration, Einfluss und Veränderung aufdecken. Forscher suchen oft nach verwandten Wörtern, um zu sehen, wie Sprachen sich entwickelt und miteinander interagiert haben.
In Südasien, einer Region mit vielen Sprachen wie Hindi, Bengalisch und Tamil, ist die Studie der Sprachbeziehungen besonders komplex. Verschiedene Sprachen in diesem Gebiet haben sich gegenseitig beeinflusst aufgrund historischer Kontakte, Handel und Migration. Bis jetzt gab es jedoch keine umfassende Datenbank, die Forschern dabei hilft, diese Verbindungen zu untersuchen.
Überblick über die Jambu-Datenbank
Jambu zielt darauf ab, diese Lücke zu schliessen, indem es eine grosse Sammlung von Kognaten aus verschiedenen südasiatischen Sprachen bereitstellt. Die Datenbank enthält über 287.000 Wörter und gruppiert sie in etwa 23.000 Sätze basierend auf ihren Beziehungen. Sie nimmt Informationen aus vielen Quellen, einschliesslich gedruckter Wörterbücher und neuerer Studien, und organisiert sie so, dass sie leichter zu analysieren sind.
Wie die Daten organisiert sind
Die Daten in Jambu sind in einem Standardformat namens CLDF organisiert, das es Forschern ermöglicht, sprachliche Daten einfach zu handhaben und zu teilen. Diese Struktur hilft, komplexe Beziehungen zwischen Wörtern zu kodieren, zum Beispiel wie ein Wort Elemente aus einer anderen Sprache entlehnt haben könnte.
Für jedes Wort führt die Datenbank detaillierte Aufzeichnungen, einschliesslich:
- Eine eindeutige ID für das Wort
- Informationen darüber, aus welcher Sprache es stammt
- Links zu anderen verwandten Wörtern in der Datenbank
- Eine Übersetzung ins Englische
- Die Schreibweise des Wortes in seiner ursprünglichen Schrift
- Seine Lautdarstellung mit dem Internationalen Phonetischen Alphabet (IPA)
Diese detaillierte Organisation hilft Forschern, spezifische Wörter zu finden und ihre Beziehungen zu anderen Wörtern zu verstehen.
Datensammlung für die Datenbank
Die Erstellung der Datenbank erforderte viel Arbeit. Das Team sammelte zunächst Daten aus wichtigen Quellen, darunter Wörterbücher, die den Wortschatz verschiedener Sprachen in Südasien dokumentieren. Sie zogen Informationen aus diesen Quellen und mussten sie bereinigen, um sicherzustellen, dass sie genau und vollständig waren.
Eine der Herausforderungen war der Umgang mit verschiedenen Schreib- und Ausspracheweisen von Wörtern in verschiedenen Sprachen. Verschiedene Quellen hatten unterschiedliche Transkriptionsmethoden. Das Team stellte ein neues System zur Standardisierung der Schreibweise von Wörtern auf, um sicherzustellen, dass es einfach war, Wörter über Sprachen hinweg zu vergleichen.
Benutzerfreundliche Weboberfläche
Um die Datenbank zugänglicher zu machen, entwickelte das Team eine Weboberfläche, wo Nutzer die Daten einfach durchsuchen und erkunden können. Diese Oberfläche ermöglicht es jedem, der sich für südasiatische Sprachen interessiert, schnell Informationen zu finden. Nutzer können Ergebnisse filtern, geografische Daten ansehen und sehen, wie Sprachen miteinander verwandt sind.
Forschungsanwendungen
Jambu ist nicht nur eine Sammlung von Wörtern; es dient als wertvolle Ressource für Forscher in der historischen Linguistik. Die Datenbank unterstützt mehrere wichtige Forschungsaufgaben:
- Kognatidentifikation: Diese Aufgabe besteht darin, herauszufinden, welche Wörter in verschiedenen Sprachen verwandt sind. Forscher können Jambu nutzen, um automatisch Kognate über Sprachen hinweg zu identifizieren.
- Reflexvorhersage: Dies ist der Prozess, wie vorherzusagen, wie sich ein Wort aus einer älteren Sprache in einer neueren Sprache ändern wird. Zum Beispiel, wie ein altes indo-arisches Wort in modernem Hindi erscheinen könnte.
- Vergleichende Rekonstruktion: Forscher können Jambu nutzen, um frühere Formen von Sprachen basierend auf den gefundenen Kognaten zu rekonstruieren.
Diese Aufgaben helfen Linguisten, Einblicke in die Entwicklung und Veränderung von Sprachen über die Zeit zu gewinnen.
Zukunftspläne für Jambu
Obwohl Jambu bereits eine bedeutende Ressource ist, gibt es Pläne, es weiter auszubauen und zu verbessern. Das Team hat vor:
- Mehr Quellen einzubeziehen, insbesondere solche, die Lehnwörter aus Sprachen wie Arabisch oder Persisch dokumentieren.
- Mehr darüber zu untersuchen, wie verschiedene Sprachen sich gegenseitig beeinflusst haben und Veränderungsmuster zu identifizieren.
- An einem konsistenten Weg zu arbeiten, um die Töne in Sprachen darzustellen, bei denen der Ton wichtig für die Bedeutung ist.
Es gibt auch Pläne, die Qualität der Daten zu verbessern, wobei sichergestellt wird, dass etwaige Fehler korrigiert werden und die Verbindungen zwischen den Wörtern klar gekennzeichnet sind.
Fazit
Jambu ist ein wichtiger Schritt vorwärts in der Studie südasiatischer Sprachen. Durch das Sammeln und Organisieren einer riesigen Menge an linguistischen Daten eröffnet es neue Möglichkeiten für Forschung und Verständnis der komplexen Geschichte der Sprache in dieser reichen und vielfältigen Region. Die laufenden Arbeiten zur Verbesserung und Erweiterung der Datenbank versprechen, sie für Forscher in den kommenden Jahren relevant und nützlich zu halten.
Titel: Jambu: A historical linguistic database for South Asian languages
Zusammenfassung: We introduce Jambu, a cognate database of South Asian languages which unifies dozens of previous sources in a structured and accessible format. The database includes 287k lemmata from 602 lects, grouped together in 23k sets of cognates. We outline the data wrangling necessary to compile the dataset and train neural models for reflex prediction on the Indo-Aryan subset of the data. We hope that Jambu is an invaluable resource for all historical linguists and Indologists, and look towards further improvement and expansion of the database.
Autoren: Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala
Letzte Aktualisierung: 2023-06-04 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.02514
Quell-PDF: https://arxiv.org/pdf/2306.02514
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/moli-mandala/data
- https://neojambu.herokuapp.com/
- https://dsal.uchicago.edu/dictionaries/
- https://en.wikipedia.org/wiki/International_Alphabet_of_Sanskrit_Transliteration
- https://neojambu.herokuapp.com/entries/43
- https://github.com/clld/clld