Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

GUA-SPA Wettbewerb: Bilinguale Einblicke bei IberLEF 2023

Ein Wettbewerb, der das Code-Switching zwischen Guarani und Spanisch erkundet.

― 4 min Lesedauer


GUA-SPA: Code-SwitchingGUA-SPA: Code-SwitchingEnthüllthervorhebt.zwischen Guarani und SpanischEin Wettbewerb, der die Interaktionen
Inhaltsverzeichnis

Dieser Artikel spricht über den GUA-SPA-Wettbewerb, der auf dem IberLEF 2023 stattfand und sich auf das Erkennen und Analysieren von Code-Switching zwischen Guarani und Spanisch konzentriert. Code-Switching passiert, wenn Sprecher in einem Gespräch oder Satz zwischen Sprachen wechseln. Dieses Event ist besonders wichtig, weil es das erste Mal ist, dass ein Wettbewerb dieser Art Guarani, eine indigene Sprache aus Südamerika, einbezieht.

Was ist Code-Switching?

Code-Switching passiert, wenn zweisprachige Sprecher in ihrer Sprache oder ihrem Schreiben Sprachen mischen. Das passiert oft in Gegenden, wo zwei Sprachen häufig gesprochen werden, wie in Paraguay, wo sowohl Guarani als auch Spanisch Amtssprachen sind. Viele Leute in Paraguay sprechen beide Sprachen, besonders in Städten, was zu verschiedenen Arten der Kombination führt.

Der GUA-SPA-Wettbewerb

Der GUA-SPA-Wettbewerb bestand aus drei Hauptaufgaben:

  1. Spracherkennung: Die Teilnehmer mussten herausfinden, ob jedes Wort in einem Satz Guarani, Spanisch, ein benannter Begriff, eine Mischung aus beiden Sprachen, aus einer anderen Sprache oder ein Nicht-Sprache-Zeichen (wie Satzzeichen) war.

  2. Named Entity Recognition (NER): Bei dieser Aufgabe ging es darum, spezifische Entitäten im Text zu identifizieren, wie Personen, Orte oder Organisationen, und sie in Kategorien einzuordnen.

  3. Spanische Code-Klassifikation: Hier mussten die Teilnehmer kennzeichnen, wie Spanisch in gemischten Kontexten verwendet wurde, zum Beispiel ob der spanische Text komplett spanisch blieb oder ob er an die Struktur des Guarani angepasst wurde.

Daten für die Aufgaben

Der Wettbewerb basierte auf einem sorgfältig ausgewählten Datensatz mit 1.500 Texten, darunter Nachrichtenartikel und Tweets. Insgesamt umfasste dieser Datensatz etwa 25.000 Tokens (einzelne Wörter oder Symbole), die mit relevanten Informationen für die Aufgaben annotiert waren.

Teilnehmer und Ergebnisse

Drei Teams nahmen an der Bewertungsphase des Wettbewerbs teil und erzielten unterschiedliche Ergebnisse. Insgesamt zeigte die erste Aufgabe, die Spracherkennung, gute Leistungen, während die zweite und dritte Aufgabe gemischtere Ergebnisse lieferten. Das deutete darauf hin, dass es einfacher war, die Sprache jedes Wortes korrekt zu identifizieren, als benannte Entitäten zu erkennen oder die Verwendung von Spanisch zu klassifizieren.

Guarani und Spanisch in Paraguay

Guarani ist eine einheimische Sprache, die viele in Paraguay sprechen, während Spanisch die Kolonialsprache des Landes ist. Die beiden Sprachen sind seit Jahrhunderten in Kontakt, was zu interessanten Variationen geführt hat. Die meisten Paraguayaner können in beiden Sprachen kommunizieren, aber die Art und Weise, wie sie sie mischen, kann stark variieren.

Analyse gemischter Sprachvarianten

Zwei bemerkenswerte Mischvarianten von Guarani sind Jopara und Jehe'a. Jopara integriert oft spanische Wörter direkt, während Jehe'a spanische Phrasen mit einigen grammatikalischen Anpassungen übernimmt, um die Struktur des Guarani anzupassen. Der Wettbewerb zielte darauf ab, zu analysieren, wie diese Varianten in der alltäglichen Kommunikation erscheinen, besonders in sozialen Medien und Nachrichtenartikeln.

Bedeutung des Wettbewerbs

Dieser Wettbewerb ist aus mehreren Gründen wichtig:

  • Hervorhebung von Zweisprachigkeit: Er beleuchtet das Phänomen des Code-Switching in zweisprachigen Gemeinschaften und trägt zum Verständnis der Sprachverwendung in realen Kontexten bei.

  • Ressourcenentwicklung: Er legt den Grundstein für zukünftige Forschung und Ressourcenschaffung für Guarani, das als Sprache mit geringen Ressourcen in Bezug auf digitale Werkzeuge und Forschung gilt.

  • Forschung anregen: Indem der Fokus auf indigene Sprachen gelegt wird, hofft der Wettbewerb, weiteres Interesse und Forschung zum Code-Switching für andere Sprachen mit ähnlichen Dynamiken zu fördern.

Details der Bewertungsphase

Die Bewertungsphase lief von Ende Mai bis Anfang Juni 2023. Die Teilnehmer reichten ihre Ergebnisse basierend auf dem Testdatensatz ein, und verschiedene Metriken wurden verwendet, um ihre Leistung zu bewerten.

Herausforderungen für die Teilnehmer

Obwohl die Ergebnisse für die erste Aufgabe vielversprechend waren, erwiesen sich die zweite und dritte Aufgabe als herausfordernder. Manche Teilnehmer hatten Schwierigkeiten, gemischte Sprachsätze genau zu klassifizieren, da viele Fälle mehrdeutig waren. Das zeigt, dass selbst menschliche Annotatoren Schwierigkeiten hatten, klare Entscheidungen über bestimmte Mischverwendungen zu treffen.

Zukunftsperspektiven

Die GUA-SPA-Initiative will in Zukunft ihren Wirkungskreis erweitern. Dazu gehört die Erforschung anderer Varianten von Guarani, wie sie in Bolivien gesprochen werden, und möglicherweise die Einbeziehung von Portugiesisch in die Mischung. Diese Schritte würden nicht nur den Umfang der Forschung bereichern, sondern auch das Verständnis des Sprachkontakts in Südamerika verbessern.

Fazit

Der GUA-SPA-Wettbewerb auf dem IberLEF 2023 markiert einen bedeutenden Schritt in der Forschung zum Code-Switching in einem einzigartigen sprachlichen Kontext. Er kombiniert das Studium von Guarani und Spanisch in Paraguay und zeigt die Komplexität und Vielfalt der bilingualen Kommunikation. Dieser Aufwand ist erst der Anfang einer breiteren Erforschung der Interaktionen verschiedener Sprachen, mit der Hoffnung, weitere Forschung zu den Dynamiken indigener Sprachen anzuregen.

Mehr von den Autoren

Ähnliche Artikel