Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Richtlinien für die bayerische Sprachannotation

Umfassende Regeln zur Annotation des bayerischen Sprachkorpus.

― 5 min Lesedauer


BayerischeBayerischeAnnotationsregelnSprachkorpus.Wichtige Richtlinien für das bayerische
Inhaltsverzeichnis

Dieses Dokument enthält Regeln zur Annotation eines bayerischen Sprachkorpus. Das Korpus verwendet Wortarten-Tags (POS) und zeigt, wie Wörter in Sätzen voneinander abhängen. Ziel ist es, denen zu helfen, die mit diesem Korpus arbeiten, effektiv zu annotieren und die Sprache zu verstehen.

Struktur des Dokuments

Die Richtlinien sind so organisiert, dass sie dem Prozess der Vorbereitung und Annotation von Sätzen folgen. Zuerst schauen wir uns an, wie man Sätze vorbereitet und in Tokens aufteilt. Dann überprüfen wir die allgemeinen POS-Tags und Abhängigkeiten. Danach gehen wir die Regeln durch, die für Deutsch gelten, und konzentrieren uns schliesslich auf die spezifischen Regeln für Bayerisch.

Allgemeine Hinweise

Die Regeln in diesem Dokument sind flexibel. Wenn du in einer Situation bist, in der es keinen Sinn macht, eine Regel anzuwenden, wirst du ermutigt, um Feedback zu bitten. Ausserdem, wenn du dir unsicher bist, wie du ein bestimmtes Wort oder eine Phrase behandeln sollst, ist es auch ratsam, das zur Diskussion zu stellen.

Notation im Dokument

  • POS-Tags: Die sind in Kleinbuchstaben. Annotierte Wörter stehen kursiv.
  • Abhängigkeitsrelationen: Die sind in einer speziellen Schriftart, mit dem Hauptwort unterstrichen und abhängigen Wörtern in fett.

Vorverarbeitung und Tokenisierung

Bei der Vorbereitung der Daten behalten wir keine Originalformatierungen wie fett oder kursiv. Wenn das ursprüngliche Format wichtig ist, besprecht das bitte.

Beim Auswählen von Sätzen ist es am besten, ganze Absätze auszuwählen und sie in Sätze aufzuteilen. Aufzählungen in Artikeln werden normalerweise übersprungen, es sei denn, die Liste enthält vollständige Sätze.

Wir korrigieren keine Tippfehler oder Satzzeichenfehler. Das Zerlegen von Sätzen in einzelne Teile ist normalerweise unkompliziert.

Für Metadaten auf Satzebene fügen wir Folgendes hinzu:

  • sentid: Eine eindeutige Kennung, die sagt, wo der Satz herkommt.
  • text: Der Satz selbst.
  • texten: Der Originaltext, falls der Satz übersetzt wurde.
  • genre: Die Art des Textes, wie Wikipedia-Artikel oder Belletristik.
  • dialektgruppe: Der spezifische bayerische Raum, aus dem der Satz kommt.
  • location: Die Stadt oder Region, die im Satz erwähnt wird.
  • source: Die URL, wo der Satz zu finden ist.
  • author: Der Benutzername des Autors eines Tatoeba-Satzes.

Tokenisierungsrichtlinien

Wenn wir entscheiden, wie man Sätze in Tokens aufteilt, verlassen wir uns normalerweise auf Leerzeichen und Satzzeichen.

Sonderfälle in der Tokenisierung

  • Teile keine Komposita wie "Silben-Trennung."
  • Halte verkürzte Wörter zusammen, wie "Sonn-noun undcconj Feiertagenoun."
  • Teile Zahlen von Einheiten und Bereichen, wie "8num kgnoun" und "400num -adp 500num."
  • Entferne äussere Klammern um phonetische Transkriptionen, behalte aber andere Satzzeichen.

Mehrwort-Tokens

Präposition + Artikel

Wir teilen meistens verschmolzene Präpositionen und Artikel in Teile auf, behandeln sie als separate Tokens. Zum Beispiel:

  • "zum" wird zu "zu" + "m."

Das Gleiche gilt für verkürzte Artikel oder Präpositionen in Nominalphrasen:

  • "z'Minga" wird zu "z'" + "Mingapropn."

Verb/Komplementierer + Pronomen

Falls ein Verb direkt gefolgt von einem oder mehreren Pronomen steht, teilen wir sie mit der Eigenschaft SpaceAfter=No. Zum Beispiel:

  • "gibts" wird zu "gibtverb" und "spron."

Andere verschmolzene Tokens

Für andere Fälle verwenden wir normalerweise SpaceAfter=No, aber sprich gerne darüber, wenn du unsicher bist.

Wortarten-Tags

Die detaillierten Richtlinien für das Tagging von Wortarten sind verlinkt.

Syntax-Abhängigkeiten

Die Richtlinien für Abhängigkeitsrelationen sind ebenfalls verfügbar.

Schwierige Fälle in der Syntax

Klauselrelationen

Wenn du entscheidest, ob eine Klausel ein Nomen oder eine andere Klausel modifiziert, frag dich, ob das Weglassen der Klausel immer noch einen korrekten Satz ergibt.

Adverbial oder nicht

Überlege, ob das Entfernen der Klausel einen kohärenten Satz hinterlässt.

Ccomp oder nicht

Wenn die abhängige Klausel ihr eigenes Subjekt hat, ist es eine Komplementklausel, aber wenn sie das Subjekt mit der Hauptklausel teilt, ist sie es nicht.

Allgemeine Annotation Entscheidungen

Diese Regeln gelten für alle verwandten Dialekte, einschliesslich Hochdeutsch.

Umgang mit Abkürzungen

Wir teilen Abkürzungen, wenn es sinnvoll ist. Zum Beispiel wird “z.B.” zu “zu” + “B.”

Namen und Titel

Für persönliche Namen verbinden wir Teile über eine flache Beziehung.

Adjektive als Adverbien

Wir taggen Adjektive, die adverbial verwendet werden, als Adjektive, mit der entsprechenden Relation.

Bayerische Annotation Entscheidungen

Während Bayerisch dem Hochdeutschen ähnlich ist, gibt es einige einzigartige Aspekte zu beachten.

Nominalphrasen

Im Bayerischen kann ein Artikel vor einem Personennamen erscheinen, und Nachnamen stehen oft vor Vornamen.

Besitz im Bayerischen

Bayerisch verwendet oft analytische Possessivformen anstelle des Genitivs und zeigt Besitztum durch andere Konstruktionen.

Verschobene Adjektive

Phrasen, die die Reihenfolge von Adjektiven zur Betonung umstellen, werden im Bayerischen anerkannt.

Hilfsverben

Wir konzentrieren uns auch auf Hilfsverben, die spezifisch für bayerische Konstruktionen sind.

Infinitivkonstruktionen

Infinitivphrasen können das Marker "z(u)" in verschiedenen Formen verwenden.

Pronomen und Flexion

Fallende Pronomen, besonders in Anwesenheit von Hilfsverben, werden im bayerischen Sprachgebrauch notiert.

Negative Übereinstimmung im Bayerischen

Im Gegensatz zum Deutschen erlaubt das Bayerische, dass mehrere negative Marker in Sätzen auftreten.

Relativsätze

Bayerisch verwendet oft relative Marker wie "wo", die nicht flektieren.

Temporale Ausdrücke

Für zeitbezogene Phrasen halten wir spezifische Annotierungsregeln bei.

Fazit

Dieser Leitfaden dient als umfassender Überblick darüber, wie man Sätze im bayerischen Korpus annotiert. Jeder Abschnitt legt spezifische Regeln für den Umgang mit verschiedenen Aspekten der Sprache dar, um Konsistenz und Klarheit im Annotierungsprozess zu gewährleisten.

Indem du diese Richtlinien befolgst, trägst du zu einem gut strukturierten Korpus bei, der für zukünftige linguistische Analysen und das Verständnis des bayerischen Dialekts verwendet werden kann.

Referenz Links

Mehr von den Autoren

Ähnliche Artikel