Richtlinien für die bayerische Sprachannotation
Umfassende Regeln zur Annotation des bayerischen Sprachkorpus.
― 5 min Lesedauer
Inhaltsverzeichnis
- Struktur des Dokuments
- Allgemeine Hinweise
- Notation im Dokument
- Vorverarbeitung und Tokenisierung
- Tokenisierungsrichtlinien
- Sonderfälle in der Tokenisierung
- Mehrwort-Tokens
- Verb/Komplementierer + Pronomen
- Wortarten-Tags
- Syntax-Abhängigkeiten
- Schwierige Fälle in der Syntax
- Klauselrelationen
- Adverbial oder nicht
- Ccomp oder nicht
- Allgemeine Annotation Entscheidungen
- Umgang mit Abkürzungen
- Namen und Titel
- Adjektive als Adverbien
- Bayerische Annotation Entscheidungen
- Nominalphrasen
- Besitz im Bayerischen
- Verschobene Adjektive
- Hilfsverben
- Infinitivkonstruktionen
- Pronomen und Flexion
- Negative Übereinstimmung im Bayerischen
- Relativsätze
- Temporale Ausdrücke
- Fazit
- Originalquelle
- Referenz Links
Dieses Dokument enthält Regeln zur Annotation eines bayerischen Sprachkorpus. Das Korpus verwendet Wortarten-Tags (POS) und zeigt, wie Wörter in Sätzen voneinander abhängen. Ziel ist es, denen zu helfen, die mit diesem Korpus arbeiten, effektiv zu annotieren und die Sprache zu verstehen.
Struktur des Dokuments
Die Richtlinien sind so organisiert, dass sie dem Prozess der Vorbereitung und Annotation von Sätzen folgen. Zuerst schauen wir uns an, wie man Sätze vorbereitet und in Tokens aufteilt. Dann überprüfen wir die allgemeinen POS-Tags und Abhängigkeiten. Danach gehen wir die Regeln durch, die für Deutsch gelten, und konzentrieren uns schliesslich auf die spezifischen Regeln für Bayerisch.
Allgemeine Hinweise
Die Regeln in diesem Dokument sind flexibel. Wenn du in einer Situation bist, in der es keinen Sinn macht, eine Regel anzuwenden, wirst du ermutigt, um Feedback zu bitten. Ausserdem, wenn du dir unsicher bist, wie du ein bestimmtes Wort oder eine Phrase behandeln sollst, ist es auch ratsam, das zur Diskussion zu stellen.
Notation im Dokument
- POS-Tags: Die sind in Kleinbuchstaben. Annotierte Wörter stehen kursiv.
- Abhängigkeitsrelationen: Die sind in einer speziellen Schriftart, mit dem Hauptwort unterstrichen und abhängigen Wörtern in fett.
Vorverarbeitung und Tokenisierung
Bei der Vorbereitung der Daten behalten wir keine Originalformatierungen wie fett oder kursiv. Wenn das ursprüngliche Format wichtig ist, besprecht das bitte.
Beim Auswählen von Sätzen ist es am besten, ganze Absätze auszuwählen und sie in Sätze aufzuteilen. Aufzählungen in Artikeln werden normalerweise übersprungen, es sei denn, die Liste enthält vollständige Sätze.
Wir korrigieren keine Tippfehler oder Satzzeichenfehler. Das Zerlegen von Sätzen in einzelne Teile ist normalerweise unkompliziert.
Für Metadaten auf Satzebene fügen wir Folgendes hinzu:
- sentid: Eine eindeutige Kennung, die sagt, wo der Satz herkommt.
- text: Der Satz selbst.
- texten: Der Originaltext, falls der Satz übersetzt wurde.
- genre: Die Art des Textes, wie Wikipedia-Artikel oder Belletristik.
- dialektgruppe: Der spezifische bayerische Raum, aus dem der Satz kommt.
- location: Die Stadt oder Region, die im Satz erwähnt wird.
- source: Die URL, wo der Satz zu finden ist.
- author: Der Benutzername des Autors eines Tatoeba-Satzes.
Tokenisierungsrichtlinien
Wenn wir entscheiden, wie man Sätze in Tokens aufteilt, verlassen wir uns normalerweise auf Leerzeichen und Satzzeichen.
Sonderfälle in der Tokenisierung
- Teile keine Komposita wie "Silben-Trennung."
- Halte verkürzte Wörter zusammen, wie "Sonn-noun undcconj Feiertagenoun."
- Teile Zahlen von Einheiten und Bereichen, wie "8num kgnoun" und "400num -adp 500num."
- Entferne äussere Klammern um phonetische Transkriptionen, behalte aber andere Satzzeichen.
Mehrwort-Tokens
Präposition + Artikel
Wir teilen meistens verschmolzene Präpositionen und Artikel in Teile auf, behandeln sie als separate Tokens. Zum Beispiel:
- "zum" wird zu "zu" + "m."
Das Gleiche gilt für verkürzte Artikel oder Präpositionen in Nominalphrasen:
- "z'Minga" wird zu "z'" + "Mingapropn."
Verb/Komplementierer + Pronomen
Falls ein Verb direkt gefolgt von einem oder mehreren Pronomen steht, teilen wir sie mit der Eigenschaft SpaceAfter=No. Zum Beispiel:
- "gibts" wird zu "gibtverb" und "spron."
Andere verschmolzene Tokens
Für andere Fälle verwenden wir normalerweise SpaceAfter=No, aber sprich gerne darüber, wenn du unsicher bist.
Wortarten-Tags
Die detaillierten Richtlinien für das Tagging von Wortarten sind verlinkt.
Syntax-Abhängigkeiten
Die Richtlinien für Abhängigkeitsrelationen sind ebenfalls verfügbar.
Schwierige Fälle in der Syntax
Klauselrelationen
Wenn du entscheidest, ob eine Klausel ein Nomen oder eine andere Klausel modifiziert, frag dich, ob das Weglassen der Klausel immer noch einen korrekten Satz ergibt.
Adverbial oder nicht
Überlege, ob das Entfernen der Klausel einen kohärenten Satz hinterlässt.
Ccomp oder nicht
Wenn die abhängige Klausel ihr eigenes Subjekt hat, ist es eine Komplementklausel, aber wenn sie das Subjekt mit der Hauptklausel teilt, ist sie es nicht.
Allgemeine Annotation Entscheidungen
Diese Regeln gelten für alle verwandten Dialekte, einschliesslich Hochdeutsch.
Umgang mit Abkürzungen
Wir teilen Abkürzungen, wenn es sinnvoll ist. Zum Beispiel wird “z.B.” zu “zu” + “B.”
Namen und Titel
Für persönliche Namen verbinden wir Teile über eine flache Beziehung.
Adjektive als Adverbien
Wir taggen Adjektive, die adverbial verwendet werden, als Adjektive, mit der entsprechenden Relation.
Bayerische Annotation Entscheidungen
Während Bayerisch dem Hochdeutschen ähnlich ist, gibt es einige einzigartige Aspekte zu beachten.
Nominalphrasen
Im Bayerischen kann ein Artikel vor einem Personennamen erscheinen, und Nachnamen stehen oft vor Vornamen.
Besitz im Bayerischen
Bayerisch verwendet oft analytische Possessivformen anstelle des Genitivs und zeigt Besitztum durch andere Konstruktionen.
Verschobene Adjektive
Phrasen, die die Reihenfolge von Adjektiven zur Betonung umstellen, werden im Bayerischen anerkannt.
Hilfsverben
Wir konzentrieren uns auch auf Hilfsverben, die spezifisch für bayerische Konstruktionen sind.
Infinitivkonstruktionen
Infinitivphrasen können das Marker "z(u)" in verschiedenen Formen verwenden.
Pronomen und Flexion
Fallende Pronomen, besonders in Anwesenheit von Hilfsverben, werden im bayerischen Sprachgebrauch notiert.
Negative Übereinstimmung im Bayerischen
Im Gegensatz zum Deutschen erlaubt das Bayerische, dass mehrere negative Marker in Sätzen auftreten.
Relativsätze
Bayerisch verwendet oft relative Marker wie "wo", die nicht flektieren.
Temporale Ausdrücke
Für zeitbezogene Phrasen halten wir spezifische Annotierungsregeln bei.
Fazit
Dieser Leitfaden dient als umfassender Überblick darüber, wie man Sätze im bayerischen Korpus annotiert. Jeder Abschnitt legt spezifische Regeln für den Umgang mit verschiedenen Aspekten der Sprache dar, um Konsistenz und Klarheit im Annotierungsprozess zu gewährleisten.
Indem du diese Richtlinien befolgst, trägst du zu einem gut strukturierten Korpus bei, der für zukünftige linguistische Analysen und das Verständnis des bayerischen Dialekts verwendet werden kann.
Titel: MaiBaam Annotation Guidelines
Zusammenfassung: This document provides the annotation guidelines for MaiBaam, a Bavarian corpus manually annotated with part-of-speech (POS) tags, syntactic dependencies, and German lemmas. MaiBaam belongs to the Universal Dependencies (UD) project, and our annotations elaborate on the general and German UD version 2 guidelines. In this document, we detail how to preprocess and tokenize Bavarian data, provide an overview of the POS tags and dependencies we use, explain annotation decisions that would also apply to closely related languages like German, and lastly we introduce and motivate decisions that are specific to Bavarian grammar.
Autoren: Verena Blaschke, Barbara Kovačić, Siyao Peng, Barbara Plank
Letzte Aktualisierung: 2024-10-18 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2403.05902
Quell-PDF: https://arxiv.org/pdf/2403.05902
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://universaldependencies.org/u/dep/nmod.html
- https://universaldependencies.org/de/dep/nmod.html
- https://universaldependencies.org/u/dep/nmod-poss.html
- https://universaldependencies.org/u/dep/appos.html
- https://universaldependencies.org/de/dep/appos.html
- https://universaldependencies.org/u/dep/acl.html
- https://universaldependencies.org/de/dep/acl.html
- https://universaldependencies.org/u/dep/acl-relcl.html
- https://universaldependencies.org/de/dep/acl-relcl.html
- https://universaldependencies.org/u/dep/det.html
- https://universaldependencies.org/de/dep/det.html
- https://universaldependencies.org/u/dep/det-poss.html
- https://universaldependencies.org/de/dep/det-poss.html
- https://universaldependencies.org/u/dep/case.html
- https://universaldependencies.org/de/dep/case.html
- https://universaldependencies.org/u/dep/amod.html
- https://universaldependencies.org/de/dep/amod.html
- https://universaldependencies.org/u/dep/nummod.html
- https://universaldependencies.org/de/dep/nummod.html
- https://universaldependencies.org/u/dep/flat.html
- https://universaldependencies.org/de/dep/flat.html
- https://universaldependencies.org/u/dep/conj.html
- https://universaldependencies.org/de/dep/conj.html
- https://universaldependencies.org/u/dep/cc.html
- https://universaldependencies.org/de/dep/cc.html
- https://universaldependencies.org/u/dep/punct.html
- https://universaldependencies.org/u/dep/advmod.html
- https://universaldependencies.org/de/dep/advmod.html
- https://universaldependencies.org/u/dep/root.html
- https://universaldependencies.org/u/dep/fixed.html
- https://universaldependencies.org/de/dep/fixed.html
- https://universaldependencies.org/u/dep/parataxis.html
- https://universaldependencies.org/de/dep/parataxis.html
- https://universaldependencies.org/u/dep/compound.html
- https://universaldependencies.org/de/dep/compound.html
- https://universaldependencies.org/u/dep/goeswith.html
- https://universaldependencies.org/u/dep/orphan.html
- https://universaldependencies.org/de/dep/orphan.html
- https://universaldependencies.org/u/dep/reparandum.html
- https://universaldependencies.org/de/dep/reparandum.html
- https://universaldependencies.org/u/dep/list.html
- https://universaldependencies.org/u/dep/dep.html
- https://universaldependencies.org/u/dep/nsubj.html
- https://universaldependencies.org/de/dep/nsubj.html
- https://universaldependencies.org/u/dep/nsubj-pass.html
- https://universaldependencies.org/de/dep/nsubj-pass.html
- https://universaldependencies.org/u/dep/obj.html
- https://universaldependencies.org/de/dep/obj.html
- https://universaldependencies.org/u/dep/iobj.html
- https://universaldependencies.org/de/dep/iobj.html
- https://universaldependencies.org/u/dep/obl.html
- https://universaldependencies.org/de/dep/obl.html
- https://universaldependencies.org/u/dep/obl-arg.html
- https://universaldependencies.org/de/dep/obl-arg.html
- https://universaldependencies.org/u/dep/obl-agent.html
- https://universaldependencies.org/de/dep/obl-agent.html
- https://universaldependencies.org/u/dep/expl.html
- https://universaldependencies.org/de/dep/expl.html
- https://universaldependencies.org/u/dep/expl-pv.html
- https://universaldependencies.org/de/dep/expl-pv.html
- https://universaldependencies.org/u/dep/vocative.html
- https://universaldependencies.org/de/dep/vocative.html
- https://universaldependencies.org/u/dep/csubj.html
- https://universaldependencies.org/de/dep/csubj.html
- https://universaldependencies.org/u/dep/csubj-pass.html
- https://universaldependencies.org/de/dep/csubj-pass.html
- https://universaldependencies.org/u/dep/ccomp.html
- https://universaldependencies.org/de/dep/ccomp.html
- https://universaldependencies.org/u/dep/xcomp.html
- https://universaldependencies.org/de/dep/xcomp.html
- https://universaldependencies.org/u/dep/advcl.html
- https://universaldependencies.org/de/dep/advcl.html
- https://universaldependencies.org/de/dep/advcl-relcl.html
- https://universaldependencies.org/u/dep/aux_.html
- https://universaldependencies.org/de/dep/aux_.html
- https://universaldependencies.org/u/dep/aux-pass.html
- https://universaldependencies.org/de/dep/aux-pass.html
- https://universaldependencies.org/u/dep/cop.html
- https://universaldependencies.org/de/dep/cop.html
- https://universaldependencies.org/u/dep/mark.html
- https://universaldependencies.org/de/dep/mark.html
- https://universaldependencies.org/u/dep/compound-prt.html
- https://universaldependencies.org/de/dep/compound-prt.html
- https://universaldependencies.org/u/dep/dislocated.html
- https://universaldependencies.org/de/dep/dislocated.html
- https://universaldependencies.org/u/dep/discourse.html
- https://universaldependencies.org/u/pos/ADJ.html
- https://universaldependencies.org/u/pos/ADP.html
- https://universaldependencies.org/u/pos/ADV.html
- https://universaldependencies.org/u/pos/AUX.html
- https://universaldependencies.org/u/pos/CCONJ.html
- https://universaldependencies.org/u/pos/DET.html
- https://universaldependencies.org/de/pos/DET.html
- https://universaldependencies.org/u/pos/INTJ.html
- https://universaldependencies.org/u/pos/NOUN.html
- https://universaldependencies.org/u/pos/NUM.html
- https://universaldependencies.org/u/pos/PART.html
- https://universaldependencies.org/u/pos/PRON.html
- https://universaldependencies.org/de/pos/PRON.html
- https://universaldependencies.org/u/pos/PROPN.html
- https://universaldependencies.org/u/pos/PUNCT.html
- https://universaldependencies.org/u/pos/SCONJ.html
- https://universaldependencies.org/u/pos/SYM.html
- https://universaldependencies.org/u/pos/VERB.html
- https://universaldependencies.org/u/pos/X.html
- https://github.com/UniversalDependencies/UD_German-GSD/
- https://github.com/UniversalDependencies/UD_German-HDT
- https://github.com/UniversalDependencies/UD_German-PUD/
- https://github.com/UniversalDependencies/UD_German-LIT
- https://github.com/UniversalDependencies/UD_Swiss_German-UZH
- https://github.com/UniversalDependencies/UD_Low_Saxon-LSDC
- https://github.com/UniversalDependencies/UD_English-GUM
- https://github.com/UniversalDependencies/UD_English-EWT
- https://bar.wikipedia.org/w/index.php?title=Minga&oldid=841494#Mingara_Beziak
- https://universaldependencies.org/u/overview/typos.html
- https://universaldependencies.org/de/index.html
- https://universaldependencies.org/nds/index.html
- https://universaldependencies.org/gsw/index.html
- https://de.wikipedia.org/wiki/Adverbialsatz
- https://universaldependencies.org/u/dep/ccomp.html#reported-speech
- https://www.ims.uni-stuttgart.de/documents/ressourcen/lexika/tagsets/stts-1999.pdf#page=57
- https://universaldependencies.org/workgroups/comparatives.html
- https://github.com/UniversalDependencies/docs/issues/767
- https://universaldependencies.org/v2/copula.html#guidelines-for-udv2
- https://universaldependencies.org/nds/#core-arguments-oblique-arguments-and-adjuncts
- https://universaldependencies.org/gsw/#core-arguments-oblique-arguments-and-adjuncts
- https://universaldependencies.org/de/#tags
- https://www.ims.uni-stuttgart.de/documents/ressourcen/lexika/tagsets/stts-1999.pdf#page=25
- https://universaldependencies.org/u/dep/nsubj-outer.html
- https://github.com/UniversalDependencies/docs/issues/223