Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

バイエルン方言注釈のガイドライン

バイエルン語コーパスの注釈に関する包括的なルール。

― 1 分で読む


バイエルンの注釈ルールバイエルンの注釈ルールイン。バイエルン語コーパスのための基本ガイドラ
目次

この文書は、バイエルン語コーパスの注釈ルールを含んでるよ。このコーパスは品詞(POS)タグを使用してて、単語が文の中でどのように依存し合っているかを示してる。目的は、このコーパスを扱う人たちが効果的に注釈を付けたり、言語を理解したりできるようにすること。

文書の構成

ガイドラインは、文の準備と注釈付けのプロセスに沿って整理されてるよ。まず、文をトークンに分ける準備の仕方を見て、次に一般的なPOSタグと依存関係をレビューする。最後にドイツ語に適用されるルールを確認して、バイエルン特有のルールに集中するよ。

一般的な注意事項

この文書のルールは柔軟だよ。ルールを適用するのが意味不明な状況に出くわしたら、フィードバックを求めていいと思う。また、特定の単語やフレーズの扱いが不明な場合は、話し合いを提案してね。

この文書で使われる表記

  • POSタグ: 小文字の大文字で表示される。タグ付けされた単語はイタリック体。
  • 依存関係: 特殊なフォントで書かれ、主な単語が下線付きで、従属する単語が太字。

前処理とトークン化

データを準備する際、元のフォーマット(太字やイタリック)を保たないよ。元の形式が重要な場合は話し合ってね。

文を選ぶときは、フルパラグラフを選んでから文に分けるのがベスト。記事のリストは通常スキップされるけど、完全な文が含まれている場合は除外しない。

誤字や句読点のミスは直さないよ。文を個々の部分に分けるのは一般的に簡単。

文レベルのメタデータには以下を含めるよ:

  • sentid: 文の出所を示すユニークな識別子。
  • text: 文自体。
  • texten: 文が翻訳された場合の元のテキスト。
  • genre: Wikipediaの記事やフィクションなどのテキストの種類。
  • dialectgroup: 文が来る特定のバイエルン地域。
  • location: 文に言及されている都市や地域。
  • source: 文が見つかるURL。
  • author: Tatoeba文の著者のユーザー名。

トークン化ガイドライン

文をトークンに分ける方法を考えるとき、通常はスペースと句読点に頼るよ。

トークン化の特別なケース

  • "Silben-Trennung" のような複合名詞は分けない。
  • 短縮語は一緒に保つ、例えば "Sonn-noun undcconj Feiertagenoun."
  • 数字は単位や範囲から分ける、例えば "8num kgnoun" や "400num -adp 500num."
  • 音声転写の外側のかっこは外すけど、他の句読点は残す。

複数語トークン

前置詞 + 限定詞

統合された前置詞と限定詞を部分に分けて、別のトークンとして扱うことが多い。例えば:

  • "zum" は "zu" + "m" になる。

名詞句の短縮された限定詞や前置詞にも同じことが適用される:

  • "z'Minga" は "z'" + "Mingapropn" に分かれる。

動詞/接続詞 + 代名詞

動詞の直後に1つ以上の代名詞が続く場合、それらを SpaceAfter=No を使って分ける。例えば:

  • "gibts" は "gibtverb" と "spron" に分かれる。

他の融合トークン

他のケースでは一般的に SpaceAfter=No を使うけど、疑問があれば話し合ってね。

品詞タグ

品詞のタグ付けに関する詳細なガイドラインはリンクされてるよ。

構文依存関係

依存関係のガイドラインも利用可能だよ。

構文における難しいケース

節の関係

節が名詞や他の節を修飾しているかどうかを判断する際、節を外しても正しい文が残るかを確認してね。

副詞的かどうか

節を取り除いても意味のある文が残るかを考えて。

Ccompかどうか

従属節がその主語を持っている場合、それは補文節だけど、主節と主語を共有している場合はそうじゃない。

一般的な注釈決定

これらのルールは、標準ドイツ語を含むすべての関連方言に適用されるよ。

略語の扱い

意味が通じる場合は略語を分けるよ。例えば、「z.B.」は「zu」 + 「B」になる。

名前とタイトル

人名については、部分をフラットな関係でつなげるよ。

形容詞を副詞として使用する場合

副詞的に使われる形容詞には適切な関係を使って形容詞としてタグ付けするよ。

バイエルンの注釈決定

バイエルンは標準ドイツ語に似てるけど、考慮すべき独自の側面もあるよ。

名詞句

バイエルンでは、限定詞が人名の前に来ることがあるし、姓が名の前に来ることが多い。

バイエルンにおける所有

バイエルンでは、分析的な所有形を使うことが多く、属格を使わずに他の構造で所有を表現する。

形容詞の後置

強調のために形容詞の順序を入れ替えるフレーズがバイエルンでは認識される。

助動詞

特にバイエルンの構文に特有の助動詞にも焦点を当てるよ。

不定詞構文

不定詞フレーズは様々な形で「z(u)」のマーカーを使うことがある。

代名詞と屈折

特に助動詞がある場合に落ちる代名詞がバイエルンのスピーチで注記される。

バイエルンにおける否定の一致

ドイツ語とは異なり、バイエルンでは文に複数の否定マーカーが存在することが許可されている。

関係節

バイエルンでは、活用しない「wo」のような関係マーカーがよく使われる。

時間表現

時間に関連するフレーズについては、特定の注釈ルールを維持する。

結論

このガイドは、バイエルンコーパスの文の注釈をどうするかの包括的な概要を提供するよ。それぞれのセクションには、言語のさまざまな側面を扱うための具体的なルールが示されてて、注釈付けのプロセスでの一貫性と明確さを保証している。

これらのガイドラインに従えば、注釈者は将来の言語分析やバイエルン方言の理解に役立つ、しっかりしたコーパスに貢献できるよ。

参照リンク

著者たちからもっと読む

類似の記事