Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

歴史的な文学を通してクレオール言語を再考する

新しいコーパスがフランス系クレオール言語の進化についての光を当ててるよ。

Rasul Dent, Juliette Janès, Thibault Clérice, Pedro Ortiz Suarez, Benoît Sagot

― 1 分で読む


クレオール言語の進化を分析クレオール言語の進化を分析したを探る。フランス系クレオール言語の歴史的なルーツ
目次

植民地時代に生まれたクレオール言語の研究は多くの議論を引き起こしてるね。主な質問の一つは、これらの言語がヨーロッパの言語の子孫と見なせるのかどうかってこと。議論の大事な要素の一つは、これらの言語がヨーロッパのルーツからどのように変化したかを示す証拠が不足していることだよ。このギャップを埋めるために、「モリィエコーパス」っていう新しいリソースが作られたんだ。このコーパスは、初期のフランス語を基にしたクレオール言語の重要な例と、過去400年間のヨーロッパの言語の変異との関係を集めてる。

15世紀から19世紀の間、植民地地域でいろんな言語が進化したんだ。彼らはヨーロッパの言語から多くの単語を使ったけど、構造はかなり違った。これらの言語は、英語やフランス語、ポルトガル語など、ヨーロッパの語彙の源によって分類されることが多いよ。言語学における一つの重要な質問は、どうしてこれらの言語の文法が語彙よりも多く変わったのかってこと。これに答えるのは、言語の文書化を妨げる厳しい社会条件や、記録された言語証拠を破壊する環境的要因から難しいんだ。

フランス語を基にしたクレオール言語(FBCL)は、17世紀と18世紀に孤立した地域で発展した。これらの言語の文書化は主に18世紀中盤から後半にかけて行われた。この時期、フランスは政治的にも文化的にも強かったから、多くの文学作品が生まれたんだ。これらの文化的産物には、異なる社会グループが話す方法についての多くのステレオタイプが含まれてて、特にバラグワンと呼ばれる特定のゲルマン系バリアントは、FBCLに似た独特の構造的特徴を示してる。

モリィエコーパスは、これらのステレオタイプやFBCLの初期の例を具現化した68の文学作品を集めるために作られた。このコーパスは、255の文書の大きなグループから編纂されたもので、今後の研究がヨーロッパの言語接触と旧植民地で話される言語の関係を研究するのを助けることを目的としてる。コーパスは一般にアクセスできる状態になっていて、いろんな研究目的で使えるよ。

関連研究

最近、自然言語処理の分野はクレオール言語にもっと注目してる。これらの言語は、既存の理論やアプリケーションに独特の課題を呈してるんだ。一方で、計算歴史言語学は形態素がどのように機能するかを理解することや、言語接触の層を認識することといった重要な問題を特定してきた。この研究は、クレオール言語の初期の文書化の欠如や言語接触の複雑さに取り組んでる。

デジタル時代のコーパス

ルイジアナやカリブ海、レユニオン、モーリシャスなど、多くの地域には印刷された歴史的な言語コーパスがあるんだ。でも、モーリシャスのコーパスだけが徹底的にデジタル化されていてアクセスしやすくなってる。いくつかの歴史的テキストは研究や機械翻訳の目的でデジタル化されてたり、クレオール言語に焦点を当てたさまざまな団体によって独自にデジタル化されてたりする。

再利用可能なデジタル文書を作成するために、モリィプロジェクトはテキスト符号化イニシアティブ(TEI)基準に従ってる。このガイドラインに従うことで、数世紀にわたる時代的コーパスが生まれたんだ。ラテン語とフランス語のペアのための比較可能なコーパスを構築する際の課題や、19世紀のアルザスの劇をデジタル化することで社会言語学の研究がどう助けられるかについても探求されてるよ。

マルチラベル言語識別

テキストの言語を判断するために、アルゴリズムはテキストをトークン化して、小さな部分(単語や文字など)に分けることが多いんだ。ラテンアルファベットを使う分析的言語の場合、これらのトークンは単語や文字に対応してるんだ。関係が深い言語は微妙な違いしかないことがよくあって、ラベリングが複雑になることもある。この研究では、さまざまな時期にわたって多様な言語の特徴をマルチラベルアプローチで識別する方法を探ってる。

言語的背景

この研究の核心は、植民地時代前後のヨーロッパから集めた言語資料における「クレオール」の特異な特徴を特定することだよ。フランス語を基にしたクレオール言語は、標準フランス語とは異なる特徴を示してるんだ。例えば、FBCLでは、通常の弱いクリティック代名詞の代わりにトニック代名詞を使うことが多い。そして、特定の動詞の形に対する扱いも異なってて、標準フランス語には見られない独自の文法構造が生まれるんだ。

フランス語を基にしたクレオール言語

クレオール言語を単に言語的特徴だけで定義する方法については、議論が続いてるけど、多くの人がFBCLが標準フランス語と区別される特定の特徴を共有していることに同意してるんだ。その一つの特徴は、異なる文脈で弱いクリティック代名詞の代わりにトニック代名詞を使うことだよ。フランス語に弱い代名詞がない場所(例えば、「nous」)では、FBCLではオブジェクト代名詞のクリティック化を同じように許可していないんだ。

フランス語は人称、数、時制、アスペクト、性別を表すために複雑な動詞の活用を使うのに対し、FBCLにはTense-Aspect-Mood(TAM)マーカーを組み合わせる独自のより簡単なシステムがある。この違いはコーパスに見られる、前提条件のためのマーカー「té」や条件形のための「sré」などの使用によって示すことができるよ。また、FBCLではフランス語が必要とする文に明示的なコピュラが欠けていることが多く、独特の文法パターンを示してるんだ。

起源の理論

クレオール言語とそのレキシファイア(語源語)との関連は、強い議論の対象になってる。ある仮説では、クレオール言語の定義的特徴は、ヨーロッパのルーツから完全に離れるのではなく、第二言語習得の複数の事例を通じて形成されたって考えられてるんだ。別の理論では、「外国人話法」と呼ばれる簡素化されたスピーチが、クレオール言語の発展に影響を与えた可能性があるとも言われてる。

ポルトガル語やスペイン語由来の言語に関して、研究者たちは初期の外国人話法と文学や現代の言語変種のステレオタイプを比較して、この時期に発生した言語の変化を垣間見てるんだ。ここでも同じアプローチを使って、フランス文学のステレオタイプとFBCLの発展との関係を調べてるよ。

フランス文学のステレオタイプ

20世紀まで、フランスの多くの人々は地域言語を話してた。これらの地域言語の大部分は、より広い西ロマンス連続体の一部であるオイル方言連続体に属してる。ブルトン語やフラマン語のようなロマンス以外の言語も様々な地域で話されてたんだ。中世から、あるオイル方言が著名な俳優と関連づけられ、フランスの標準語となった。この言語は最終的にヨーロッパ全体で共通のコミュニケーション手段となって、ラテン語の代わりになったんだ。

17世紀と18世紀には、標準化の過程が進展し、クラシックフランス語と呼ばれる明確な形が確立された。でも、「適切な使用」の概念だけが国全体で使われたフランス語の変種ではなかったよ。パリでも、「フランス語」のさまざまな形が存在してた。主に3つの変異のタイプが特定できるよ:オイル地域からの方言や社会的スピーチの形式、地域アクセントをもつ標準フランス語、そして特にゲルマン語を話す人々からのインタールanguages。このすべてのカテゴリーは、戯曲、小説、歌、手紙など、さまざまな文学作品における独特な特徴のステレオタイプの組み合わせを示しているんだ。

農民フランス語

1600年代初頭までに、特にパリの郊外で農村のスピーチの独特の特徴が形成され、文学において低階級のキャラクターを描写するための慣習となったんだ。例えば、クリティック代名詞「je」と複数接尾辞「-ons」の組み合わせが、「La Mère confidente」のような作品でステレオタイプとなった。この描写は早い段階で根付いたけど、植民地時代を通じて使われ続け、特にアカディアフランス語では複数形として現れることが多かった。

ガスコーニュアクセント

フランス語は、現地の言語がフランス語とかなり異なる地域でも第二言語として話されていたんだ。そういう場合、母国語が発音に影響を与えたよ。ガスコーニュアクセントは、特定の音声的特徴によって特徴付けられ、古典フランス劇の中で一般的なステレオタイプとなったんだ。例えば、Fontignacっていうキャラクターが、このアクセントを示す台詞を持ってて、ガスコーニュの発音が標準フランス語とはどう違うかを例示してる。

ゲルマン系バラグワン

バラグワンは、外国のスピーチ形式、アクセント、地域の変種の混合を指す言葉で、初期現代期に二つの主なタイプが生まれたんだ:英語やスコットランド語話者に関連するアングロバラグワンと、ドイツ語やオランダ語話者に結び付けられたコンチネンタルバラグワン。それぞれのサブタイプはユニークな音声的特徴を持ってて、例えば、コンチネンタルバラグワンは音を簡素化するけど、産業時代のフラマンバラグワンは特定の音変化を特徴としているよ。

バラグワンの形態的および統語的特徴も、クレオールと似ている部分があって、文法的性や動詞の活用の簡素化が見られるんだ。でも、バラグワンはオーバートコピュラを維持して、動詞の前に三人称代名詞を含むことが多くて、FBCLの構造とは異なる部分がある。だから、バラグワンに見られる言語的特徴をもっと分析することが重要なんだ。

コーパスの作成

モリィエコーパスを作成するには、三つの重なり合ったフェーズがあったよ。まず、フランスといろんなFBCLを区別するために重要な独特の言語特徴を含む文書を特定したんだ。その後、選択した抜粋をXML-TEIフォーマットに変換して、より大きなプロジェクト用にしたよ。そして最後に、これらの文書を場所と時期で整理して、アクセスと分析を容易にしたんだ。

文書の特定

文書を見つける戦略は、デジタルライブラリー(Gallica、Delpher、Google Booksなど)を検索して、独特の言語特徴を持つ文書を探すことから始まったんだ。このプロセスには、単一の単語や単語の組み合わせなど、異なるタイプのn-グラムを特定することが含まれてた。綴りの変動や様々な接触変種を考慮して、逐次的アプローチを使ったから、最初の検索が次の検索に情報を提供したんだ。

ステレオタイプはしばしば重なり合うから、いくつかの文書が言語変種を明示的に参照したり、パスティーシュを取り入れたりしてたんだ。

サンプル検索と文書

文書が集められたら、どの作品を含めるかを優先するのが重要だったよ。最初は古典劇におけるバラグワンと農民フランス語に焦点を当てて、その後にさらに多様なジャンルも代表された。コーパスには、詩や歌、宗教的な資料や小説など、さまざまな文学表現が反映されてるよ。

作品をデジタル化するために、文書の種類に応じて手動での転写や半自動のプロセスが使われたんだ。短いテキストにはテキスト認識ソフトを使って、長くて複雑な作品には手動で入力したよ。この気を使ったアプローチが、コーパスにおけるさまざまなフォーマットやスタイルを正確に表現するのを確保したんだ。

言語的注釈

コーパスの社会言語学的な焦点を考慮すると、特定の言語ラベルを付けることには独特の課題があったんだ。異なるフランス語やクレオールの形態に対する歴史的な参照には慎重な配慮が必要だったよ。コーパスは、地域と言語的特徴に基づいていくつかの言語タイプを区別してるから、言語変種に関する微妙な理解ができるようになってる。

抜粋のまとめ

文書内の言語にラベルを付けた後、比較のためのタイムラインが作成されたんだ。これは、バラグワンやFBCLなどの非標準的言語を示すスピーチタグがあるシーンやパッセージを抜き出すことを含んでて、研究者が文学的な文脈内での言語使用を分析できるようにしているんだ。

アクセントや方言に関連する文学的慣習は、特定のルールを通じて要約されたよ。そういうわけで、これらの慣習に関する基本的な理解ができたら、追加の例を必要とすることは少なくなったんだ。バラグワンと初期の農民フランス語を優先することで、データの豊かさを維持しつつ、コーパス全体の整合性を保つことができたんだ。

コーパスの提示

モリィエコーパスには、FBCLの歴史に関連する特徴を強調する255の歴史的作品が含まれてるよ。これらの作品から、初版本には68の抜粋が選ばれたんだ。最も古い文書は1509年ごろのもので、最も新しいのは1932年のものだよ。コーパスは一般に利用可能なXMLファイルから成り立っていて、書誌情報やタグ付けされた選択のコレクションを提供してる。

今のところ、このコーパスには合計で188,866トークンが含まれていて、歴史的な言語データの幅広い範囲を捉えているんだ。すべての主要なソースはパブリックドメインにあり、多くはさらなる探求のためにオンラインで見つけられるよ。キャッシュされたコピーもプロジェクトの一部として保持されている。

予備的結果

この研究の主な目標は、さまざまな非標準化された言語を収集して分類することだったんだ。この特徴を定量化するのは難しいけど、集めたデータに基づいたいくつかの質的観察があったよ。初期の分析は特に、バラグワンがフランス語を基にしたクレオールの発展にどのように関与していたかに焦点を当ててる。

第一人称代名詞:モ(è)

植民地時代、フランス語の代名詞「moi」には二つの主要な形があったんだ:「mwe」と「mwa」。異なるFBCLは、主代名詞のためにどちらかの形式を採用してる。最初のグループは、主にハイチと小アンティル諸島のクレオールが「mwè」を使う傾向があるけど、二番目のグループ(モーリシャス、セイシェル、ルイジアナのクレオール)は「mo」を使ってる。この違いは、それぞれの言語内での代名詞の機能に関する広範な違いに繋がってるよ。

いろんな文書を調べることで、この二つの形の関係が明らかになったんだ。ルイジアナでは「mo」の例がたくさん見つかって、他の変種と一緒に登場してきて、「mo」が低地地域から「mwe」とともに広がった可能性を示しているよ。

コピュラ:ê(tre)

バラグワンの探求では、標準フランス語で見られる活用形を使うのではなく、不定詞「être」(「いる」)を過剰に使用する傾向があることがわかったんだ。この形がどのくらいの頻度で現れるかを追跡することで、この時期の言語の進化の様子が見えてくるよ。

より大きな絵

これらの個々の言語特徴を追跡するだけでなく、モリィエコーパスは初期近代期のフランス語の広い社会言語学的文脈を探求する機会を提供してるんだ。「mo」という第一人称代名詞の研究は、低地地域への潜在的な関連に注目を集める。特定の作品を考察すると、フランスのスイス兵とフランスの地域との関係が明らかになるよ。

劇「Le duel singulier」はケーススタディとして、さまざまなスピーチ形式を組み合わせて、FBCLが社会的なインタラクションの期間にどのように発展したかに関する理論を支持してる。これらの観察は、言語交流がカリブ海でどのように言語の発展に影響を与えたかを理解するのに役立つよ、特に植民地時代のことを考えると。

最後に、モリィエコーパスはフランス文学のステレオタイプとフランス語を基にしたクレオール言語の初期の形式を結びつける新しいリソースを提供してる。分析によって、フランスの言語構造の変化が、特にゲルマン語話者の影響を受けて、16世紀、17世紀、18世紀を通じて生じたことが示されてるよ。バラグワンのようなステレオタイプは、この時代の言語的変異の一部しか代表していないけど、コーパスはフランス語とゲルマン語が交わった場所でどのようにコミュニケーションが行われたかについての重要な疑問を提起しているんだ。

この研究で直面した主な課題は、構造化されていない文学作品をXML-TEIフォーマットに変換することだったよ。200以上の関連文書が特定されたけど、最終的なコーパスに含められたのはほんの一部分だけだったんだ。特定の現象やフランスの地域言語のいくつかは、焦点を維持するために省略されたけど、将来の研究の重要な分野として残ってるんだ。

倫理声明

この研究の主な目的は、植民地時代のヨーロッパの文学的ステレオタイプが、フランス語を基にしたクレオール言語の初期の歴史を理解するためのギャップを埋めるのにどう役立つかを示すことなんだ。でも、編纂された多くのソースには、異なる社会グループに対する否定的なイメージやコメントが含まれていることを認識することが重要だよ。これらのソースを共有することは、それらの中に示された見解を支持するものと解釈されるべきではないんだ。

この研究は、クレオール言語に関するプロジェクトを通じて主に資金提供されてる。また、今後の言語研究に焦点を当てた研究イニシアティブに関連する追加の資金でも支援されてるよ。

著者たちからもっと読む

類似の記事

ヒューマンコンピュータインタラクションコンテキストと表情を組み合わせて感情認識をもっと良くする

新しいアプローチは、顔のサインだけじゃなくてコンテキストも考慮することで感情認識を改善するんだ。

Bin Han, Cleo Yau, Su Lei

― 1 分で読む