HK-LegiCoST：広東語の話し言葉と書き言葉をつなぐ

広東語音声を英語テキストに翻訳するための新しいコーパス。

2025-10-29T11:59:36+00:00 ― 1 分で読む

オリジナルソース
参照リンク

最近、話し言葉を文字にすることへの関心が高まってるよね。特に、自動ビデオ字幕や外国語学習のアプリケーションとかで。ほとんどの研究は広く話されてる言語に焦点を当ててるけど、話される形と書かれる形がかなり違う言語に関する研究はあんまりない。広東語はその一例で、書かれたバージョンは普通、標準中国語に近くて、人々が実際に話す方法とは違うことが多いんだ。

この問題に取り組むために、HK-LegiCoSTっていう広東語から英語への翻訳コレクションを作ったよ。このコレクションには、広東語での600時間以上の音声録音が含まれてて、標準中国語と英語の翻訳もついてる。音声は香港立法会の会話やスピーチで、政府の政策や議論に関する話題が中心になってるんだ。

コーパス作成の課題

このコレクションを作るのにはいくつかの大きな課題があった。一つは、話された音声とその書き起こしを文レベルで合わせること。広東語の話し方と標準中国語の書き方の違いのせいで、書き起こしが正確に一致しないから、プロセスが複雑になっちゃう。

このリソースを作るには、まず香港立法会のさまざまな会議からデータを集めなきゃいけなかった。会議はガバナンスや政策に関連するさまざまな話題を扱ってる。次のステップは、ビデオ録画を音声ファイルに変換して、対応する書き起こしからテキストを抽出することだった。

データ収集と処理

生データは2016年から2021年までの立法会の会議のビデオ録画から集めた。会議では教育改革や住宅、医療、経済政策などのさまざまな問題が話し合われた。最初のタスクはこれらのビデオを音声ファイルに変換して、その後、セグメンテーションというプロセスを使って音声を小さく分けることだった。

次に、録音の書き起こしをきれいにする必要があった。これは、関係ない情報をフィルタリングして、音声クリップに対応する小さなセグメントにテキストを分ける作業だった。話している人に基づいてテキストを整理して、音声と合わせやすくしたんだ。

テキストと音声の整合

リソースを作成する上で重要なステップの一つは、書かれたテキストを音声と整合させること。これには、音声の文を書き起こしの文と合わせる方法が必要だった。これを実現するために、文の埋め込みを作成する技術を使ったんだ。これは文を数学的に表現する方法で、これらの埋め込みを比べることで、話し言葉と書き言葉の中で似た文を見つけられるようにした。

広東語専用の自動音声認識（ASR）モデルも訓練した。このモデルは、話された音声を再び文字にするのを助けて、書き起こしと合わせやすくするんだ。でも、書き起こしが実際に話される内容と完全に一致しないから、これが一つの難しさになってる。

初期段階と文レベルの整合

整合プロセスを始めるために、まず音声セグメントをテキストのセクションに粗く合わせる初期整合を行った。音声活動検出ツールを使って、スピーチが含まれる音声の部分を特定できた。その後、より正確な方法を開発して文を整合させた。

長い音声セグメントの場合、音声を正確にデコードするのが難しかった。そこで、長いセグメントを小さな部分に分ける柔軟な整合アルゴリズムを作った。このアルゴリズムは、スピーチに対応しないテキストをフィルタリングして、整合の精度を高めるんだ。

コーパスの言語的特徴

データを分析して、私たちのコレクションに表現されている広東語のいくつかの興味深い特徴を特定した。顕著な現象の一つは、話し言葉の広東語が標準中国語に変換されるときに言葉やフレーズの順序が入れ替わること。例えば、広東語のフレーズは標準中国語で書くときに再編成されて、異なる語順になることがある。

もう一つの特徴は、長いコンテキスト依存の存在で、特定の言葉やフレーズの意味が文書内の前のテキストに依存すること。これは、早い段階の議論が後の発言に影響を与えるような公式な設定の立法会の会議でよく見られる。

ベースライン実験

私たちのコーパスをテストするために、自動音声認識と機械翻訳のいくつかのベースライン実験を設定した。私たちのコレクションを使って、音声認識タスクを実行するモデルや話し言葉を英語に翻訳するためのモデルを訓練したんだ。私たちのデータだけで訓練したモデルで、競争力のある結果を出せたよ。

また、機械翻訳の取り組みを既存のシステムと比較した。私たちのモデルは、名前付き実体の翻訳でうまくいった。これは翻訳システムが正しく扱うのが難しいことが多いんだ。

結論

HK-LegiCoSTコーパスは、広東語の音声認識と翻訳を研究するための重要なリソースだよ。広東語の言語的特性を捉えた大量の音声とテキストデータが含まれていて、話し言葉と書き言葉の違いからくる独自の課題も反映されてる。

このリソースを共有することで、話し言葉をよりよく翻訳し認識する方法の理解に貢献したいと思ってる。特に、広東語のように独自の複雑さを持つ言語に対して。これは音声翻訳の分野を進める一歩で、しばしば見落とされる言語のための技術向上にもつながるわけだ。

さらに、このコーパスを公開する準備を進めていて、研究コミュニティの他の人たちが私たちの発見を利用して、この分野の将来の進展に貢献してくれることを望んでる。香港特別行政区立法会からのサポートとリソースに感謝していて、このプロジェクトを実現できたんだ。

HK-LegiCoST：広東語の話し言葉と書き言葉をつなぐ

広東語音声を英語テキストに翻訳するための新しいコーパス。

#コーパス作成の課題

#データ収集と処理

#テキストと音声の整合

#初期段階と文レベルの整合

#コーパスの言語的特徴

#ベースライン実験

#結論

参照リンク

参照トピック