新しいスピーチコレクションがスイスドイツ語技術を強化したよ。
スイスドイツ語話者のためのスピーチ技術を助ける大規模なコレクション。
― 1 分で読む
目次
私たちはSTT4SG-350を作ったんだけど、これはスイスドイツ語の音声録音の大きなコレクションなんだ。このコレクションは特別で、各録音は標準ドイツ語に翻訳された文とマッチしているんだ。プロジェクトの目的は、音声認識、テキスト音声変換、さまざまな方言の理解などの音声技術をサポートすることなんだ。
このコレクションには、スイスのいろんな地域からの343時間分の音声が含まれていて、これまでで最大のスイスドイツ語の公的な音声コレクションなんだ。約500万人が話す多様な方言がカバーされているよ。スイスドイツ語は、音、語彙、文構造が標準ドイツ語とかなり異なるから、こういうリソースがあるのはすごく重要なんだ。
コーパスの目的と利用法
STT4SG-350はさまざまなアプリケーションをサポートすることを目指しているよ。研究者や開発者は、自動音声認識(ASR)を改善するために使えるんだ。音声がもっと自然に聞こえるようにすることや、さまざまな方言を特定するのにも役立つし、誰が話しているかを認識するのにも便利なんだ。
このコレクションには316人の話者の録音が含まれていて、年齢や性別のバランスが取れているよ。全ての年齢層が代表されていて、男性と女性の声もバランスよく含まれているんだ。同じ量の音声が各方言地域から録音されているから、さまざまな方言で音声技術がどれだけうまく機能するかをテストするのにぴったりなんだ。
データ収集プロセス
STT4SG-350のデータ収集プロセスは2つの主要なフェーズがあったよ。最初のフェーズでは、2021年12月から2022年3月までの間に76人の参加者でテストセットを作成したんだ。2つ目のフェーズでは、2022年5月から11月までの間に240人の参加者を録音して、トレーニングとバリデーションのセットにしたんだ。
参加者はウェブアプリを使って自分の声を録音したよ。標準ドイツ語の文を見せられて、それをスイスドイツ語に翻訳するように頼まれたんだ。その後、訳した文を録音してもらったよ。品質を確認するために、いくつかの録音に対してランダムチェックが行われて、正確さと音質が確認されたの。
方言地域と文の選択
スイスドイツ語は均一ではなく、地域によって多くの方言があるんだ。このプロジェクトでは、スイスの7つの方言地域を特定したんだ。それぞれの地域には独特の特徴があって、コレクションには多様な方言が含まれるようにしたよ。録音する文は、スイスの新聞や議会の議事録から選ばれて、さまざまなトピックや言語の複雑さを確保したんだ。
公平を保つために、各方言地域で同じセットの文を録音したよ。これにより、研究者は同じ素材を使用して、さまざまな方言で音声技術がどれだけうまく機能するかを評価できるの。
メタデータ収集
参加者は録音プロセス中に、自分の方言、年齢層、性別についての情報を提供したんだ。この情報を集めることで、さまざまな人口統計で音声技術がどれだけうまく機能するかを分析できるよ。これは、技術がすべての人にとって包括的で効果的であることを確認するために重要なんだ。
コーパスの統計
STT4SG-350コーパスは、247,527回の録音から集められた343時間のスイスドイツ語の音声で構成されているよ。各録音の平均長さは約5秒で、合計217,687のユニークな文が録音されていて、約42,980の単語からなる大きな語彙があるんだ。話者は性別と年齢のバランスを考慮して選ばれていて、録音はスイスドイツ語話者の多様な声を反映しているんだ。
データ品質管理
録音の品質を確保するために、いくつかの対策を講じたよ。2秒未満の録音や無音の録音は削除したんだ。テストセットのためには、不完全な文がないか特に確認して、各方言の録音があることを確認したよ。
各話者は、録音サンプルをチェックすることで手動で検証されたんだ。このステップでは、方言の正当性、翻訳の正確性、音質が許容範囲内であることを確保することが含まれていたよ。手動チェックにより、すべての参加者が正確なスイスドイツ語の音声を提供していることを確認できたんだ。
自動音声認識のベースライン
私たちの音声コレクションの効果を評価するために、XLS-Rというモデルをトレーニングしたんだ。これは、話された言葉をテキストに変換する技術に基づいているよ。このモデルをトレーニングデータで微調整した後、既存のスイスドイツ語の音声データセットとテストしたんだ。
微調整したモデルはすごく良い結果を出して、他のコレクションが設定した以前のベンチマークを改善したよ。これはSTT4SG-350がスイスドイツ語の音声認識技術を大幅に向上させる高品質なデータを提供していることを示しているんだ。さまざまなデータセットでのパフォーマンスは、STT4SG-350コーパスがより良い音声技術の開発に役立つことを示しているよ。
コーパスの利点
STT4SG-350プロジェクトはいくつかの理由で重要なんだ。まず、大規模で質の高いデータセットを提供しているから、研究者や開発者が音声技術を作成・改善するのに使えるんだ。これにより、スイスドイツ語話者にとって技術がもっとアクセスしやすくなるんだ。
次に、方言や人口統計のバランスの取れた代表性により、公平なテストと音声技術の改善が可能になるよ。これは、自動化システムがさまざまな形式のスイスドイツ語を認識して応答する能力を高めるんだ。
さらに、標準ドイツ語とスイスドイツ語の両方を収集することで、スイスの話者に合わせたバイリンガルまたは翻訳アプリケーションの開発の可能性が広がるよ。
制限
規模と多様性にもかかわらず、コーパスにはいくつかの制限があるんだ。たとえば、主に読み上げ音声をキャッチしているから、カジュアルな会話とは違って聞こえるかもしれないんだ。これが意味するのは、このコーパスでトレーニングされた技術が自発的な会話ではうまく機能しない可能性があるってこと。
加えて、代表が少ない方言や人口統計グループもあるんだ。これが特定の話者、特に子供や高齢者にとって音声技術がどれだけうまく機能するかに影響を与えるかも。
倫理的考慮事項
参加者には録音の目的について十分に説明したよ。彼らは自分の方言、年齢、性別についての情報を共有することに同意していて、それが音声技術の開発に使われることを理解していたんだ。
データはプライバシーポリシーに従って処理されていて、参加者には時間に対して報酬が支払われたよ。報酬はフェーズによって異なって、幅広いグループの参加者を惹きつけるようにしたんだ。
結論と今後の課題
STT4SG-350は、スイスドイツ語音声技術の分野での重要なステップなんだ。注意深いデータ収集と評価を通じて、自動音声認識や他の音声関連技術を大幅に向上させるリソースを作ったんだ。
今後は、さまざまな方言での音声認識性能の違いに関するより詳細な研究を行う予定なんだ。また、代表が少ない方言の技術を改善する方法を見つけて、すべてのスイスドイツ語話者が音声技術の進歩から恩恵を受けられるようにすることが目標なんだ。
要するに、STT4SG-350はスイスドイツ語音声アプリケーションの研究と開発に新たな道を開いて、スイスにおける音声技術のより包括的なアプローチへとつながるんだ。
タイトル: STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions
概要: We present STT4SG-350 (Speech-to-Text for Swiss German), a corpus of Swiss German speech, annotated with Standard German text at the sentence level. The data is collected using a web app in which the speakers are shown Standard German sentences, which they translate to Swiss German and record. We make the corpus publicly available. It contains 343 hours of speech from all dialect regions and is the largest public speech corpus for Swiss German to date. Application areas include automatic speech recognition (ASR), text-to-speech, dialect identification, and speaker recognition. Dialect information, age group, and gender of the 316 speakers are provided. Genders are equally represented and the corpus includes speakers of all ages. Roughly the same amount of speech is provided per dialect region, which makes the corpus ideally suited for experiments with speech technology for different dialects. We provide training, validation, and test splits of the data. The test set consists of the same spoken sentences for each dialect region and allows a fair evaluation of the quality of speech technologies in different dialects. We train an ASR model on the training set and achieve an average BLEU score of 74.7 on the test set. The model beats the best published BLEU scores on 2 other Swiss German ASR test sets, demonstrating the quality of the corpus.
著者: Michel Plüss, Jan Deriu, Yanick Schraner, Claudio Paonessa, Julia Hartmann, Larissa Schmidt, Christian Scheller, Manuela Hürlimann, Tanja Samardžić, Manfred Vogel, Mark Cieliebak
最終更新: 2023-05-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.18855
ソースPDF: https://arxiv.org/pdf/2305.18855
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.bfs.admin.ch
- https://www.testingtime.com
- https://www.seniorsatwork.ch
- https://swissnlp.org/datasets/
- https://www.meta-net.eu/meta-share/meta-share-licenses/META-SHARE
- https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec/xlsr