インド手話翻訳の新しいデータセット
インドの聴覚障害者コミュニティのための大事なコミュニケーション改善リソース。
― 1 分で読む
手話は、世界中の多くの難聴の人にとって欠かせないものだよね。聞こえにくい人たちが効果的にコミュニケーションする手段を提供してくれる。ただ、難聴コミュニティと他の社会との間には大きなコミュニケーションギャップがあるんだ。このギャップを少なくするために、研究者たちは手話翻訳システムを作るために頑張ってるんだ。これらのシステムは手話を話し言葉に、またその逆にも翻訳することを目的としてる。でも、他の手話に比べて、インド手話(ISL)のリソースはあまりないんだよね。
この記事では、インド手話専用の新しい翻訳データセットを紹介するよ。このデータセットには、31,000対のISLと英語の文やフレーズが含まれてるんだ。私たちの知る限り、これは連続的なインド手話の翻訳用の最大のデータセットだよ。データセットの分析や初期の翻訳モデルのテスト結果も紹介するつもりだ。
ISLリソースの必要性
世界中で約4億3000万人が難聴で、そのうち約6300万人がインドにいるんだ。インドでは、手話が多くの難聴者にとって主なコミュニケーション手段なんだよね。最近、自然言語処理の技術は大幅に進化したけど、ISLを含む手話はまだ効率的な処理や翻訳ツールが不足してる。これは、効果的な翻訳システムを構築するために必要な大規模で注釈付きのデータセットが不足してるからなんだ。
ISLはインドの大きくて多様な人々にとって重要なんだ。公式な統計によれば、国内には約300人の認定手話通訳者しかいないんだ。この限られた利用可能性が、手話を知らない人とのコミュニケーションをさらに難しくしてる。私たちの目標は、ISLを英語に翻訳する新しいデータセットを作ることでこのギャップを埋めることだよ。
データセットの作成
新しく作ったデータセットは、難聴の子供たち向けの教育コンテンツを含んでいるんだ。多くの教育者や団体が、教育リソースの不足に対処するためにISLで標準化された資料を作ってる。データセットは、数学、科学、英語などの科目でよく使われる語彙に焦点を当ててる。
私たちは、インド全体で広く使われている教育資料に集中したんだ。このアプローチによって、さまざまなトピックをカバーし、語彙が関連性があって役立つようになってる。ISLはリソースの少ない言語だから、データセットを作るのは多くの課題がある、特にジェスチャーレベルでの手話の注釈に関してね。
正確性を確保するために、使われているサインを捉えた高品質のビデオデータが必要だった。難聴の学生向けに教育コンテンツを提供している団体からビデオを集めたよ。これらのビデオから音声を使って、個々の文やフレーズに対応するセグメントに分けたんだ。
注釈プロセス
手話ビデオを手動で注釈するのは、複雑で時間がかかる作業なんだ。私たちのデータセットのために、認定されたISL手話インストラクターと密接に協力して、翻訳のランダムなサブセットを検証したよ。インストラクターは難聴の人で、翻訳が正確であることを確認する専門知識を活かしてくれたんだ。
データセット内の各ビデオには、ISLインストラクターが提供した1つのリファレンス翻訳が付いてる。元の翻訳とインストラクターの解釈を比較することで、翻訳ペアの質を評価できる。
初期テストと結果
サインランゲージのトランスフォーマーベースのアーキテクチャを使って翻訳をテストするためのベースラインモデルを作ったんだ。サインビデオを英語の文に変換することが目的だった。初期の結果から、ISLを翻訳するのが難しいことがわかった。得られたスコアは、私たちが望むほど高くはなかったんだ。
使用したモデルは、ビデオ内の動きやジェスチャーを処理するように設計されてる。サインの手の形、動き、顔の表情など、さまざまな側面を分析するんだ。これらの特徴は、手話で意味を伝えるのに重要なんだ。このモデルは、ビデオに表示されるサインに基づいて英語の文を生成しようとするんだ。
結果はモデルが理想的なレベルではまだ動作してないことを示しているけれど、この作業は改善の大きな機会を浮き彫りにしているんだ。ISLの翻訳で直面している課題は、さらなる研究や開発の動機付けになるかもしれない。
今後の方向性
データセットと初期テストに進展はあったけど、まだまだやることがたくさんあるよ。データセットを拡張して、もっと信頼性のある翻訳システムを作る予定なんだ。目指すのは、もっと多くのビデオやフレーズを含めて、データセットのサイズと多様性を増やすことなんだ。
将来的には、ISL特有の知識を取り入れたモデルも作る予定だよ。ISLに特有の言語的特徴を統合することで、全体的な翻訳システムのパフォーマンスを向上できると考えてるんだ。
倫理的配慮
データセットを作成する際には、倫理的な影響を考慮して慎重に進めたよ。私たちは、著作権を侵害しないように、公開されている教育ビデオを使用したんだ。データセットの全ての貢献者、特に手話インストラクターは、ボランティアとして参加してくれた。
難聴コミュニティへのリソースのアクセスを支援することで、彼らの学びやコミュニケーション能力にポジティブな影響を与えられたらいいなと思ってる。データセットは教育目的に役立つように作成されていて、コンテンツに関与する人々の権利を尊重するよう努めているんだ。
結論
要するに、インド手話を英語に翻訳するための新しいデータセットを紹介したよ。これには31,000対のISLと英語の文が含まれてる。データセットの分析を提供し、初期の翻訳モデルの開発について報告した。こうしたモデルは手話翻訳の課題を明らかにし、さらにこの分野を探求することを促しているんだ。
インド手話のリソースや研究がもっと必要なことは明らかだよ。私たちのデータセットは、既存のギャップを埋め、インドの難聴者のコミュニケーションを向上させることを目指してる。翻訳システムの将来的な進展や、それがコミュニティに与える意義深い影響を楽しみにしてるよ。
タイトル: ISLTranslate: Dataset for Translating Indian Sign Language
概要: Sign languages are the primary means of communication for many hard-of-hearing people worldwide. Recently, to bridge the communication gap between the hard-of-hearing community and the rest of the population, several sign language translation datasets have been proposed to enable the development of statistical sign language translation systems. However, there is a dearth of sign language resources for the Indian sign language. This resource paper introduces ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) consisting of 31k ISL-English sentence/phrase pairs. To the best of our knowledge, it is the largest translation dataset for continuous Indian Sign Language. We provide a detailed analysis of the dataset. To validate the performance of existing end-to-end Sign language to spoken language translation systems, we benchmark the created dataset with a transformer-based model for ISL translation.
著者: Abhinav Joshi, Susmit Agrawal, Ashutosh Modi
最終更新: 2023-07-11 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.05440
ソースPDF: https://arxiv.org/pdf/2307.05440
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://islrtc.nic.in/dr-andesha-mangla
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://acl-org.github.io/ACLPUB/formatting.html
- https://2023.aclweb.org/calls/main_conference/
- https://aclweb.org/anthology/anthology.bib.gz
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://en.wikipedia.org/wiki/National
- https://def.org.in/
- https://www.youtube.com/watch?v=429wv1kvK_c
- https://www.youtube.com/watch?v=SInKhy-06qA
- https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html
- https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss
- https://nhm.gov.in/index1.php?lang=1&level=2&sublinkid=1051&lid=606
- https://islrtc.nic.in/
- https://github.com/Exploration-Lab/ISLTranslate