より良いデータセットで手話検出を改善する
署名者の重複に対処して手話検出の精度を向上させる。
― 1 分で読む
サインランゲージの検出は、誰かがサインランゲージを使っているかどうかを見極めることだよ。これは特にビデオ通話や、サインランゲージを認識したり翻訳したりするシステムをトレーニングするデータを集める上で、すごく重要になってきてる。でも、今のサインランゲージ検出のテストに使われてるデータセットは、トレーニングとテストの段階でサイナーが混ざっちゃってるから、正確な結果を出してない可能性があるんだ。
サインランゲージ検出って何?
サインランゲージは、聴覚障害者のコミュニティが使う自然言語だよ。手の形や顔の表情、体の姿勢など、いろんな体の動きでメッセージを伝えるんだ。従来のコンピュータシステムは主に話し言葉に焦点を当ててるから、サインランゲージは多くのプラットフォームであまり目立たないんだよね。
リモートワークが増えてきたことで、ビデオ会議を可能にするソフトウェアが普及してきたけど、これらのプログラムはアクティブなスピーカーを強調することが多い。残念なことに、サインランゲージを使う人がサインを始めると、隠れちゃってコミュニケーションがうまくいかなくなることがある。そこで、このギャップを埋めるために、サインランゲージの検出ツールを改善する必要があるんだ。
サインランゲージ検出の現状
サインランゲージ検出に関する研究は増えてきてるけど、まだまだ難しい分野だよ。ほとんどのサインランゲージ検出システムは、まずビデオから重要な特徴を抽出して、それからサインを使ってる人がいるかどうかを分類する二段階のプロセスをとってる。
例えば、いくつかの研究はビデオフレームを取り込み、特徴を抽出してサインをしているかどうかを判断するモデルを使ってる。結構高い精度を達成してるけど、詳しく見てみると、これらの結果が信頼できない可能性があるんだ。主に同じサイナーがトレーニングとテストの両方に登場して、オーバーラップが生じてるからね。
サイナーのオーバーラップの問題
「サイナーオーバーラップ」って言うのは、同じ人がトレーニングデータセットとテストデータセット両方に含まれちゃうことを指すよ。これがあると、システムが実際よりも良く働いてるように見えちゃう。モデルが特定のサイナーをトレーニングで見たことがあれば、テストでも同じサイナーに出くわした時に良いパフォーマンスを示す可能性が高い。これが問題なのは、新しいサイナーや異なるサイナーに対してどれだけうまく機能するかが示されないから。
この問題を説明するために、我々はサインランゲージ検出に使われる二つの主要なデータセットを分析したんだ。DGSコーパスとSigning in the Wild。どちらのデータセットも、トレーニングとテストグループの間でサイナーの重複がかなりあった。オーバーラップの影響を測定したら、重複のあるデータセットとないものを比較した際の精度が顕著に下がってるのがわかったよ。
提案された解決策
サインランゲージ検出システムの評価方法を改善するために、サイナーのオーバーラップがない新しいデータセットを作ることを提案するよ。あるサイナーがトレーニング、開発、テストのどれか一つのデータセットだけに登場するようにすれば、これらのシステムのパフォーマンスをよりリアルに評価できるんだ。
DGSコーパスについては、新しいデータの分け方を開発して、トレーニングセットとテストセットにサイナーがいないようにしたよ。この取り決めで、システムの能力をより明確に把握できるようになる。Signing in the Wildデータセットにも同様のことをしたよ。
データセットの調査:DGSコーパス
DGSコーパスは、ドイツのサインランゲージに関するビデオ集で、1150時間以上の録画素材があるんだ。そのデータの一部だけがサインをしている時を示すように注釈が付けられてる。既存のDGSコーパスの分け方はサイナーが混ざってることが示唆されて、その重複を特定して量を測ったよ。
以前の研究が提案した元の分け方を分析した結果、同じサイナーがトレーニングセットとテストセットの両方に現れてることがわかった。元のデータセットを分解して、どれだけのサイナーがこれらの段階で重複しているかを示したんだ。トレーニングセットと開発セットで88人のサイナーが共通しているのは衝撃的だった。重複の影響を示すために、元のテストセットを重複の有無で分割してみたよ。
Signing in the Wildデータセットの分析
Signing in the Wildデータセットは、YouTubeから集めたビデオで、さまざまなサインランゲージや設定を含むことを目指してる。このデータセットには、サインをする例だけでなく、話したり他の活動をしている例も含まれてる。
DGSコーパスと同じように、Signing in the Wildデータセットでも同じサイナーのビデオが複数の分け方に現れることがあって、精度の結果に影響するんだ。元の分け方を使った初期の実験では、重複があるためにパフォーマンスが良く見えたけど、重複のない新しい分け方を作ったら、精度が下がるだろうと思ってる。これはより正直なパフォーマンス評価を反映すると思う。
サイナーのクラスタリングによるデータ管理の改善
DGSコーパスを使う上での一つの課題は、ビデオ内のサイナーにラベルがついてないことだ。そのため、私たちは顔をクラスタリングする方法を使って、抽出した特徴に基づいて似た顔をグループに分けたよ。クラスタリングアルゴリズムを使って、彼らが登場しているビデオに基づいてサイナーを特定してグループ化したんだ。
結果は、使用する画像の数によって精度が異なることを示したよ。画像が多いほど精度が良くなることがわかった。でも、すべてのサイナーを完璧に特定するのはまだ難しかった。
結論
DGSコーパスとSigning in the Wildデータセットの分析結果は、サイナーのオーバーラップがサインランゲージ検出システムの効果に大きな影響を与えることを示してるよ。精度を高めて一般化を確保するために、このオーバーラップを排除する新しいデータセットを提案したんだ。
今後は、サイナーのオーバーラップを減らすことが、サインランゲージ検出システムを公平で透明性のあるものにするために重要だよ。それに、クラスタリング法はサインランゲージデータの管理を改善しつつ、プライバシーの問題も解決する助けになるんだ。
全体として、より信頼性のあるデータセットを作り、オーバーラップなしでサインランゲージ検出のパフォーマンスを評価することで、聴覚障害者のためのより良いツールを作り、特にリモートコミュニケーションにおけるアクセスの向上に努めることができると思うよ。
タイトル: On the Importance of Signer Overlap for Sign Language Detection
概要: Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.
著者: Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller
最終更新: 2023-03-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.10782
ソースPDF: https://arxiv.org/pdf/2303.10782
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。