AIを使ってリモート会議のインクルーシブさを向上させる
新しいシステムは、機械学習を使ってリモート会議への参加を増やすことを目指してるよ。
― 1 分で読む
目次
会議は、会社や組織で人々がコミュニケーションをとる一般的な方法だよね。COVID-19のパンデミック以降、こうした会議の多くがオンラインに移行したことで、リモート会議がめっちゃ増えた。でも、全ての会議がインクルーシブってわけじゃなくて、みんなが話す機会を持てるわけでもないんだ。最近の調査では、リモート参加者の多くが、自分の意見を言いたくても現在話してる人をinterruptするのが難しいと感じているって。これって問題で、参加率が低くなったり、インクルーシブじゃなくなったりしちゃうんだよね。
これを解決するために、Microsoft Teamsの「バーチャル・レイズ・ハンド(VRH)」という機能が役立つことがわかったんだ。この機能を使えば、リモート参加者が話したいときにサインを送ることができるんだ。私たちの研究では、VRHを使うと会議がよりインクルーシブになることが示されているけど、実際には多くの会議でこの機能が使われていないことに気づいたんだ。そこで、誰かが話そうとしてチャンスがなかったときの状況を予測するための機械学習を使ったシステムを開発したよ。これを「失敗したインタラプション」と呼んでるんだ。私たちの目標は、ユーザーがVRH機能を使って会議への参加を促すことだよ。
会議におけるインクルーシブさの必要性
多くの会社は、情報を共有したり、意思決定をしたり、コラボレーションをするために会議に頼っているよね。でもリモート会議は難しいことがある。参加者はしばしば疎外感を感じていて、リモートの人はスピーカーをinterruptしたり、自分の意見を共有するのをためらうことがある。参加者からのフィードバックによると、インクルーシブさを向上させる主な方法の一つは、リモート参加者が話したいときに発言できるようにすることなんだ。
研究によると、全員が参加することで会議がよりインクルーシブになる傾向があるけど、リモート参加者は会話に参加しづらいことが多い。この問題は、リモート参加者同士のコミュニケーションを促す機能が必要だってことを浮き彫りにしてるんだ。
バーチャル・レイズ・ハンド(VRH)の役割
Microsoft TeamsのVRH機能は、会議中に参加者がバーチャルに手を挙げることを可能にするんだ。これにより、全員が平等に発言できる機会を得られるように設計されているんだけど、その潜在的な利点にもかかわらず、多くの会議でこの機能はあまり使われていないことがわかった。VRHが使われると、誰かが貢献したいというサインを送ることで、会議がよりインクルーシブになるんだ。
VRHの利用を促すために、私たちは参加者が話そうとしてもできなかったときの状況を検出するシステムを作ったよ。この状況が私たちの定義する「失敗したインタラプション」なんだ。こうした瞬間を特定することで、参加者にVRH機能を使うようリマインドできるんだ。それが結果的に、よりインクルーシブな会議につながるんだよ。
失敗したインタラプションを検出するシステムの作成
私たちのシステムを効率的にするためには、さまざまなタイプのインタラプションを含む良いデータセットが必要だったんだ。250時間のリモート会議からデータを集めて、さらに録音も作成した結果、4万以上のオーディオクリップを使ってモデルをトレーニングできることになったよ。これらのクリップには、異なるタイプのインタラプションを区別するためのラベルが付けられたんだ。
一つの大きな課題は、データセットが正確にラベル付けされていることを確保することだったよ。そこで、クラウドソーシングのアプローチを使って、複数の人がオーディオクリップをラベル付けしたんだ。これにより、私たちのニーズを満たす信頼できるデータセットを得ることができたんだ。
データの要件
集めたデータは、3人以上の参加者がリモートで話す会議に焦点を当てていたよ。男性と女性のスピーカーが異なる地域から混ざるようにして、多様性を持たせたんだ。会話は主に英語だけど、いろんなアクセントが含まれているよ。録音の音質に関しても基準を設けて、正確にインタラプションを検出できるように背景ノイズが最小限のものにしたんだ。
私たちのモデルが効果的に機能するためには、高いラベリング精度が必要だったんだ。クリップが正しく分類されることを保証する基準を設けることが、システムのトレーニングと望ましい結果を得るために重要だったんだよ。
データのラベリング方法
データセットをラベリングするために、私たちは二段階のプロセスを採用したよ。まず、録音内でスピーチが重なるときに、技術を使ってそれを検出したんだ。それから、そのオーバーラップをクラウドワーカーの協力を得てラベル付けしたんだ。正確にデータを分類できるように、詳細な指示を提供したんだ。
さらに、社内の専門家にもクリップの一部をラベル付けしてもらって、品質のベンチマークを確立したよ。彼らの仕事は、私たちのラベリングプロセスを洗練させ、精度基準を満たすのに役立ったんだ。
検出モデルのトレーニング
ラベル付けされたデータセットを作成した後、私たちは機械学習モデルをトレーニングして、失敗したインタラプションを認識できるようにしたんだ。モデルはオーディオクリップを処理して、誰かが発言しようとしているけどできなかったときのパターンを学ぶんだ。失敗したインタラプションとカジュアルな同意やバックチャンネルコメントを区別できるんだ。
私たちは、モデルが失敗したインタラプションを検出するのにうまく機能していることを観察したよ。参加者が話そうとしているけど、別のスピーカーに overshadow されているときの識別能力が強いんだ。
VRH機能の影響
VRH機能の影響を測定するために、VRHが使われた会議とそうでない会議を比較したんだ。その結果、VRHを利用することで会議のインクルーシブ度が改善されたことがわかったんだ。これは、参加者にVRH機能を使うよう促すことで、リモート会議中のコミュニケーションを促進できるってことを示唆しているんだ。
私たちのモデルを実装することで、参加者がinterruptしようとしても成功しなかったときにリアルタイムで提案を送ることができるようになるんだ。このリマインダーが、彼らにVRHを利用するよう促すんだ。そうすることで、みんなが議論に参加しやすくなるんだよ。
今後の取り組みとデータセットの拡張
初期の成果は有望だけど、私たちはデータセットを拡張する必要があることを認識しているよ。異なる言語や、さまざまなノイズレベルやネットワーク設定の会議の録音を含める予定なんだ。これによって、モデルをさらに洗練させて、さまざまな状況でうまく機能するようにするんだ。
さらに、このトピックについての研究を刺激するためにチャレンジを開催する予定なんだ。データセットやモデルを公開することで、他の人に会議のインクルーシブさを向上させる解決策を探求してもらえることを期待してるんだ。
結論
要するに、私たちはスピーチのオーバーラップを分析することで、リモート会議のインクルーシブさを向上させることを目指すシステムを開発したよ。失敗したインタラプションに焦点を当てることで、この課題に取り組むための初の正確にラベル付けされたデータセットを作ったんだ。私たちの機械学習モデルは、失敗したインタラプションをうまく特定し、VRH機能を使うことで会議のインクルーシブさを大きく向上させることができるってことがわかったんだ。
私たちは、これらの成果をMicrosoft Teamsに統合して、会議の効果や参加度の向上を測定することを楽しみにしているよ。まだまだやるべきことは多いけど、リモート環境でよりインクルーシブな会話を促進するための今後の展開にワクワクしているんだ。
タイトル: Improving Meeting Inclusiveness using Speech Interruption Analysis
概要: Meetings are a pervasive method of communication within all types of companies and organizations, and using remote collaboration systems to conduct meetings has increased dramatically since the COVID-19 pandemic. However, not all meetings are inclusive, especially in terms of the participation rates among attendees. In a recent large-scale survey conducted at Microsoft, the top suggestion given by meeting participants for improving inclusiveness is to improve the ability of remote participants to interrupt and acquire the floor during meetings. We show that the use of the virtual raise hand (VRH) feature can lead to an increase in predicted meeting inclusiveness at Microsoft. One challenge is that VRH is used in less than 1% of all meetings. In order to drive adoption of its usage to improve inclusiveness (and participation), we present a machine learning-based system that predicts when a meeting participant attempts to obtain the floor, but fails to interrupt (termed a `failed interruption'). This prediction can be used to nudge the user to raise their virtual hand within the meeting. We believe this is the first failed speech interruption detector, and the performance on a realistic test set has an area under curve (AUC) of 0.95 with a true positive rate (TPR) of 50% at a false positive rate (FPR) of
著者: Szu-Wei Fu, Yaran Fan, Yasaman Hosseinkashi, Jayant Gupchup, Ross Cutler
最終更新: 2023-04-04 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.00658
ソースPDF: https://arxiv.org/pdf/2304.00658
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。