新しいデータセットが、性別や年齢に基づくスピーチモデルのバイアスを明らかにしてるよ。
― 1 分で読む
最先端の科学をわかりやすく解説
新しいデータセットが、性別や年齢に基づくスピーチモデルのバイアスを明らかにしてるよ。
― 1 分で読む
研究がスピーチモデルをもっと小さくて効率的にする方法を明らかにした。
― 1 分で読む
対抗訓練は合成音声と実音声でキーワードスポッティングの精度を高めるよ。
― 1 分で読む
新しいベンチマークが、言語や感情にわたる音声感情認識システムの評価を改善するよ。
― 1 分で読む
新しい方法が複数言語のASRモデルを強化し、過去の知識を保持してるよ。
― 1 分で読む
新しいアプローチでバイリンガルのスピーチにおけるコードスイッチフレーズの認識が向上する。
― 1 分で読む
長いデータシーケンスをうまく扱うための新しい方法。
― 1 分で読む
声のパターンが意味やテクノロジーのパフォーマンスにどう影響するかを調べる。
― 0 分で読む
ミックスされた音声トラックを特定する複雑さを探る。
― 1 分で読む
O-HuBERTは、内容と表現の情報を分けることで音声認識を向上させるよ。
― 1 分で読む
新しい方法が擬似ラベリング技術を使ってヒンディー語の音声認識を改善したよ。
― 1 分で読む
音響特徴を使って文語と口語タミル方言を分類するシステム。
― 1 分で読む
新しい方法が、ささやき声や普通の話し方の理解を高めてるよ。
― 1 分で読む
マイクロバッチクリッピングとそのモデルトレーニングへのメリットについての考察。
― 0 分で読む
研究によると、LLMが日本語の自動音声認識を強化することがわかったよ。
― 1 分で読む
この記事では、モデルが音のトーン、ストレス、ピッチアクセントをどう認識するかを調べています。
― 1 分で読む
SALSAは、音声認識精度を向上させるために、低リソース言語向けにASRと言語モデルを統合しているよ。
― 1 分で読む
新しい方法で、言語モデルを使ってASRの精度がアップして、より良い文字起こしができるようになったよ。
― 1 分で読む
新しいシステムがスピーカーの識別ミスを修正して、会話のトランスクリプトをもっとクリアにしてくれるよ。
― 1 分で読む
ハイブリッドフィルターバンクとニューラルネットワークを使ってスピーチの明瞭さを向上させる。
― 1 分で読む
新しいモデルは音声と視覚の入力をうまく組み合わせて、音声認識を強化してるよ。
― 1 分で読む
新しい方法が、複数の話者がいる難しい状況での音声認識を改善するんだ。
― 1 分で読む
新しい方法が音声認識を改善するために、知識移転で音の順序を保つことに成功したんだ。
― 1 分で読む
この研究は、ノイズがどのようにスピーチ認識のレジリエンスを強化するかを調べているよ。
― 1 分で読む
革新的な軽量トランスデューサーが音声認識の効率と正確性を向上させる。
― 1 分で読む
この記事は、効果的なスピーチ認識のための離散的および連続的な音声表現を比較しているよ。
― 1 分で読む
研究によると、スピーチモデルのニューロンが音の重要な特徴をどう認識するかがわかったよ。
― 1 分で読む
この研究は、セルフアテンションがトルコ語と英語のスピーチ認識にどう影響するかを調べてる。
― 1 分で読む
自己教師あり学習のアプローチは、ラベル付き音声データの必要性を減らすんだ。
― 1 分で読む
TF-Mambaは、時間と周波数データを組み合わせた新しいアプローチで音の定位を強化するよ。
― 1 分で読む
モジュラーASRシステムの研究は、騒がしい環境でのパフォーマンスを向上させることを目指してるよ。
― 1 分で読む
DENSEを紹介するよ。これはダイナミック埋め込みを使ってターゲットスピーチの抽出を強化する方法なんだ。
― 1 分で読む
この方法は、音声出力で珍しい名前の認識精度を向上させるよ。
― 1 分で読む
資源が少ない言語で視覚的手がかりを使って話し言葉の認識を向上させる。
― 1 分で読む
BigCodecは低ビットレートの音声伝送で音質を向上させるよ。
― 1 分で読む
この記事では、音声タスクのためにトランスフォーマーモデルを簡素化することの利点について話してるよ。
― 1 分で読む
Sortformerはスピーカーダイアライゼーションと音声認識(ASR)を統合して、音声処理を改善してるんだ。
― 1 分で読む
新しい手法が革新的なデータセットを通じて話し言葉の理解を深める。
― 1 分で読む
新しい方法が音声の明瞭さを高めて、人とロボットの会話を改善してるよ。
― 1 分で読む
さまざまな分野での生成モデルの最新の進展を調査中。
― 1 分で読む