新しい手法がテキストデータの統合を通じてASRの性能を向上させる。
― 1 分で読む
最先端の科学をわかりやすく解説
新しい手法がテキストデータの統合を通じてASRの性能を向上させる。
― 1 分で読む
テキストインジェクションは、プライバシーを守りつつ個人情報を認識するのに役立つよ。
― 1 分で読む
Radio2Textは、騒がしい環境でのリアルタイム音声認識にmmWave信号を使ってるよ。
― 1 分で読む
この研究は、トレーニング中にエラーが起こりやすい部分に注目することでG2Pモデルを強化してるよ。
― 1 分で読む
スピーチ分析のためのフォルマントトラッキングの精度を向上させる方法を見つけよう。
― 1 分で読む
新しい方法が言語モデルのスピーチ処理と生成を改善してるよ。
― 1 分で読む
新しい技術で騒がしい環境でも音声がクリアに聞こえるようになったよ。
― 1 分で読む
新しい方法で、利用可能な読み上げ音声データを使ってキーワードスポッティングが向上したよ。
― 1 分で読む
新しいアプローチがASRシステムの自信推定を強化して、精度を向上させる。
― 1 分で読む
この研究は、オーディオフィルターバンク作成におけるコンボリューショナルネットワーク(convnet)の使用に関する問題を探っているよ。
― 1 分で読む
この記事では、より高い精度を目指したスピーカーダイアライゼーションの進展について言語モデルを使って探ります。
― 1 分で読む
新しいシステムは文脈に応じたプロンプトを使って音声認識を強化するよ。
― 1 分で読む
EnCodecMAEは、自己教師あり学習とオーディオコーデックを組み合わせて、オーディオタスクのパフォーマンスを向上させるんだ。
― 1 分で読む
言語を超えてスピーチのキーワードを認識する柔軟な方法を紹介します。
― 1 分で読む
PIAVEは、話し手が顔を背けても機械が声をクリアに抽出するのを助けるよ。
― 1 分で読む
音声プライバシー研究を強化するための柔軟なフレームワークを紹介します。
― 1 分で読む
新しい方法がスピーチ分類モデルの理解を簡単にするよ。
― 1 分で読む
M-AUDIODECは、スピーカーの位置と音質を保ちながらマルチチャネルオーディオを圧縮するよ。
― 1 分で読む
研究がスマートイヤフォンの音声クリアさを高める新しいモデルを明らかにした。
― 0 分で読む
新しい方法でロボットが話された指示を正確に追う能力が向上したよ。
― 1 分で読む
新しい方法が、偽のスピーチを効果的に検出する能力を向上させてるよ。
― 1 分で読む
新しい方法が、量子化と適応を使って、個々のユーザー向けにASRモデルを強化するよ。
― 1 分で読む
新しいモデルは、音声認識の効率と応答性を改善するために適応してるよ。
― 1 分で読む
ベトナム語や他のリソースが少ない言語のために、Whisperの音声認識を強化中。
― 1 分で読む
この研究は、聴覚能力が騒がしい環境での言葉の理解にどう影響するかを調べてるよ。
― 1 分で読む
オーディオデータを最適化してモデルのトレーニングを良くするためにk-meansクラスタリングを使う。
― 1 分で読む
音声特徴に基づいて最適なASRモデルを選ぶ方法。
― 1 分で読む
MySTは子供たちの科学学習をバーチャルチュータリングで向上させることを目指しているよ。
― 1 分で読む
M2MeT 2.0とその会議トランスクリプションへの影響についての考察。
― 1 分で読む
この研究は、モデル圧縮が騒がしい環境での音声認識にどのように影響するかを調べている。
― 1 分で読む
新しいモデルが、音声と音の理解を同時に改善するんだ。
― 0 分で読む
騒がしい環境でのスピーチ抽出をもっと良くする新しいモデルを紹介します。
― 1 分で読む
研究は、セグメント化されていない音声のためのASRシステムの改善に焦点を当てている。
― 1 分で読む
異なる性別間での音声認識のパフォーマンスギャップを調査する。
― 0 分で読む
LLMは音声認識システムの精度とエラー修正を向上させるんだ。
― 1 分で読む
PP-MeTは、複数の話者がいる会議の文字起こしの精度を向上させることを目指しているよ。
― 1 分で読む
この研究は、いろんな条件でスピーチの明瞭さを改善するモデルを提示してるよ。
― 1 分で読む
このプロジェクトは、グジャラート語と英語が混ざったスピーチの認識を向上させることを目指してるよ。
― 1 分で読む
新しいモデルは、音声とテキストを統合して、より良いスピーチ分類を実現してるよ。
― 1 分で読む
大きな部屋での会議用にトランスクリプション技術を改善する新しい取り組み。
― 1 分で読む