研究者たちは、話し言葉をよりよく理解するためのテキストなしのアプローチを探求している。
― 1 分で読む
最先端の科学をわかりやすく解説
研究者たちは、話し言葉をよりよく理解するためのテキストなしのアプローチを探求している。
― 1 分で読む
新しいモデルは雑音やエコーを抑えて話しの明瞭さを向上させるよ。
― 1 分で読む
新しいデータセットが、医療画像のための音声ベースの質問システムで医療を強化する。
― 1 分で読む
プロンプトデザインを改善して書き起こしの精度を高める研究。
― 1 分で読む
新しいアプローチがノイズ環境の説明を使ってSERシステムを強化するよ。
― 1 分で読む
TTSとリアルデータを組み合わせると、音声認識システムが効果的に向上するよ。
― 1 分で読む
新しい方法で、静かなスピーチを理解できる音声に変換するのが改善されたよ。
― 1 分で読む
新しい方法が、複数の話者がいる騒がしい環境での音声分離を改善する。
― 1 分で読む
この研究では、音声信号の意義を評価する方法を提案しているよ。
― 0 分で読む
新しい方法は、自動システムでのささやき声の認識を向上させることを目指している。
― 1 分で読む
AIモデルは音声からテキストへの変換の精度を向上させる。
― 1 分で読む
録音された会話を分析しながらプライバシーを守る技術を調べる。
― 1 分で読む
新しいモデルが音声と視覚データを統合して、音声認識と翻訳を行うんだ。
― 1 分で読む
新しい方法がさまざまなアクセントの音声認識精度を向上させる。
― 1 分で読む
Wav2graphは、話された言語からナレッジグラフを作って、AIの理解を向上させるんだ。
― 1 分で読む
MulliVCは、言語間で声を驚くほど精度高くクリアに変換するよ。
― 1 分で読む
新しいロボットナビゲーションシステムは、感情を通じて話しかけられた指示を理解するんだ。
― 1 分で読む
TOGGLモデルは、重なり合うスピーチの状況での転写精度を向上させる。
― 1 分で読む
騒がしい環境での音声認識の質を向上させる方法。
― 1 分で読む
研究者たちは、さまざまな環境での機械音声適応を強化するためにSaSLaWを開発した。
― 1 分で読む
新しいデータセットが、性別や年齢に基づくスピーチモデルのバイアスを明らかにしてるよ。
― 1 分で読む
研究がスピーチモデルをもっと小さくて効率的にする方法を明らかにした。
― 1 分で読む
対抗訓練は合成音声と実音声でキーワードスポッティングの精度を高めるよ。
― 1 分で読む
新しいベンチマークが、言語や感情にわたる音声感情認識システムの評価を改善するよ。
― 1 分で読む
新しい方法が複数言語のASRモデルを強化し、過去の知識を保持してるよ。
― 1 分で読む
新しいアプローチでバイリンガルのスピーチにおけるコードスイッチフレーズの認識が向上する。
― 1 分で読む
長いデータシーケンスをうまく扱うための新しい方法。
― 1 分で読む
声のパターンが意味やテクノロジーのパフォーマンスにどう影響するかを調べる。
― 0 分で読む
ミックスされた音声トラックを特定する複雑さを探る。
― 1 分で読む
O-HuBERTは、内容と表現の情報を分けることで音声認識を向上させるよ。
― 1 分で読む
新しい方法が擬似ラベリング技術を使ってヒンディー語の音声認識を改善したよ。
― 1 分で読む
音響特徴を使って文語と口語タミル方言を分類するシステム。
― 1 分で読む
新しい方法が、ささやき声や普通の話し方の理解を高めてるよ。
― 1 分で読む
マイクロバッチクリッピングとそのモデルトレーニングへのメリットについての考察。
― 0 分で読む
研究によると、LLMが日本語の自動音声認識を強化することがわかったよ。
― 1 分で読む
この記事では、モデルが音のトーン、ストレス、ピッチアクセントをどう認識するかを調べています。
― 1 分で読む
SALSAは、音声認識精度を向上させるために、低リソース言語向けにASRと言語モデルを統合しているよ。
― 1 分で読む
新しい方法で、言語モデルを使ってASRの精度がアップして、より良い文字起こしができるようになったよ。
― 1 分で読む
新しいシステムがスピーカーの識別ミスを修正して、会話のトランスクリプトをもっとクリアにしてくれるよ。
― 1 分で読む
ハイブリッドフィルターバンクとニューラルネットワークを使ってスピーチの明瞭さを向上させる。
― 1 分で読む