新しい方法が、機械がスピーチの感情を認識するのを改善してるよ。
― 1 分で読む
最先端の科学をわかりやすく解説
新しい方法が、機械がスピーチの感情を認識するのを改善してるよ。
― 1 分で読む
Frierenモデルは、動画の音質と同期を改善するよ。
― 1 分で読む
新しい方法が、シンプルなシンセサイザーを使ってテキストからユニークな音を生成する。
― 1 分で読む
新しい方法で、騒がしい環境でも表現力を保ちながらスピーチ翻訳が改善されたよ。
― 1 分で読む
動画コンテンツに合った音楽を効果的に作る新しい方法。
― 1 分で読む
Seed-TTSは、いろんなアプリ用にテキストからリアルな音声を作るよ。
― 1 分で読む
新しい方法で、自己教師あり学習を使ってスピーチから歌への変換が改善されたよ。
― 1 分で読む
StreamSpeechはリアルタイムの音声翻訳を効率よく高品質に改善するよ。
― 1 分で読む
新しいモデルは、複数のデコード方法を使って音声認識を向上させてる。
― 1 分で読む
アラビア方言のASRを効率的なモデル技術で強化する研究。
― 1 分で読む
BLSP-Emoを紹介するよ。これは、スピーチと感情を理解して、より良いインタラクションを実現するモデルなんだ。
― 1 分で読む
最近の研究で、音やビジュアルを使ったデータ解釈に関する重要な発見が再現されたよ。
― 0 分で読む
音を視覚と結びつけるシステムで、機械の理解を向上させる。
― 1 分で読む
新しいモデルARDiTがテキスト読み上げ合成と音声編集を改善したよ。
― 1 分で読む
SPICEを紹介するよ、コンテキスト情報を使ってAIとのやりとりを改善するタスクだよ。
― 1 分で読む
研究がMOSAデータセットを紹介して、音楽の視覚的および聴覚的側面の理解を深める。
― 1 分で読む
mHuBERT-147は、多言語の音声を効率的に処理するよ。
― 1 分で読む
音声キャプショニングに対する新しいアプローチは、ペアデータへの依存を減らす。
― 1 分で読む
新しい方法で機械が人間のスピーチの感情を認識するのが良くなってる。
― 1 分で読む
実世界の脅威に対する音声ウォーターマーキング手法の脆弱性を調査中。
― 1 分で読む
PianoMotion10Mはピアノ学習者のために詳しい手の動きを提供するよ。
― 1 分で読む
新しいモデルが動画の視覚的アクションとの音の一致を向上させる。
― 1 分で読む
新しいモデルがバーチャル環境でのリアルな音響体験を向上させる。
― 1 分で読む
この研究は、都市部での歩行者の動きを追跡するための音声方法を調査している。
― 1 分で読む
新しいデータセットがマルチメディアコンテンツのためのフォーリー音声の作成を改善する。
― 1 分で読む
新しい方法で、騒がしい環境でもスピーチ認識が良くなる適応技術が使われてるんだ。
― 1 分で読む
SPEARは最小限のデータ収集で、3D空間での音の振る舞いを予測するよ。
― 1 分で読む
新しい方法で混合言語のスピーチを英語に翻訳するのが上手くなったよ。
― 1 分で読む
新しい方法で、厳しいラジオ環境でもスピーカー認証の精度が向上するんだ。
― 1 分で読む
新しい手法がリズムの変化を狙って、こっそりとしたスピーチ攻撃を行う。
― 1 分で読む
GAMAは音と語の知見を融合させて音声処理を改善するよ。
― 1 分で読む
GigaSpeech 2は、音声認識を改善するためのリソースの少ない言語向けの膨大なデータセットを提供してるよ。
― 1 分で読む
新しいモデルがテキスト読み上げ技術を効率的に適応させて強化した。
― 1 分で読む
声道の動きを使ってスピーチ分析と合成を最適化する新しい方法。
― 1 分で読む
この研究は、ジェスチャーがバーチャルエージェントからの学習にどんな影響を与えるかを調べてるよ。
― 0 分で読む
オンラインスピーカーダイアリゼーションについて学んで、その様々なアプリケーションでの重要性を理解しよう。
― 1 分で読む
新しいベンチマークツールが、さまざまな音声処理タスクのために離散音声トークンを評価するよ。
― 1 分で読む
自己類似行列とアテンションシステムを使った音楽生成の新しい方法。
― 1 分で読む
新しい手法が、ペアになってないデータとGANを使ってギターアンプのモデリングを改善してるよ。
― 1 分で読む
音声モデルがどうやって予測をするかを理解するための新しい方法。
― 1 分で読む