新しい方法は音声を使って機械の発音精度を向上させるんだ。
Siqi Sun, Korin Richmond
― 1 分で読む
最先端の科学をわかりやすく解説
新しい方法は音声を使って機械の発音精度を向上させるんだ。
Siqi Sun, Korin Richmond
― 1 分で読む
最新の記事
研究によると、警察の無線通信の音声認識には難しさがあるみたい。
Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff
― 1 分で読む
PDMXはAI開発のための公共ドメインのシンボリック音楽の豊富なコレクションを提供してるよ。
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 1 分で読む
ある研究によると、iベクトルがスピーカー認識において複雑なモデルと競争できることがわかった。
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 1 分で読む
デザイン選択がスピーチファンデーションモデルにどう影響するかの研究。
Li-Wei Chen, Takuya Higuchi, He Bai
― 1 分で読む
新しい方法が、順位測定を使って自己教師あり音声モデルを評価する。
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 1 分で読む
研究は、ビジョントランスフォーマーを使ったロボットの感情認識の進展を強調してる。
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 1 分で読む
研究は呼吸器疾患における公正な診断の重要性を強調してるよ。
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 1 分で読む
MusicLIMEは、音声や歌詞を通じて音楽を分析するAIのアプローチを説明するのを助ける。
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 1 分で読む
ヴァリエーショナル・クオンタム・ハーモナイザーで、量子コンピュータが音楽のクリエイティビティをどう変えているかを発見してみよう。
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 1 分で読む
MCMambaモデルは、騒がしい環境での音声品質を空間的およびスペクトル情報を使って改善するんだ。
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 1 分で読む
この研究は、騒がしい条件下での音声品質を向上させるための低遅延手法を評価してるよ。
Haibin Wu, Sebastian Braun
― 1 分で読む
2Dと3Dのジェスチャーがバーチャルキャラクターのコミュニケーションにどう影響するかを調べる。
Téo Guichoux, Laure Soulier, Nicolas Obin
― 1 分で読む
騒がしい環境での音声認識システムを向上させる研究。
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 1 分で読む
研究者たちは、スピーチを使ってさまざまな健康状態を特定したり監視したりしているよ。
Catarina Botelho, Alberto Abad, Tanja Schultz
― 1 分で読む
RF-GMLは、基準信号なしで音質を測定するんだ。
Arijit Biswas, Guanxin Jiang
― 1 分で読む
ルームイコライゼーションがいろんな環境での音の体験をどう向上させるかを学ぼう。
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 1 分で読む
StyleTTS-ZSは、手間いらずで高品質な音声合成を提供してくれるよ。
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 1 分で読む
新しい方法がシンセサイズされたアンサンブル歌唱を、歌手同士の相互作用をモデル化することで強化する。
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 1 分で読む
新しいフレームワークが音の関係をうまくモデル化して、音声認識を強化してる。
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 0 分で読む
新しいマスキング手法が、話者のアイデンティティを音声から分離することで、声の変換を改善したよ。
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 1 分で読む
革新的な技術が限られたリソースでも音楽-テキストモデルのトレーニングを向上させる。
Ilaria Manco, Justin Salamon, Oriol Nieto
― 1 分で読む
新しい方法で、さまざまな音楽スタイルや文化の保存のためのオーディオタグ付けが強化されてるよ。
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
― 1 分で読む
家庭の音のデータセットは、高齢者の安全と快適さを促進します。
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh
― 1 分で読む
SD-Codecは、異なる音の種類をうまく分けて音声処理を改善するよ。
Xiaoyu Bie, Xubo Liu, Gaël Richard
― 1 分で読む
この記事では、アクセント付きのスピーチの認識を向上させる方法について話してるよ。
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 1 分で読む
新しいアプローチがスプーフ音声検出の解釈性を高める。
Manasi Chhibber, Jagabandhu Mishra, Hyejin Shim
― 0 分で読む
新しい単一段階TTSシステムが音声生成を向上させる様子。
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh
― 1 分で読む
この研究はリソースが少ない言語の音声モデルの課題について扱ってるよ。
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 1 分で読む
この研究は、リソースが豊富なデータを使ってあまり一般的じゃない言語の感情認識システムを強化するもので。
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou
― 1 分で読む
モデルは多言語環境でのスピーチタスクを改善し、コードスイッチングの課題に対処する。
Jing Xu, Daxin Tan, Jiaqi Wang
― 1 分で読む
DeFT-Mambaは、騒がしい環境での音の分離と分類を改善するよ。
Dongheon Lee, Jung-Woo Choi
― 1 分で読む
CADA-GANは、いろんな録音環境でASRシステムの性能を向上させるよ。
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 1 分で読む
EVAは音声と視覚の信号を組み合わせて、スピーチ認識の精度を向上させるんだ。
Yihan Wu, Yifan Peng, Yichen Lu
― 1 分で読む
新しいフレームワークが、賑やかな環境での音声認識を簡単にしてくれるよ。
Jinhan Wang, Weiqing Wang, Kunal Dhawan
― 1 分で読む
Llama-AVSRは音声と視覚の入力を組み合わせて、スピーチ認識の精度を向上させるんだ。
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 1 分で読む
WMCodecは音声の透かしを強化して、セキュリティと信頼性を向上させるよ。
Junzuo Zhou, Jiangyan Yi, Yong Ren
― 1 分で読む
新しいモデルは、限られたトレーニングデータで音の分類を扱ってるよ。
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai
― 1 分で読む
新しいアプローチが事前学習済みモデルを使ってフェイク音声の検出を改善する。
Zhiyong Wang, Ruibo Fu, Zhengqi Wen
― 1 分で読む
新しい方法がスピーチ生成の質と効率を向上させる。
Xin Qi, Ruibo Fu, Zhengqi Wen
― 1 分で読む
ラベル付きデータとラベルなしデータを組み合わせる方法で音源検出が向上するよ。
Vadim Rozenfeld, Bracha Laufer Goldshtein
― 1 分で読む