コンピューターサイエンス - サウンド

RSS

サウンドデジタルシンガーを作る：新しいアプローチ

詳細な声のラベリングなしで歌声を作る方法。

2025-11-11T00:43:25+00:00 ― 1 分で読む

計算と言語珍しい単語の音声認識を改善する

この方法は、音声アシスタントが文脈を使って珍しい言葉を認識するのを強化するんだ。

2025-11-10T23:54:50+00:00 ― 1 分で読む

サウンド自動吹き替え技術の革命

新しいフレームワークが、言語間の話し方を捉えてダubbingを強化するんだ。

2025-11-10T23:06:15+00:00 ― 0 分で読む

サウンドオーディオジッター分析の新しい方法

オーディオ機器でゼロ交差解析を使ってジッターを測定する新しいアプローチ。

2025-11-10T18:27:30+00:00 ― 1 分で読む

サウンド普遍的なソースセパレーション技術の進展

新しいフレームワークが弱いラベル付けデータを使って効果的な音声分離を実現してるよ。

2025-11-10T11:46:05+00:00 ― 1 分で読む

サウンド CoMoSpeechによる音声合成の進歩

CoMoSpeechは、ワンステップで音声合成の速度と質を向上させるよ。

2025-11-10T05:17:25+00:00 ― 1 分で読む

サウンド音楽のデミキシング技術の進歩

新しいベンチマークが音楽とエンターテイメントの音声分離モデルを改善したよ。

2025-11-10T02:03:05+00:00 ― 1 分で読む

音声・音声処理自動音声認識技術の進歩

新しい方法がスピーチ認識モデルを改善し、知識の損失を減らす。

2025-11-09T22:48:45+00:00 ― 1 分で読む

計算と言語自動音声認識の課題と解決策

異なるアクセントにおけるASRのパフォーマンスを探ることとその影響。

2025-11-09T16:20:05+00:00 ― 1 分で読む

サウンド音楽の再編成に関する革新的なアプローチ

既存の曲を組み替えてユニークな音楽バージョンを作る新しい方法。

2025-11-09T15:31:30+00:00 ― 0 分で読む

サウンド TorToiseを使った音声合成の進展

新しいシステムが高品質な音声生成を強化するよ。

2025-11-09T14:42:55+00:00 ― 1 分で読む

音声・音声処理感情の洞察を通じてスピーカー認識を進化させる

新しいモデルが感情豊かなスピーチ中の音声認識精度を向上させたよ。

2025-11-09T09:02:50+00:00 ― 1 分で読む

サウンド簡略化されたFMおよびPM合成技術

サウンドデザインでFMとPMをうまく使う方法を学ぼう。

2025-11-09T08:14:15+00:00 ― 1 分で読む

サウンドスピーチ認識のための新しい自己教師ありアプローチ

新しい方法で、ラベル付きデータを少なくして音声認識タスクを改善する。

2025-11-09T00:08:25+00:00 ― 1 分で読む

サウンド音声キャプション技術の進歩

この記事では、最近の音声説明の作成における改善点を調べてるよ。

2025-11-08T21:42:40+00:00 ― 1 分で読む

サウンドテレビ用の新しいオーディオフィンガープリンティングシステム

低消費電力のテレビデバイス向けに設計された効率的な音声認識技術。

2025-11-08T13:36:50+00:00 ― 1 分で読む

サウンド SCHmUBERTを紹介するね: 音楽生成の新しいモデルだよ。

SCHmUBERTは、AIを使ってシンボリックな音楽を作る新しいアプローチを提供してるよ。

2025-11-08T12:48:15+00:00 ― 1 分で読む

サウンド音声認識における信頼度推定の進展

新しいモデルが音声認識システムの信頼度スコアを向上させる。

2025-11-08T02:16:40+00:00 ― 1 分で読む

音声・音声処理構音障害の音声認識の進展

新しい技術が、コミュニケーションシステムにおける構音障害のスピーチ理解を向上させている。

2025-11-08T01:28:05+00:00 ― 1 分で読む

サウンド音声分離技術の進歩

新しい教師なしアプローチで音声の分離が強化される。

2025-11-07T23:50:55+00:00 ― 0 分で読む

サウンド ML-SUPERB: 多言語スピーチモデルのベンチマーク

言語を超えたスピーチ理解のための機械学習モデルを評価する新しいベンチマーク。

2025-11-07T23:02:20+00:00 ― 1 分で読む

計算と言語音声認識における電話分類の改善

この記事は、音声特徴を使って電話の分類を強化する方法について話してるよ。

2025-11-07T21:25:10+00:00 ― 1 分で読む

音声・音声処理進化するAI：人間のような音声理解

新しいモデルがAIの音声認識と推論能力を向上させる。

2025-11-07T16:33:40+00:00 ― 1 分で読む

サウンド NASSを使った音声分離の進展

NASSは騒がしい環境での声の隔離を改善して、従来の方法よりも優れてるよ。

2025-11-07T15:45:05+00:00 ― 1 分で読む

サウンドより正確な音質メトリクスの更新

新しいラウドネス計算方法を使って音質メトリクスを向上させる。

2025-11-07T12:30:45+00:00 ― 1 分で読む

計算と言語リアルタイム音声翻訳の進展

AlignAttは、同時スピーチ翻訳の速度と品質を向上させます。

2025-11-07T11:42:10+00:00 ― 1 分で読む

サウンドスピーチモデルにおけるプライバシーと効率のバランス

新しい方法で、性能を犠牲にせずにスピーチ分類のプライバシーが確保される。

2025-11-07T10:05:00+00:00 ― 1 分で読む

サウンドスムーズにテキスト読み上げアクセントを調整する

この研究は、さまざまなアクセントにTTS技術を効率的に適応させる方法を示してるよ。

2025-11-07T09:16:25+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクション AMIIモデルを使って社会的インタラクティブエージェントを進化させる

AMIIモデルは、非言語的行動を改善することで、社会的にインタラクティブなエージェントのコミュニケーションを向上させるんだ。

2025-11-07T08:27:50+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識マルチモーダルデータ処理の新しいモデル

さまざまなデータタイプを統合して複雑なタスクに対応するモデルを紹介するよ。

2025-11-07T05:13:30+00:00 ― 1 分で読む

サウンド生物音響音響検出の進展

研究者たちが動物の音を自動で検出する方法を改善してるんだ。

2025-11-07T05:03:27+00:00 ― 1 分で読む

音声・音声処理 Whisperの多才な音声認識能力

Whisperがプロンプトエンジニアリングを使って、さまざまなスピーチタスクにどう対応するかを発見しよう。

2025-11-07T04:24:55+00:00 ― 1 分で読む

音声・音声処理 FastFit: スピーチ生成の新しいアプローチ

FastFitは音質を失うことなく、音声生成の速度を向上させるよ。

2025-11-07T00:22:00+00:00 ― 1 分で読む

音声・音声処理 TACosを使ったキーワードスポッティングの進展

新しい方法が音声録音のキーワード検出を改善する。

2025-11-06T23:33:25+00:00 ― 1 分で読む

サウンド AED-EENDを使ったスピーカーダイアライゼーションの進展

AED-EENDシステムは、より良い精度のために高度な技術を統合してスピーカーダイアリゼーションを強化するよ。

2025-11-06T20:19:05+00:00 ― 1 分で読む

音声・音声処理 Pengi: 音声とテキスト処理の架け橋

Pengiは音声理解とテキスト生成を1つのモデルに統合してるよ。

2025-11-06T19:30:30+00:00 ― 1 分で読む

音声・音声処理継続的学習でキーワードスポッティングを進化させる

新しい方法が音声の変化に対応したキーワードスポッティングシステムのパフォーマンスを向上させる。

2025-11-06T17:04:45+00:00 ― 1 分で読む

サウンド多言語テキスト音声変換技術の進歩

新しいTTSシステムが、限られたデータで複数の言語の音声生成を強化するよ。

2025-11-06T13:50:25+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識コンポーザブルディフュージョン：コンテンツ制作の新たな frontier

CoDiは、さまざまな入力から多様なコンテンツタイプを同時に生成できる。

2025-11-06T13:01:50+00:00 ― 1 分で読む

サウンド深層学習を使った音分離の進展

新しい技術がアンビソニックスミックスからの音の分離を改善して、より良いオーディオ体験を提供するよ。

2025-11-06T12:13:15+00:00 ― 1 分で読む