コンピューターサイエンス - サウンド

RSS

計算と言語プルーニング技術による音声モデルの進化

研究がスピーチモデルをもっと小さくて効率的にする方法を明らかにした。

2025-06-29T16:24:35+00:00 ― 1 分で読む

音声・音声処理音声の明瞭さを向上させる：対話分離技術

ダイアログの分離は、視聴者がバックグラウンドノイズの中で会話をはっきり聞けるようにするよ。

2025-06-29T11:33:05+00:00 ― 1 分で読む

サウンド MAT-SEDを使った音イベント検出の進展

MAT-SEDは、効果的な音イベント検出のために新しいトランスフォーマーモデルを使ってるよ。

2025-06-29T09:55:55+00:00 ― 1 分で読む

サウンド心音診断の新しいアプローチ

心音と心エコーを組み合わせて先天性心疾患の診断を改善する。

2025-06-29T09:07:20+00:00 ― 1 分で読む

サウンド GAPS: クラシックギター研究の新しいリソース

楽譜にリンクしたギター録音の豊富なデータセット、研究と分析用。

2025-06-29T07:30:10+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクション AuptimizeでXRの音の定位を改善する

Auptimizeは、XRでのユーザーインタラクションを向上させるために音声キューの配置を強化するよ。

2025-06-29T04:15:50+00:00 ― 1 分で読む

音声・音声処理マラコプラ：音声認証システムへの新たな脅威

マラコプラは自動スピーカー認証技術の信頼性に挑戦してるよ。

2025-06-29T03:27:15+00:00 ― 1 分で読む

グラフィックス MetaFace: 3Dトーキングフェイスアニメーションの進化

個人の話し方に合わせた、よりリアルな3D顔アニメーションの新しい方法。

2025-06-28T19:21:25+00:00 ― 1 分で読む

サウンド敵対的トレーニングでキーワードスポッティングを改善する

対抗訓練は合成音声と実音声でキーワードスポッティングの精度を高めるよ。

2025-06-28T13:41:20+00:00 ― 1 分で読む

サウンドオーディオ処理における少数ショット学習の進展

この話は、少数ショット学習とその音声タスクへの影響についてだよ。

2025-06-28T12:04:10+00:00 ― 1 分で読む

サウンドコミュニケーションの変革：顔ベースの声変換

新しい技術が顔の特徴と声を結びつけて、声がない人のコミュニケーションを助けるんだ。

2025-06-28T06:24:05+00:00 ― 1 分で読む

機械学習音声作曲学習の進展

新しい方法が、ラベル付きデータなしで音声の分離と生成を強化する。

2025-06-28T05:35:30+00:00 ― 1 分で読む

サウンド ASVspoofチャレンジ：音声認証の進展

フェイクオーディオとスピーカー認証の課題に取り組む。

2025-06-28T00:44:00+00:00 ― 1 分で読む

サウンド怒り音楽の分類：機械学習アプローチ

機械学習を使って怒りの音楽の特徴を分析して、ジャンル分類をもっと良くする。

2025-06-27T20:41:05+00:00 ― 1 分で読む

サウンドフェイクオーディオの増加と検出の課題

偽の音声クリップは深刻な問題で、効果的な検出方法が必要だよ。

2025-06-27T19:52:30+00:00 ― 1 分で読む

サウンドカラー量子化を使ったフェイク音声検出の強化

新しい方法が合成音声の検出精度を向上させる。

2025-06-27T19:03:55+00:00 ― 1 分で読む

サウンド DisMix: 音楽操作の変革

音楽の音を分けたり操作したりする新しい方法。

2025-06-27T17:26:45+00:00 ― 1 分で読む

音声・音声処理 SSL-TTSを使った音声合成技術の進展

SSL-TTSは、少ないトレーニングデータで高品質な音声合成を簡単にするよ。

2025-06-27T15:49:35+00:00 ― 1 分で読む

計算と言語元データなしでマルチリンガル音声認識を改善する

新しい方法が複数言語のASRモデルを強化し、過去の知識を保持してるよ。

2025-06-27T15:01:00+00:00 ― 1 分で読む

計算と言語 XCBを使ったバイリンガル音声認識の改善

新しいアプローチでバイリンガルのスピーチにおけるコードスイッチフレーズの認識が向上する。

2025-06-27T11:46:40+00:00 ― 1 分で読む

サウンドビデオ・フォレイ：マルチメディアにおけるサウンドデザインの変革

映画やゲームのための音を自動生成する革新的なシステム。

2025-06-26T23:37:55+00:00 ― 1 分で読む

サウンドスピーカー認証技術の進展

新しい方法が騒がしい環境での話者認識を改善する。

2025-06-26T18:46:25+00:00 ― 0 分で読む

サウンドゼロショット音声変換技術の進展

新しいモデルは、特に囁き声やリアルタイムアプリケーションの音声変換を改善するよ。

2025-06-26T17:57:50+00:00 ― 1 分で読む

サウンドギターアンプモデリングの新しい視点

ギターアンプのサウンドモデリングに新しいデジタルアプローチを探ってる。

2025-06-26T16:20:40+00:00 ― 0 分で読む

サウンド GaMaDHaNi: インドのメロディの新しいシステム

ヒンドゥスターニーのボーカル音楽を生成する画期的なシステムを紹介します。

2025-06-26T11:29:10+00:00 ― 1 分で読む

サウンドニューラルネットワークを使ったダイナミックレンジコンプレッサーのモデリングの進展

ニューラルネットワークを使って光圧縮器を正確にモデル化する新しい方法。

2025-06-26T10:40:35+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクション WhisperMask: 声のコミュニケーションのゲームチェンジャー

WhisperMaskは、うるさい場所でも声をクリアにキャッチして、コミュニケーションを向上させるよ。

2025-06-26T09:03:25+00:00 ― 1 分で読む

サウンド技術を使った音声品質評価の進歩

新しい方法が声の質評価を改善して、声帯の問題を持つ患者をサポートするよ。

2025-06-26T07:26:15+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクション VoiceX：音声制作の新時代

VoiceXは、いろんなアプリ用のパーソナライズされた声を作るプロセスを簡単にするよ。

2025-06-26T05:49:05+00:00 ― 1 分で読む

計算と言語音声技術における韻律と語用論の役割

声のパターンが意味やテクノロジーのパフォーマンスにどう影響するかを調べる。

2025-06-25T21:43:15+00:00 ― 0 分で読む

サウンド NESTの紹介：音声処理の新しいモデル

NESTは、自己教師あり音声タスクに対してより速く、効率的なアプローチを提供してるよ。

2025-06-25T20:06:05+00:00 ― 1 分で読む

マルチメディア音声・映像ソースのローカリゼーションベンチマークを再考する

現在のベンチマークは、音声と視覚データを結びつけるモデルの能力を誤って評価してる。

2025-06-25T16:03:10+00:00 ― 1 分で読む

サウンド Wav2Smallを使った音声感情認識の進展

Wav2Smallは、リソースを減らしてスピーチの感情検出を強化するんだ。

2025-06-25T10:23:05+00:00 ― 1 分で読む

サウンド部分的に偽の音声信号を検出する際の課題

ミックスされた音声トラックを特定する複雑さを探る。

2025-06-25T06:20:10+00:00 ― 1 分で読む

音声・音声処理タミル語の方言を理解する

タミル語の豊かな方言とその識別方法の概要。

2025-06-25T04:43:00+00:00 ― 1 分で読む

サウンド機械音検出の革新的フレームワーク

データプライバシーを損なわずに機械の問題を検出する新しいアプローチ。

2025-06-24T16:34:15+00:00 ― 1 分で読む

サウンド VoiceTailor: テキスト読み上げ技術のパーソナライズ

VoiceTailorは、効率的でパーソナライズされた音声出力のためにTTSシステムを変革するよ。

2025-06-24T15:45:40+00:00 ― 1 分で読む

サウンド音場推定の理解: 実践的アプローチ

音が空間でどう広がるかとその応用を学ぼう。

2025-06-24T14:57:05+00:00 ― 1 分で読む

サウンドスタイルスピーチ: テキスト読み上げ技術の未来

StyleSpeechは、自然な話し方のニュアンスを捉えることでTTSシステムを進化させる。

2025-06-24T14:08:30+00:00 ― 1 分で読む

音声・音声処理ディープラーニングを使ったノイズ削減技術の進展

騒がしい環境での話し声の明瞭さを深層学習で改善する方法を探ってる。

2025-06-24T12:31:20+00:00 ― 1 分で読む