電気工学・システム科学 - 音声・音声処理

RSS

音声・音声処理音声ディープフェイクの課題に対処する

この研究は、音声ディープフェイクを検出する際の多言語モデルの効果を調査してるよ。

2025-08-14T00:40:35+00:00 ― 1 分で読む

サウンド生成音楽モデルにおける遵守の測定

音楽が音声プロンプトにどれだけうまく従っているかを評価する新しいアプローチ。

2025-08-13T23:03:25+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 360+xデータセットの紹介：シーン理解の向上のために

新しいデータセットがロボットの現実世界の環境の解釈を改善する。

2025-08-13T18:11:55+00:00 ― 1 分で読む

サウンド言語を使った音声分離の新しいアプローチ

この方法は、言語の説明と音の分析を組み合わせることで音声の分離を改善する。

2025-08-13T14:57:35+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 UniAVの紹介: 動画ローカリゼーションの統一アプローチ

UniAVは、アクションの位置特定、音の検出、音声・映像イベントの位置特定を組み合わせて、動画の理解をより良くするんだ。

2025-08-13T10:06:05+00:00 ― 1 分で読む

音声・音声処理 CLaM-TTS：テキスト読み上げ技術の進化

CLaM-TTSは、効率と品質を向上させるために高度な技術を使って音声合成を改善するよ。

2025-08-13T08:28:55+00:00 ― 1 分で読む

社会と情報ネットワークグラフで音楽を分析する

グラフは音楽の構造や関係に新しい洞察をもたらすんだ。

2025-08-13T03:09:57+00:00 ― 1 分で読む

音声・音声処理 RALL-Eで音声合成を改善する

RALL-Eはテキストから音声への合成を強化して、もっとクリアで自然な発話を実現するよ。

2025-08-13T01:11:40+00:00 ― 1 分で読む

サウンド MuPT: ABC譜法で音楽生成を進化させる

MuPTはAIを使って効果的に音楽を生成するためにABC表記を利用してるよ。

2025-08-12T09:00:00+00:00 ― 1 分で読む

音声・音声処理 M2DとM2D-Xで音声学習を進めよう

新しい手法が自己教師あり学習技術を通じて音声表現を改善する。

2025-08-12T07:22:50+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 PEAVSの紹介：音声と映像の同期を測る新しい方法

PEAVSは、オーディオとビデオがどれだけうまく連携して、視聴者の体験を向上させるかを分析するんだ。

2025-08-12T03:19:55+00:00 ― 1 分で読む

音声・音声処理 AIを使った音場再構成の改善

AIを使った方法で、いろんな環境での音の表現が良くなるんだ。

2025-08-12T00:54:10+00:00 ― 1 分で読む

古典物理学電磁テストにおけるスペクトルモーメントの理解

残響室テストにおけるスペクトルモーメントの役割とノイズの影響を探ってみて。

2025-08-12T00:28:33+00:00 ― 1 分で読む

音声・音声処理効率的なリアルタイムピアノ転写モデル

正確で軽量なリアルタイムピアノ転写のための新しいシステム。

2025-08-12T00:05:35+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 Any2Point: AIモデルにおける3D理解の架け橋

新しいフレームワークがAIの3D空間の理解を向上させる。

2025-08-11T19:14:05+00:00 ― 1 分で読む

サウンド声の属性編集技術の進歩

新しいモデルは、コンテンツを保持しつつ、声の特徴を正確にコントロールできるようにしている。

2025-08-11T18:25:30+00:00 ― 1 分で読む

音声・音声処理 SUPERBでスピーチ処理モデルを評価する

音声タスクにおける基盤モデルを評価するための新しいフレームワーク。

2025-08-11T09:31:05+00:00 ― 1 分で読む

サウンドテキストからオーディオ生成のAIを進化させる

テキストプロンプトからオーディオ出力を改善するための好み最適化に関する研究。

2025-08-11T07:05:20+00:00 ― 1 分で読む

サウンド AIを使った自動音楽生成の進歩

音楽制作のためのAIツールの最近の進展を探る。

2025-08-10T16:30:50+00:00 ― 1 分で読む

信号処理ロボティクスにおけるアクティブとパッシブ音響センサーの組み合わせ

研究は、音響技術を組み合わせてロボットのナビゲーションとマッピングを改善することを探求している。

2025-08-10T13:16:30+00:00 ― 1 分で読む

サウンド音楽タグ付けの改善と音楽用語の埋め込み

新しいアプローチが、一般的な言語と音楽用語を組み合わせることで、音楽のタグ付けと検索を強化してるよ。

2025-08-10T06:47:50+00:00 ― 1 分で読む

音声・音声処理 FlashSpeech: 音声合成の飛躍

FlashSpeechは、迅速で高品質な音声合成ソリューションを提供してるよ。

2025-08-10T03:33:30+00:00 ― 1 分で読む

サウンド RADフレームワークによるディープフェイク検出の進展

新しい方法が似たサンプル参照を使って音声ディープフェイクの検出を改善する。

2025-08-10T01:07:45+00:00 ― 1 分で読む

サウンドエレキギター演奏における virtuosity の測定

この研究は、エレキギタリストの腕前を測るために音の信号を分析してるんだ。

2025-08-09T18:39:05+00:00 ― 1 分で読む

サウンドスピーチエモーション認識の脆弱性を乗り越える

この研究は、言語に対する敵対的攻撃に対するSERモデルの弱点を調べてるよ。

2025-08-08T21:35:55+00:00 ― 1 分で読む

音声・音声処理 SEANetを使った音声ターゲット抽出の進展

SEANetは音声処理でノイズを減らしてスピーカーの隔離を改善するよ。

2025-08-08T20:47:20+00:00 ― 1 分で読む

サウンドセマンティコーデック：音声技術の次のステップ

高品質な圧縮と豊かな意味内容を提供する新しいオーディオコーデック。

2025-08-08T19:10:10+00:00 ― 1 分で読む

サウンド新しいツールが音声と動画コンテンツを分析するよ。

音声と映像分析を組み合わせてイベントを特定するツール。

2025-08-08T12:41:30+00:00 ― 1 分で読む

音声・音声処理音の吸収を測る：新しい方法

材料が音をどれだけ効果的に吸収するかを測る方法。

2025-08-08T10:46:48+00:00 ― 1 分で読む

音声・音声処理 ASRの進化: 新しい学習アプローチ

二段階のアクティブラーニング手法が、データを少なくして音声認識の精度を向上させるよ。

2025-08-08T02:09:55+00:00 ― 1 分で読む

音声・音声処理ディープラーニングを使った補聴器技術の進化

新しい方法が、ディープラーニング技術を使って補聴器の音声の明瞭さを向上させてるよ。

2025-08-08T01:21:20+00:00 ― 1 分で読む

サウンド音源定位：テクニックと応用

音の定位技術について学んで、その使い方をいろんな分野で見てみよう。

2025-08-07T23:44:10+00:00 ― 1 分で読む

サウンドディープフェイク音声検出の増加に対処する

新しいデータセットと手法でALM生成の音声ディープフェイクの検出が改善された。

2025-08-07T06:43:55+00:00 ― 1 分で読む

計算と言語吃音のあるスピーチのASRシステムの評価

この研究は、吃音のある人たちとのASRシステムのパフォーマンスを評価してるよ。

2025-08-07T04:18:10+00:00 ― 1 分で読む

計算と言語新しい攻撃方法でASRシステムを黙らせる

ユニバーサルオーディオクリップは、Whisperみたいな高度なASRモデルをミュートできる。

2025-08-07T03:29:35+00:00 ― 1 分で読む

サウンド新しいデバイスが騒がしい環境での会話を改善するよ

混雑した場所で特定の声に集中するのを助けるデバイス。

2025-08-06T19:23:45+00:00 ― 1 分で読む

サウンド拡散モデルで音声編集を進化させる

新しい方法が拡散モデルを使ってオーディオ編集を改善し、正確な変更ができるようになった。

2025-08-06T16:09:25+00:00 ― 1 分で読む

計算と言語音声と言語モデルの統合：SpeechVerse

SpeechVerseは音声理解と言語処理をつなげて、人間とコンピュータのインタラクションを向上させるよ。

2025-08-06T06:26:25+00:00 ― 1 分で読む

サウンド音声アシスタント技術におけるバイアスの評価

新しいデータセットが音声アシスタントを使ったときの、デモグラフィックグループ間のパフォーマンスの差を浮き彫りにしてるよ。

2025-08-06T02:23:30+00:00 ― 1 分で読む

計算と言語言語モデルの安全性を検証する

この記事は、音声モデルの脆弱性とそのセキュリティを強化する方法を調査しているよ。

2025-08-05T23:09:10+00:00 ― 1 分で読む