電気工学・システム科学 - 音声・音声処理

RSS

計算と言語 Cleancoderで音声認識を改善する

Cleancoderは、背景ノイズを減らして音声理解をよりクリアにすることでASRシステムを向上させるんだ。

2025-09-16T21:38:15+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 RADIO：トーキングヘッズへの新しいアプローチ

RADIOは、たった一枚の参照画像からリアルな話す顔を作り出す。

2025-09-16T16:46:45+00:00 ― 1 分で読む

計算と言語 RoDia：ルーマニア方言識別のための新しいデータセット

RoDiaはルーマニアの方言を特定するための重要な音声サンプルを提供してるよ。

2025-09-16T15:58:10+00:00 ― 1 分で読む

音声・音声処理コミュニケーションにおける非言語的サインの役割

ジェスチャーや表情が話し言葉の理解をどう深めるか探ってるんだ。

2025-09-16T08:40:55+00:00 ― 0 分で読む

ヒューマンコンピュータインタラクション音楽ミキシングのアートとサイエンス

音楽をミックスすることを見てみよう。技術的なスキルとアーティスティックなビジョンを融合させる感じ。

2025-09-16T07:03:45+00:00 ― 1 分で読む

音声・音声処理音イベント検出と位置特定の進展

合成データを使って音の検出と位置特定の新しい方法を探ってる。

2025-09-16T05:26:35+00:00 ― 1 分で読む

音声・音声処理音響シミュレーションシステム for ミュージシャン

新しいシステムが音楽家に仮想ステージで音を体験させるよ。

2025-09-16T03:00:50+00:00 ― 0 分で読む

サウンド部分的に偽造された音声を検出する技術の進歩

新しい方法が録音内の偽音声セグメントの検出を向上させた。

2025-09-16T01:23:40+00:00 ― 1 分で読む

サウンド音楽技術の進歩：リズムとハーモニーの分離

コンピュータが音楽のリズムとハーモニーを分けることを学んでるんだって、クリエイティブな応用のために。

2025-09-15T23:46:30+00:00 ― 1 分で読む

音声・音声処理 MuLanTTS: テキストから音声への新しいフロンティア

マイクロソフトのMuLanTTSは、自然で表現力豊かなフランス語のテキスト読み上げ機能を提供してるよ。

2025-09-15T22:57:55+00:00 ― 1 分で読む

サウンド音響交通監視技術の進歩

新しいデータセットと手法で車両分類が改善されて、交通管理がもっと良くなるよ。

2025-09-15T13:14:55+00:00 ― 1 分で読む

サウンド自動音声認識システムの進展

新しい方法が音声認識技術の精度と速度を向上させる。

2025-09-15T06:46:15+00:00 ― 1 分で読む

サウンド機械学習を使ったフォーリーサウンド合成の進歩

新しいシンセサイザーがメディアのリアルな音効の生成を改善するよ。

2025-09-15T05:57:40+00:00 ― 1 分で読む

音声・音声処理自動音声認識における信頼度推定の向上

新しいアプローチがASRシステムの自信推定を強化して、精度を向上させる。

2025-09-15T03:14:28+00:00 ― 1 分で読む

サウンド音声生成技術の進歩

より自然で表現力豊かな音声合成のためのフレームワークを紹介。

2025-09-15T01:06:10+00:00 ― 1 分で読む

サウンドテクノロジーで音楽ジャンルを分類する

テクノロジーが音楽ジャンルを効率よくカテゴライズするのにどう役立つかを学ぼう。

2025-09-14T21:51:50+00:00 ― 1 分で読む

サウンド新モデルで魚の給餌強度評価が向上したよ

音声と映像データを使って魚の食事を評価する統一的なアプローチ。

2025-09-14T21:03:15+00:00 ― 1 分で読む

サウンド感情を持ったトーキングヘッド技術の進歩

新しい方法が感情豊かなトーキングヘッド動画の制作を改善したよ。

2025-09-14T15:23:10+00:00 ― 1 分で読む

機械学習音声フィルタバンク設計におけるConvnetの利用に関する課題

この研究は、オーディオフィルターバンク作成におけるコンボリューショナルネットワーク（convnet）の使用に関する問題を探っているよ。

2025-09-14T14:34:35+00:00 ― 1 分で読む

サウンド音声と言語モデルの進化

CLAPモデルは、さまざまなアプリケーションのために音声とテキスト処理をつなげるよ。

2025-09-14T13:46:00+00:00 ― 1 分で読む

計算と言語フランス語音声技術のための自己教師あり学習の進展

プロジェクトは自己教師あり学習を使ってフランス語の音声処理を改善することを目指してる。

2025-09-14T12:57:25+00:00 ― 1 分で読む

音声・音声処理自動韻律注釈の進展

新しい方法で、機械がスピーチのリズムや感情を認識するのが改善されてる。

2025-09-14T12:08:50+00:00 ― 1 分で読む

サウンド散乱環境における音の推定の新しい方法

新しいアプローチで、散乱物体がある空間での音の推定が改善されたよ。

2025-09-14T06:28:45+00:00 ― 0 分で読む

サウンド音楽制作における非決定性の影響

undecidabilityが今の音楽作曲や制作にどんな影響を与えてるかを探る。

2025-09-14T05:40:10+00:00 ― 1 分で読む

音声・音声処理言語モデルを使ったスピーカー分離の改善

この記事では、より高い精度を目指したスピーカーダイアライゼーションの進展について言語モデルを使って探ります。

2025-09-14T03:14:25+00:00 ― 1 分で読む

音声・音声処理子供向けの音声認識技術の進展

この研究は、ASRシステムが子供の話す言葉を認識する能力を向上させる。

2025-09-14T02:25:50+00:00 ― 1 分で読む

音声・音声処理歩行者検出における音の役割

研究者たちは、都市部での歩行者検出を改善するための音声センサーテクノロジーを探っている。

2025-09-14T00:48:40+00:00 ― 1 分で読む

音声・音声処理音場録音技術の進展

新しい手法で音源の定位とフィールドの分離が向上した。

2025-09-13T20:45:45+00:00 ― 1 分で読む

サウンド打撃音の合成の進展

新しい手法が、シャープなトランジェント要素に焦点を当てることでドラムサウンドの合成を改善する。

2025-09-13T19:57:10+00:00 ― 1 分で読む

サウンドプライバシーに優しい合成音声データセットの作成

研究者たちは音声認識でプライバシーを守るために合成音声データを開発中です。

2025-09-13T15:05:40+00:00 ― 1 分で読む

音声・音声処理 VoxtLM：音声とテキストの統一アプローチ

VoxtLMは、音声認識、合成、テキスト生成、そして継続を1つのモデルにまとめているよ。

2025-09-13T11:02:45+00:00 ― 1 分で読む

音声・音声処理 PromptASR: ネクスレベルの音声認識技術

新しいシステムは文脈に応じたプロンプトを使って音声認識を強化するよ。

2025-09-13T10:14:10+00:00 ― 1 分で読む

サウンドユニバーサルオーディオモデルの進展

EnCodecMAEは、自己教師あり学習とオーディオコーデックを組み合わせて、オーディオタスクのパフォーマンスを向上させるんだ。

2025-09-13T09:25:35+00:00 ― 1 分で読む

音声・音声処理音声認識を通じた自閉症診断の進展

ASD評価のために子どもの音を識別するのに機械学習を使う研究。

2025-09-13T07:48:25+00:00 ― 1 分で読む

音声・音声処理キーワード発見の新しいアプローチ

言語を超えてスピーチのキーワードを認識する柔軟な方法を紹介します。

2025-09-13T06:11:15+00:00 ― 1 分で読む

音声・音声処理音声コミュニケーションにおける音質評価

クラウドソーシングを使ってスピーチの品質がどうテストされるかの見てみよう。

2025-09-13T05:22:40+00:00 ― 0 分で読む

音声・音声処理テキストのみのトレーニングによる音声キャプションの進展

新しい方法が音声キャプションシステムをテキストの説明だけでトレーニングするんだ。

2025-09-13T02:56:55+00:00 ― 1 分で読む

サウンド学術論文を書くための基本ステップ

明確で効果的な学術論文を書くためのガイド。

2025-09-13T01:19:45+00:00 ― 1 分で読む

暗号とセキュリティバックドア攻撃：音声認証への隠れた脅威

スピーカー認証システムに対するバックドア攻撃のリスクを調べる。

2025-09-12T22:54:00+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識音声映像セグメンテーション技術の進展

新しい方法が詳細なラベルなしで音声と映像のセグメンテーションを向上させる。

2025-09-12T20:28:15+00:00 ― 1 分で読む