コンピューターサイエンス - サウンド

RSS

音声・音声処理音声感情認識技術の進歩

新しい方法が、機械がスピーチの感情を認識するのを改善してるよ。

2025-08-02T13:22:15+00:00 ― 1 分で読む

サウンド「フリーレン」を使った動画から音声生成の進展

Frierenモデルは、動画の音質と同期を改善するよ。

2025-08-02T10:07:55+00:00 ― 1 分で読む

サウンドテキストの説明からの革新的なオーディオ合成

新しい方法が、シンプルなシンセサイザーを使ってテキストからユニークな音を生成する。

2025-08-02T08:30:45+00:00 ― 1 分で読む

計算と言語音声翻訳技術の進歩

新しい方法で、騒がしい環境でも表現力を保ちながらスピーチ翻訳が改善されたよ。

2025-08-01T13:53:20+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識動画のための革新的な音楽生成

動画コンテンツに合った音楽を効果的に作る新しい方法。

2025-08-01T13:48:30+00:00 ― 1 分で読む

音声・音声処理テキスト読み上げ技術の進歩

Seed-TTSは、いろんなアプリ用にテキストからリアルな音声を作るよ。

2025-08-01T10:39:00+00:00 ― 1 分で読む

音声・音声処理歌唱技術への音声変換の進歩

新しい方法で、自己教師あり学習を使ってスピーチから歌への変換が改善されたよ。

2025-08-01T09:50:25+00:00 ― 1 分で読む

計算と言語 StreamSpeech: スピーチを翻訳する新しい方法

StreamSpeechはリアルタイムの音声翻訳を効率よく高品質に改善するよ。

2025-08-01T03:21:45+00:00 ― 1 分で読む

音声・音声処理音声認識における4Dモデルの紹介

新しいモデルは、複数のデコード方法を使って音声認識を向上させてる。

2025-08-01T01:44:35+00:00 ― 1 分で読む

計算と言語知識蒸留を通じたアラビア語音声認識の改善

アラビア方言のASRを効率的なモデル技術で強化する研究。

2025-07-31T23:18:50+00:00 ― 1 分で読む

計算と言語 BLSP-Emo: 共感AIの新しい一歩

BLSP-Emoを紹介するよ。これは、スピーチと感情を理解して、より良いインタラクションを実現するモデルなんだ。

2025-07-31T21:41:40+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクションデータ解釈の再検討：音とビジュアルの研究

最近の研究で、音やビジュアルを使ったデータ解釈に関する重要な発見が再現されたよ。

2025-07-31T20:04:30+00:00 ― 0 分で読む

コンピュータビジョンとパターン認識 DenseAV：音と映像の架け橋

音を視覚と結びつけるシステムで、機械の理解を向上させる。

2025-07-31T10:21:30+00:00 ― 1 分で読む

音声・音声処理 ARDiTによる音声合成の進展

新しいモデルARDiTがテキスト読み上げ合成と音声編集を改善したよ。

2025-07-31T07:55:45+00:00 ― 1 分で読む

計算と言語文脈解析を通じてAIの理解を深める

SPICEを紹介するよ、コンテキスト情報を使ってAIとのやりとりを改善するタスクだよ。

2025-07-30T23:49:55+00:00 ― 1 分で読む

サウンドクロスモーダル音楽処理の進展

研究がMOSAデータセットを紹介して、音楽の視覚的および聴覚的側面の理解を深める。

2025-07-30T23:01:20+00:00 ― 1 分で読む

計算と言語 mHuBERT-147を紹介するよ: コンパクトなスピーチモデル！

mHuBERT-147は、多言語の音声を効率的に処理するよ。

2025-07-30T22:12:45+00:00 ― 1 分で読む

サウンド革新的な方法で音声キャプションを変革する

音声キャプショニングに対する新しいアプローチは、ペアデータへの依存を減らす。

2025-07-30T21:24:10+00:00 ― 1 分で読む

サウンド音声による感情認識の進展

新しい方法で機械が人間のスピーチの感情を認識するのが良くなってる。

2025-07-30T18:09:50+00:00 ― 1 分で読む

機械学習オーディオウォーターマーク技術の課題

実世界の脅威に対する音声ウォーターマーキング手法の脆弱性を調査中。

2025-07-30T13:18:20+00:00 ― 1 分で読む

サウンド PianoMotion10Mを紹介するよ：ピアノ学習のための新しいデータセットだよ。

PianoMotion10Mはピアノ学習者のために詳しい手の動きを提供するよ。

2025-07-30T01:09:35+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識動画からのアクション音生成の進展

新しいモデルが動画の視覚的アクションとの音の一致を向上させる。

2025-07-29T23:32:25+00:00 ― 1 分で読む

サウンド AVGSを使った3Dオーディオレンダリングの進化

新しいモデルがバーチャル環境でのリアルな音響体験を向上させる。

2025-07-29T20:18:05+00:00 ― 1 分で読む

音声・音声処理音声技術を使った歩行者追跡

この研究は、都市部での歩行者の動きを追跡するための音声方法を調査している。

2025-07-29T17:52:20+00:00 ― 1 分で読む

音声・音声処理 MINTデータセットでフォーリーオーディオを進化させる

新しいデータセットがマルチメディアコンテンツのためのフォーリー音声の作成を改善する。

2025-07-29T17:03:45+00:00 ― 1 分で読む

音声・音声処理動的TTAを使った自動音声認識の進展

新しい方法で、騒がしい環境でもスピーチ認識が良くなる適応技術が使われてるんだ。

2025-07-29T13:49:25+00:00 ― 1 分で読む

サウンド SPEAR：音の分析に対する新しいアプローチ

SPEARは最小限のデータ収集で、3D空間での音の振る舞いを予測するよ。

2025-07-29T10:35:05+00:00 ― 1 分で読む

計算と言語コードスイッチング音声翻訳の進展

新しい方法で混合言語のスピーチを英語に翻訳するのが上手くなったよ。

2025-07-29T09:46:30+00:00 ― 1 分で読む

サウンドラジオ通信におけるスピーカ認証の改善

新しい方法で、厳しいラジオ環境でもスピーカー認証の精度が向上するんだ。

2025-07-29T08:57:55+00:00 ― 1 分で読む

サウンド音声認識におけるバックドア攻撃の改善

新しい手法がリズムの変化を狙って、こっそりとしたスピーチ攻撃を行う。

2025-07-29T08:09:20+00:00 ― 1 分で読む

サウンド GAMA: 音を理解するための新しいモデル

GAMAは音と語の知見を融合させて音声処理を改善するよ。

2025-07-29T04:55:00+00:00 ― 1 分で読む

音声・音声処理 GigaSpeech 2: 音声認識のための新しいデータセット

GigaSpeech 2は、音声認識を改善するためのリソースの少ない言語向けの膨大なデータセットを提供してるよ。

2025-07-29T02:29:15+00:00 ― 1 分で読む

音声・音声処理 DiTTo-TTSでテキスト読み上げを革命的に変える

新しいモデルがテキスト読み上げ技術を効率的に適応させて強化した。

2025-07-29T01:40:40+00:00 ― 1 分で読む

音声・音声処理明瞭なスピーチ生産のための新しいフレームワーク

声道の動きを使ってスピーチ分析と合成を最適化する新しい方法。

2025-07-28T20:49:10+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクションバーチャル説明におけるジェスチャーの影響

この研究は、ジェスチャーがバーチャルエージェントからの学習にどんな影響を与えるかを調べてるよ。

2025-07-28T19:12:00+00:00 ― 0 分で読む

サウンドリアルタイムスピーカーダイアライゼーション：概要

オンラインスピーカーダイアリゼーションについて学んで、その様々なアプリケーションでの重要性を理解しよう。

2025-07-28T06:14:40+00:00 ― 1 分で読む

サウンド音声タスクのための離散オーディオトークンの評価

新しいベンチマークツールが、さまざまな音声処理タスクのために離散音声トークンを評価するよ。

2025-07-28T04:37:30+00:00 ― 1 分で読む

サウンド SINGを使った構造化音楽生成の進展

自己類似行列とアテンションシステムを使った音楽生成の新しい方法。

2025-07-28T01:23:10+00:00 ― 1 分で読む

サウンド GANを使った音声モデリングの進展

新しい手法が、ペアになってないデータとGANを使ってギターアンプのモデリングを改善してるよ。

2025-07-27T22:08:50+00:00 ― 1 分で読む

サウンドネットワーク分解を使った音声モデルの分析

音声モデルがどうやって予測をするかを理解するための新しい方法。

2025-07-27T12:25:50+00:00 ― 1 分で読む