コンピューターサイエンス - サウンド

RSS

サウンドスピーチモデルにおけるプライバシーと効率のバランス

新しい方法で、性能を犠牲にせずにスピーチ分類のプライバシーが確保される。

2025-11-07T10:05:00+00:00 ― 1 分で読む

サウンドスムーズにテキスト読み上げアクセントを調整する

この研究は、さまざまなアクセントにTTS技術を効率的に適応させる方法を示してるよ。

2025-11-07T09:16:25+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクション AMIIモデルを使って社会的インタラクティブエージェントを進化させる

AMIIモデルは、非言語的行動を改善することで、社会的にインタラクティブなエージェントのコミュニケーションを向上させるんだ。

2025-11-07T08:27:50+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識マルチモーダルデータ処理の新しいモデル

さまざまなデータタイプを統合して複雑なタスクに対応するモデルを紹介するよ。

2025-11-07T05:13:30+00:00 ― 1 分で読む

サウンド生物音響音響検出の進展

研究者たちが動物の音を自動で検出する方法を改善してるんだ。

2025-11-07T05:03:27+00:00 ― 1 分で読む

音声・音声処理 Whisperの多才な音声認識能力

Whisperがプロンプトエンジニアリングを使って、さまざまなスピーチタスクにどう対応するかを発見しよう。

2025-11-07T04:24:55+00:00 ― 1 分で読む

音声・音声処理 FastFit: スピーチ生成の新しいアプローチ

FastFitは音質を失うことなく、音声生成の速度を向上させるよ。

2025-11-07T00:22:00+00:00 ― 1 分で読む

音声・音声処理 TACosを使ったキーワードスポッティングの進展

新しい方法が音声録音のキーワード検出を改善する。

2025-11-06T23:33:25+00:00 ― 1 分で読む

サウンド AED-EENDを使ったスピーカーダイアライゼーションの進展

AED-EENDシステムは、より良い精度のために高度な技術を統合してスピーカーダイアリゼーションを強化するよ。

2025-11-06T20:19:05+00:00 ― 1 分で読む

音声・音声処理 Pengi: 音声とテキスト処理の架け橋

Pengiは音声理解とテキスト生成を1つのモデルに統合してるよ。

2025-11-06T19:30:30+00:00 ― 1 分で読む

音声・音声処理継続的学習でキーワードスポッティングを進化させる

新しい方法が音声の変化に対応したキーワードスポッティングシステムのパフォーマンスを向上させる。

2025-11-06T17:04:45+00:00 ― 1 分で読む

サウンド多言語テキスト音声変換技術の進歩

新しいTTSシステムが、限られたデータで複数の言語の音声生成を強化するよ。

2025-11-06T13:50:25+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識コンポーザブルディフュージョン：コンテンツ制作の新たな frontier

CoDiは、さまざまな入力から多様なコンテンツタイプを同時に生成できる。

2025-11-06T13:01:50+00:00 ― 1 分で読む

サウンド深層学習を使った音分離の進展

新しい技術がアンビソニックスミックスからの音の分離を改善して、より良いオーディオ体験を提供するよ。

2025-11-06T12:13:15+00:00 ― 1 分で読む

サウンド音声ベースの健康モニタリングの進展

音声を使った新しい方法が、呼吸パターンや健康状態の特定に期待が持てるって。

2025-11-06T10:36:05+00:00 ― 1 分で読む

サウンド MIDI-Draw: メロディを作る新しい方法

MIDI-Drawを使えば、誰でも直感的にメロディを描いて音楽を作れるよ。

2025-11-06T09:47:30+00:00 ― 1 分で読む

サウンド音質評価のための革新的な方法

画像処理を活用した新しい技術が音質評価を向上させてるよ。

2025-11-06T08:58:55+00:00 ― 1 分で読む

音声・音声処理視覚データを使った音声処理の進展

新しい方法が音声と視覚的手がかりを使って機械の言葉の理解を向上させている。

2025-11-06T07:21:45+00:00 ― 0 分で読む

音声・音声処理騒がしい環境でのキーワードスポッティングの進展

新しいモデルは、難しい音響環境でのキーワード認識を改善する。

2025-11-06T04:07:25+00:00 ― 1 分で読む

計算と言語知識蒸留でスピーチ理解を向上させる

新しい方法で、テキストモデルから音声モデルに知識を移すことで向上させてる。

2025-11-06T01:41:40+00:00 ― 1 分で読む

音声・音声処理 Coswaraデータセット: COVID-19検出のための革新的なツール

呼吸音の集まりがCOVID-19のケースを特定するのに役立つ。

2025-11-06T00:12:57+00:00 ― 1 分で読む

サウンド ACA-Net: スピーカーバリフィケーションシステムの進化

新しいモデルが効率的な手法でスピーカー認証を向上させる。

2025-11-05T23:15:55+00:00 ― 1 分で読む

サウンド VoxCelebチャレンジのためのスピーカー認識システムの進展

2022年のコンペ用に開発されたスピーカー認識技術の詳しい見解。

2025-11-05T21:38:45+00:00 ― 1 分で読む

音声・音声処理音声と感情の理解を向上させるAI

新しいアプローチがあって、AIが騒がしい環境でのスピーチや感情をもっとよく認識できるように訓練されるんだ。

2025-11-05T17:35:50+00:00 ― 1 分で読む

音声・音声処理家族のふれあいのための革新的な音声分析

新しい方法が家族のダイナミクスや子供のメンタルヘルスの理解を深めることを目指してるよ。

2025-11-05T16:47:15+00:00 ― 1 分で読む

音声・音声処理スピーカー保護システムの進化

新しいディープラーニング手法がスピーカーの横隔膜の動きの予測を向上させる。

2025-11-05T16:10:24+00:00 ― 1 分で読む

計算と言語 ciwGANを使った音韻分析

ciwGANが鼻音などの音韻的特徴をどのように学習し、表現できるかを探る。

2025-11-05T15:10:05+00:00 ― 1 分で読む

音声・音声処理 MH-SSMによる音声認識の進展

新しいモデルが音声認識の効率と精度を改善してるよ。

2025-11-05T14:21:30+00:00 ― 1 分で読む

音声・音声処理文脈の洞察で音声認識を進化させる

新しい方法が文脈情報を使って音声認識の精度を向上させる。

2025-11-05T13:32:55+00:00 ― 1 分で読む

サウンドより良い認識のためのノイズのあるスピーチのシミュレーション

研究者たちは、クリーンな音声からノイズのある音声を生成するためにGANを使って、音声モデルを改善している。

2025-11-05T12:44:20+00:00 ― 1 分で読む

サウンド JNVコーパスの紹介：新しい日本の非言語的な声のコレクション

JNVコーパスは、日本語の多様な感情音を収集していて、既存のコレクションを豊かにしてるよ。

2025-11-05T11:55:45+00:00 ― 1 分で読む

サウンドリアルな笑いの合成技術の進歩

新しい方法が現実的な人間とコンピュータのインタラクションのための笑いの生成を改善してるよ。

2025-11-05T11:07:10+00:00 ― 1 分で読む

サウンド合成音声の検出：課題と解決策

今日のテクノロジーが進んだ世界での偽音声の見分け方について。

2025-11-05T10:18:35+00:00 ― 1 分で読む

サウンド LGFAを使った音声感情認識の進展

新しい方法が、先進的なトランスフォーマー技術を使って、スピーチの感情検出を向上させる。

2025-11-05T10:09:24+00:00 ― 1 分で読む

計算と言語テキストの知識で音声モデルを進化させる

テキストモデルを使って、より理解しやすい音声生成を強化する。

2025-11-05T09:30:00+00:00 ― 1 分で読む

機械学習 C-MCRを使ったマルチモーダル学習の進展

C-MCRは、既存の知識を効率よくつなげることでマルチモーダル学習を簡単にしてるよ。

2025-11-05T03:49:55+00:00 ― 1 分で読む

サウンドフルーエントスピーチ：吃音を消す新しいアプローチ

FluentSpeechは、スムーズな音声編集のための自動ソリューションを提供してるよ。

2025-11-05T02:12:45+00:00 ― 1 分で読む

音声・音声処理モジュラードメイン適応：音声認識への新しいアプローチ

MDAは特定のデータ領域にモデルを最適化することで、音声認識を強化するんだ。

2025-11-05T01:24:10+00:00 ― 1 分で読む

医学物理学新しい研究で脳の信号と舌の動きが関連付けられたよ。

研究によると、脳の信号が話すときの舌の動きを予測するのに役立つって。

2025-11-04T23:54:21+00:00 ― 1 分で読む

サウンド U-DiTを使ったテキスト音声変換技術の進歩

U-DiT TTSシステムは、革新的なアーキテクチャを通じて自然な音声生成を向上させるよ。

2025-11-04T23:47:00+00:00 ― 1 分で読む