コンピューターサイエンス - サウンド

RSS

サウンド音声と言語モデルの進化

CLAPモデルは、さまざまなアプリケーションのために音声とテキスト処理をつなげるよ。

2025-09-14T13:46:00+00:00 ― 1 分で読む

計算と言語フランス語音声技術のための自己教師あり学習の進展

プロジェクトは自己教師あり学習を使ってフランス語の音声処理を改善することを目指してる。

2025-09-14T12:57:25+00:00 ― 1 分で読む

音声・音声処理自動韻律注釈の進展

新しい方法で、機械がスピーチのリズムや感情を認識するのが改善されてる。

2025-09-14T12:08:50+00:00 ― 1 分で読む

サウンド散乱環境における音の推定の新しい方法

新しいアプローチで、散乱物体がある空間での音の推定が改善されたよ。

2025-09-14T06:28:45+00:00 ― 0 分で読む

サウンド音楽制作における非決定性の影響

undecidabilityが今の音楽作曲や制作にどんな影響を与えてるかを探る。

2025-09-14T05:40:10+00:00 ― 1 分で読む

音声・音声処理言語モデルを使ったスピーカー分離の改善

この記事では、より高い精度を目指したスピーカーダイアライゼーションの進展について言語モデルを使って探ります。

2025-09-14T03:14:25+00:00 ― 1 分で読む

音声・音声処理子供向けの音声認識技術の進展

この研究は、ASRシステムが子供の話す言葉を認識する能力を向上させる。

2025-09-14T02:25:50+00:00 ― 1 分で読む

音声・音声処理歩行者検出における音の役割

研究者たちは、都市部での歩行者検出を改善するための音声センサーテクノロジーを探っている。

2025-09-14T00:48:40+00:00 ― 1 分で読む

音声・音声処理音場録音技術の進展

新しい手法で音源の定位とフィールドの分離が向上した。

2025-09-13T20:45:45+00:00 ― 1 分で読む

サウンド打撃音の合成の進展

新しい手法が、シャープなトランジェント要素に焦点を当てることでドラムサウンドの合成を改善する。

2025-09-13T19:57:10+00:00 ― 1 分で読む

サウンドプライバシーに優しい合成音声データセットの作成

研究者たちは音声認識でプライバシーを守るために合成音声データを開発中です。

2025-09-13T15:05:40+00:00 ― 1 分で読む

音声・音声処理 VoxtLM：音声とテキストの統一アプローチ

VoxtLMは、音声認識、合成、テキスト生成、そして継続を1つのモデルにまとめているよ。

2025-09-13T11:02:45+00:00 ― 1 分で読む

音声・音声処理 PromptASR: ネクスレベルの音声認識技術

新しいシステムは文脈に応じたプロンプトを使って音声認識を強化するよ。

2025-09-13T10:14:10+00:00 ― 1 分で読む

サウンドユニバーサルオーディオモデルの進展

EnCodecMAEは、自己教師あり学習とオーディオコーデックを組み合わせて、オーディオタスクのパフォーマンスを向上させるんだ。

2025-09-13T09:25:35+00:00 ― 1 分で読む

音声・音声処理音声認識を通じた自閉症診断の進展

ASD評価のために子どもの音を識別するのに機械学習を使う研究。

2025-09-13T07:48:25+00:00 ― 1 分で読む

音声・音声処理キーワード発見の新しいアプローチ

言語を超えてスピーチのキーワードを認識する柔軟な方法を紹介します。

2025-09-13T06:11:15+00:00 ― 1 分で読む

音声・音声処理音声コミュニケーションにおける音質評価

クラウドソーシングを使ってスピーチの品質がどうテストされるかの見てみよう。

2025-09-13T05:22:40+00:00 ― 0 分で読む

サウンド AI生成音声を検出するための新しい方法

音声クローンの時代における音声の信頼性を確保するための先進的な技術。

2025-09-13T03:40:24+00:00 ― 1 分で読む

音声・音声処理テキストのみのトレーニングによる音声キャプションの進展

新しい方法が音声キャプションシステムをテキストの説明だけでトレーニングするんだ。

2025-09-13T02:56:55+00:00 ― 1 分で読む

サウンド学術論文を書くための基本ステップ

明確で効果的な学術論文を書くためのガイド。

2025-09-13T01:19:45+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクションエリー：データ音響化のための新しいツール

Erieはデータを音に変えるのを簡単にして、もっとアクセスしやすくしてるよ。

2025-09-13T00:22:54+00:00 ― 1 分で読む

暗号とセキュリティバックドア攻撃：音声認証への隠れた脅威

スピーカー認証システムに対するバックドア攻撃のリスクを調べる。

2025-09-12T22:54:00+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識音声映像セグメンテーション技術の進展

新しい方法が詳細なラベルなしで音声と映像のセグメンテーションを向上させる。

2025-09-12T20:28:15+00:00 ― 1 分で読む

サウンド新しいシステムが不安定な頭の位置からの音声抽出を改善するよ。

PIAVEは、話し手が顔を背けても機械が声をクリアに抽出するのを助けるよ。

2025-09-12T19:39:40+00:00 ― 1 分で読む

音声・音声処理 Libriheavy: 音声認識のための新しいデータセット

Libriheavyは、音声認識技術を向上させるために5万時間の英語音声を提供してるよ。

2025-09-12T18:51:05+00:00 ― 1 分で読む

音声・音声処理 AV2Wavテクノロジーでスピーチの明瞭性を向上させる

AV2Wavは音声と視覚のヒントを使ってスピーチの質を向上させるんだ。

2025-09-12T17:13:55+00:00 ― 1 分で読む

音声・音声処理 EmoConv-Diff: スピーチの感情を変える新しい方法

機械が自然に話しの感情を変える新しい方法。

2025-09-12T16:25:20+00:00 ― 1 分で読む

サウンド AIによって生成された歌声の検出

音楽業界でディープフェイクの歌声を見分ける新しい方法が開発されてるよ。

2025-09-12T14:48:10+00:00 ― 1 分で読む

サウンドコアセット選択によるテキスト音声変換の最適化

コアセット選択は、さまざまなデータに焦点を当てることで、テキスト読み上げモデルを改善するよ。

2025-09-12T08:19:30+00:00 ― 1 分で読む

サウンド音声感情認識システムの進展

新しいモデルが、スピーチの感情分析のやり方を変えてるね。

2025-09-12T07:30:55+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識プライバシー優先のアクション認識を超音波技術で

新しい方法は、プライバシーを守りながら行動を認識するために超音波を使ってるよ。

2025-09-12T06:42:20+00:00 ― 1 分で読む

サウンドスピーカー匿名化の新しいフレームワーク

音声プライバシー研究を強化するための柔軟なフレームワークを紹介します。

2025-09-12T05:05:10+00:00 ― 1 分で読む

サウンド CiwaGAN: 音声学習のための新しいモデル

CiwaGANは、スピーチの動きのコントロールと情報共有を組み合わせて、より良いスピーチ学習を実現します。

2025-09-12T04:16:35+00:00 ― 1 分で読む

計算と言語 IntraVerbalPA: 発音評価への新しいアプローチ

言葉と非言語的ヒントを組み合わせて、もっと良い言語学習をするためのフレームワーク。

2025-09-12T03:28:00+00:00 ― 1 分で読む

計算と言語スピーチモデルの説明を改善する

新しい方法がスピーチ分類モデルの理解を簡単にするよ。

2025-09-12T02:39:25+00:00 ― 1 分で読む

計算と言語 L1-MultiMDDで言語学習を改善する

新しいシステムは、母国語の影響を考慮して発音スキルを向上させるんだ。

2025-09-12T01:50:50+00:00 ― 1 分で読む

新しいテクノロジー量子コンピュータが音楽作曲に出会った

量子ツールが音楽制作やパフォーマンスをどう変えるかを見てみよう。

2025-09-12T00:31:30+00:00 ― 1 分で読む

音声・音声処理音声変換技術の進展

新しい方法が音声変換プロセスで感情の保持を改善した。

2025-09-12T00:13:40+00:00 ― 1 分で読む

音声・音声処理 Emo-StarGAN: 声の変換技術の進化

新しい方法で声の変換における感情のトーンが守られて、より良い人間とコンピュータのインタラクションが実現するよ。

2025-09-11T23:25:05+00:00 ― 1 分で読む

計算と言語直接テキストから音声翻訳の進展

新しいシステムは、仲介なしでテキストから音声言語への翻訳を改善するよ。

2025-09-11T20:59:20+00:00 ― 1 分で読む