新しいシステムが、マルチ楽器の音楽転写の精度と効率を向上させたよ。
― 1 分で読む
最先端の科学をわかりやすく解説
新しいシステムが、マルチ楽器の音楽転写の精度と効率を向上させたよ。
― 1 分で読む
新しいモデルが、複数の言語での音声認識精度を向上させたんだ。
― 1 分で読む
モバイルデバイス向けの効率的な方法を使った音声品質予測の進歩。
― 1 分で読む
シンセサイザーを使って音色を強化する方法。
― 1 分で読む
この研究は、チュニジアアラビア語のようなリソースが少ない言語における音声技術を評価してるんだ。
― 1 分で読む
研究によると、Whisperのようなマルチタスク音声モデルにはリスクがあるらしい。
― 1 分で読む
TokenVerseは、複数のタスクを1つのモデルに統合することで、話し言葉の会話の分析を簡単にしてくれるんだ。
― 1 分で読む
新しいデータセットが詳細なテキスト説明からの音声生成を改善したよ。
― 1 分で読む
アーティストがクリエイティビティとAI音声生成をつなげるための新しいアプローチ。
― 1 分で読む
TTMモデルが音楽制作やユーザー体験に与える影響を探る。
― 1 分で読む
この記事では、音声処理におけるさまざまなスピーカーダイアリゼーションシステムのレイテンシーについて調べてるよ。
― 1 分で読む
新しいデータセットは、英語が母国語でない人の音声認識を向上させることを目指してるよ。
― 1 分で読む
新しいフレームワーク、BiosERCは、話し手の特性を考慮することで感情認識を改善する。
― 1 分で読む
この研究は、リスナーによって声の好みがどのように異なるかを調べてるよ。
― 1 分で読む
この記事では、動画やテキストから正確な音を生成する方法を紹介しているよ。
― 0 分で読む
新しいモデルが弦楽器のシミュレーションを強化して、リアルなサウンドを実現してるよ。
― 1 分で読む
スピーチ編集のコントロールをもっと良くする方法を紹介します。
― 1 分で読む
音楽を時代別に分類するための音声特徴とアーティストの洞察を使った研究。
― 1 分で読む
新しいモデルが、生の音声データを使って動物のコミュニケーションの研究を向上させるんだ。
― 1 分で読む
新しいシステムは革新的なエンコーディング手法を使って信号処理の効率を向上させる。
― 1 分で読む
チームがBirdCLEF 2024コンペで鳥の鳴き声識別の課題に取り組んでる。
― 1 分で読む
音楽の感情分類を改善するためにMERGEデータセットを紹介します。
― 1 分で読む
この研究では、雑音のあるスピーチ条件でのキーワードスポッティングのためのMix-Trainingを調べてるよ。
― 1 分で読む
新しい方法で、小さいモデルが大きいモデルからのヒントを使ってもっと良くなるんだ。
― 1 分で読む
Divide and Remasterデータセットのバージョン3のアップデートをチェックしてみて。
― 1 分で読む
オーディオ言語モデルで使われてるデータセットの概要とその重要性。
― 1 分で読む
信頼できるイヤホンベースのシステムが、日常のいろんな活動中の呼吸率を監視するよ。
― 1 分で読む
オンラインデータが少ない言語の音声認識システムを改善する。
― 1 分で読む
音と画像を組み合わせて、より賢い認識システムを作る。
― 1 分で読む
データ拡張を使ってオーディオディープフェイクの検出を強化する方法。
― 0 分で読む
Beat-Itは、振付を楽に強化するために同期したダンスムーブメントを生成するよ。
― 1 分で読む
研究者たちは、無音のビデオに合った音を作ろうとしていて、視聴体験を向上させようとしてるんだ。
― 1 分で読む
この研究は、SLUシステムの問題とそれらの一般化能力について扱ってるよ。
― 1 分で読む
専門家のアノテーションを減らすための音楽の調性を推定する自己監視型ツール。
― 1 分で読む
Diff-MSTは、リファレンストラックからスタイル転送を使って音楽ミキシングを強化するんだ。
― 1 分で読む
新しいモデルは、音声認識とモールス信号を使って、障害のある人たちのコミュニケーションを強化するんだ。
― 1 分で読む
ElasticASTは重要な詳細を失うことなく、可変長オーディオを効率的に処理できる。
― 1 分で読む
声のクローン技術が進化する中で、歌手の識別方法を分析してる。
― 1 分で読む
新しいアプローチが、本物と偽物の音声クリップを混ぜたものの検出を改善する。
― 1 分で読む
マンバはスピーチタスクでトランスフォーマーに対して期待できる成果を見せてて、特に長い入力に対して効果的だね。
― 1 分で読む