コンピューターサイエンス - マルチメディア

RSS

コンピュータビジョンとパターン認識 LP-CLIPでCLIPの信頼性を向上させる

LP-CLIPがCLIPみたいなマルチモーダルモデルの堅牢性をどうやって向上させるかを学んでみて。

2025-09-24T12:21:18+00:00 ― 1 分で読む

計算と言語新しいデータセットがK-popの歌詞翻訳を革新！

画期的なデータセットがK-popの歌詞翻訳の研究を助ける。

2025-09-24T08:24:18+00:00 ― 1 分で読む

機械学習時間の中の視聴覚的瞬間：アクション認識のための新しいデータセット

AVMITは、研究者に音と視覚が動作認識でどう関連するかの洞察を提供します。

2025-09-24T07:46:35+00:00 ― 1 分で読む

サウンド音声アンチスプーフィング技術の進歩

新しい方法で音声認識システムにおける偽音声の検出が改善されたよ。

2025-09-23T23:40:45+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識注目度に基づくクロッピングで動画の記憶に残る効果を高める

この研究は、視覚的な注目に焦点を当てることで、クロッピングがビデオの思い出をどう改善できるかを調べてるよ。

2025-09-23T18:03:12+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識低レベルビジョンタスクにおけるモデルの評価

Q-Benchを使って、大きなモデルを低レベルの視覚タスクで評価する。

2025-09-22T06:53:54+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識音と映像を組み合わせて音質を向上させる

新しい方法で視覚的なヒントを使って音声録音が強化される。

2025-09-22T03:57:15+00:00 ― 0 分で読む

ヒューマンコンピュータインタラクションデジタルストーリーテリングにおけるAIの役割

AIが生成したコンテンツがストーリーテリングに与える影響を探る。

2025-09-22T02:56:54+00:00 ― 1 分で読む

マルチメディア画像の感情を音楽検索にリンクする

感情的な画像を音楽に結びつけて、発見をより良くする新しいシステムができたよ。

2025-09-21T16:37:05+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識ストリーミング動画のビューポート予測の進展

MFTRは没入型ビデオ体験のためのビューポート予測精度を向上させる。

2025-09-21T12:12:06+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクションデジタルツイン技術でドローン制御を改善する

デジタルツインを使ってリモートUAVコントロールをもっと安全で信頼性高くするシステム。

2025-09-20T11:28:05+00:00 ― 1 分で読む

ソフトウェア工学画像生成モデルのバイアスに対処する

新しいフレームワークが画像生成システムのバイアスを特定して測定するんだ。

2025-09-19T11:13:18+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識拡散モデルによる画像品質の向上

拡散モデルがいろんな分野でスーパーレゾリューションをどう改善するか探ってみよう。

2025-09-19T10:33:48+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 NU-Class Net: 圧縮後の動画品質向上

新しいモデルは、低品質の動画を改善しつつ、処理の負担を減らすんだ。

2025-09-19T05:25:42+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識画像とビデオの品質評価の新しい方法

SAMAは、効果的なサンプリング技術を使って画像や動画の品質評価を向上させるよ。

2025-09-19T00:33:24+00:00 ― 1 分で読む

情報検索ミュージックビデオから学ぶ上での課題

この研究は、音楽ビデオ理解のための対照学習を使う際の難しさを調べてるんだ。

2025-09-18T17:21:45+00:00 ― 0 分で読む

コンピュータビジョンとパターン認識アニメのキャラの目を革命的に変える

新しい方法がアニメキャラの目のデザインを効率化する。

2025-09-18T14:01:24+00:00 ― 0 分で読む

コンピュータビジョンとパターン認識周波数分析による画像圧縮の進化

新しい方法は、周波数帯域に焦点を当てて画像圧縮を改善する。

2025-09-16T14:45:18+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 Vlogger: 動画制作の新しいツール

Vloggerは動画ブログを簡単にして、クリエイターにとってもっと早くて楽にしてくれるよ。

2025-09-16T11:12:00+00:00 ― 1 分で読む

マルチメディア動画ストリーミングの環境コスト

動画ストリーミングのエネルギー使用と環境への影響を調べる。

2025-09-16T01:59:00+00:00 ― 1 分で読む

サウンド新モデルで魚の給餌強度評価が向上したよ

音声と映像データを使って魚の食事を評価する統一的なアプローチ。

2025-09-14T21:03:15+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 AIが動画技術に与える影響

AIが動画制作とストリーミングをどう変えてるか見てみよう。

2025-09-13T11:18:36+00:00 ― 1 分で読む

画像・映像処理リアルなコミュニケーションのためのビデオ会議データセットの紹介

会議状況での動画品質テスト用のデータセット。

2025-09-13T03:45:30+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識新しいフレームワークで動画とテキストがもっと効果的に繋がるようになったよ。

研究者たちが、動画とテキストの理解を向上させるためのフレームワークを開発した。

2025-09-12T20:49:36+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識音声映像セグメンテーション技術の進展

新しい方法が詳細なラベルなしで音声と映像のセグメンテーションを向上させる。

2025-09-12T20:28:15+00:00 ― 1 分で読む

サウンド新しいシステムが不安定な頭の位置からの音声抽出を改善するよ。

PIAVEは、話し手が顔を背けても機械が声をクリアに抽出するのを助けるよ。

2025-09-12T19:39:40+00:00 ― 1 分で読む

音声・音声処理 MusiLingo: 音楽と言語をつなぐ

音楽と言語をつなげて理解を深める新しいシステム。

2025-09-11T14:30:40+00:00 ― 1 分で読む

マルチメディアシンプルな指標で効果的なポスターデザイン

メッセージを明確に魅力的に伝えるポスターのデザインを学ぼう。

2025-09-09T08:49:24+00:00 ― 1 分で読む

マルチメディア BDIQA: マインド理論を使って動画の質問応答を進化させる

新しいデータセットがAIの動画内の人間の行動を解釈する能力を高める。

2025-09-09T07:30:24+00:00 ― 1 分で読む

ヒューマンコンピュータインタラクションスピカ：盲目のユーザーのための新しいツール

Spicaは、盲目や視覚障害のあるユーザー向けにインタラクティブな形で動画アクセスを向上させるよ。

2025-09-09T06:43:00+00:00 ― 1 分で読む

ロボット工学予測できないチャレンジのためのロボットテスト

予測できない環境でロボットのパフォーマンスを向上させる方法を探ってる。

2025-09-09T02:53:54+00:00 ― 1 分で読む

サウンド顔画像を使った音声変換技術の進展

顔の特徴を使って声を変える新しい方法がいろんな用途で使えるようになったよ。

2025-09-09T01:46:55+00:00 ― 1 分で読む

音声・音声処理 AV-SUPERBを紹介するよ：音声・映像モデルの新しいベンチマークだ！

AV-SUPERBは、より良いパフォーマンスのためにさまざまなタスクで音声と視覚のモデルを評価するよ。

2025-09-08T22:32:35+00:00 ― 1 分で読む

情報検索最新技術で動画検索を改善する

新しい方法は、いろんな情報の種類を組み合わせて動画検索を簡単にするよ。

2025-09-08T20:50:30+00:00 ― 1 分で読む

マルチメディア感情に敏感なマシンを作って、より良いインタラクションを！

感情に基づいて反応する機械を開発して、人間とコンピュータのインタラクションを向上させること。

2025-09-08T19:31:30+00:00 ― 1 分で読む

サウンド一貫性蒸留を使った高速テキストから音声生成

新しい方法でテキストからオーディオ生成のスピードと効率がアップしたよ。

2025-09-08T18:29:40+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識音源定位技術の進展

音声と映像データを使って音源の特定をもっと良くする方法。

2025-09-08T12:49:35+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識サウンドマッピング: サウンドスケープ分析への新しいアプローチ

高度な技術を使って、さまざまな環境で音を可視化したり予測したりする方法。

2025-09-08T11:12:25+00:00 ― 0 分で読む

マルチメディア Green-LL: ライブ動画ストリーミング体験の向上

モバイルライブビデオストリーミングの質とエネルギー効率を向上させる新しいアプローチ。

2025-09-08T06:13:36+00:00 ― 1 分で読む

情報検索 ChatDietでのパーソナライズされた食事提案

ChatDietは個人データと集団知識を組み合わせて、より良い食事アドバイスを提供するよ。

2025-09-07T00:28:12+00:00 ― 1 分で読む