新しい方法が音響情報を言語モデルに統合して、もっと良い音声認識を実現するんだ。
― 1 分で読む
最先端の科学をわかりやすく解説
新しい方法が音響情報を言語モデルに統合して、もっと良い音声認識を実現するんだ。
― 1 分で読む
最新の記事
IoSが私たちのデジタル体験をどう変えていくのか、五感を使って探ってみる。
― 1 分で読む
DIBSは、ラベルのないデータを使って境界を調整することで、動画イベントのキャプションを改善するんだ。
― 1 分で読む
画像とテキストを組み合わせることで、3D深度推定の精度が向上するよ。
― 1 分で読む
WebXRは、没入型デジタル環境との関わり方を変える。
― 1 分で読む
新しい方法で、話せない人の音声合成が向上したよ。
― 1 分で読む
AniFrameは、初心者でも簡単に使えるアプローチでプログラミングアートを身近にしてくれるよ。
― 1 分で読む
新しいデータセットが複雑なニュースキャプションからの画像生成を向上させる。
― 1 分で読む
新しい方法がSNSの主張のファクトチェックを改善する。
― 1 分で読む
Shotitは画像を使って動画をすぐに見つけることができるから、検索がめっちゃ楽になるんだ。
― 1 分で読む
事前データなしでおすすめを強化する新しいフレームワーク。
― 1 分で読む
Pegasus-1はユーザーが自然な言葉で動画とやりとりできるようにするよ。
― 1 分で読む
GaussianTalkerは、トーキングヘッドビデオの自然なリップシンクと高品質なビジュアルを提供するよ。
― 1 分で読む
新しいアプローチで、マシンは事前のトレーニングなしにコミックキャラクターを特定できるようになる。
― 1 分で読む
Mimosaはアマチュアのビデオメーカー向けに空間オーディオの制作を簡単にしてくれるよ。
― 1 分で読む
AIS 2024チャレンジは、ディープラーニングを使って動画の品質評価を向上させようとしてるんだ。
― 1 分で読む
GaussianTalkerは、リアルなトーキングヘッドでデジタルインタラクションを変革するよ。
― 1 分で読む
字幕はストリーミングサービスの視聴体験を向上させるのに欠かせなくなってるね。
― 1 分で読む
研究がディープフェイク動画の検出を改善する革新的な技術を紹介した。
― 1 分で読む
新しいデータセットがロボットの現実世界の環境の解釈を改善する。
― 1 分で読む
UniAVは、アクションの位置特定、音の検出、音声・映像イベントの位置特定を組み合わせて、動画の理解をより良くするんだ。
― 1 分で読む
新しい方法が適応クエリを使って物体検出の性能を向上させる。
― 1 分で読む
人間がディープフェイク動画を見分ける能力とAIの検出能力を比べてみる。
― 1 分で読む
AIが映像制作プロセスをどう変えてるか探ってるんだ。
― 1 分で読む
PEAVSは、オーディオとビデオがどれだけうまく連携して、視聴者の体験を向上させるかを分析するんだ。
― 1 分で読む
CinePileは、30万5千の多様な質問で長い動画の理解に挑戦してるんだ。
― 1 分で読む
高度な量子技術を使ってクラウドで医療画像を保護する新しい方法。
― 1 分で読む
新しい方法が3Dモデルと2D画像を使って食品追跡の精度を向上させるんだ。
― 1 分で読む
この研究は、コンテキストが画像や質問の機械理解をどのように向上させるかを示しているよ。
― 1 分で読む
高品質な圧縮と豊かな意味内容を提供する新しいオーディオコーデック。
― 1 分で読む
新しい方法で同期した話す顔の動画を作る研究が発表された。
― 1 分で読む
大規模言語モデルがマルチメディア生成を通じて創造性をどう高めるかを探ってみよう。
― 1 分で読む
建築家やデザイナーにとっての没入型3Dスケッチの利点を探る。
― 1 分で読む
混合ノイズレベルで同期した音声と映像を生成するモデルを紹介します。
― 0 分で読む
この記事では、画像から音声を生成したりその逆を行ったりするための新しいシンプルなモデルについて話してるよ。
― 1 分で読む
新しい技術が3D画像の品質とトレーニングを向上させる。
― 1 分で読む
NuNetは、より良い栄養推定のためにRGBと深度データを使用しているよ。
― 1 分で読む
新しい方法で、事前に学習したモデルを使って音声と映像の同期が改善されるんだ。
― 1 分で読む
複雑なデータ処理での注意機構を改善する新しい方法。
― 1 分で読む
AIが動画ストリーミングをどう改善してエネルギー効率を促進するかを探る。
― 1 分で読む
Frierenモデルは、動画の音質と同期を改善するよ。
― 1 分で読む