新しい方法が、複数のオブジェクトイベントに注目することで動画の質問応答を改善する。
Yanan Wang, Shuichiro Haruta, Donghuo Zeng
― 1 分で読む
最先端の科学をわかりやすく解説
新しい方法が、複数のオブジェクトイベントに注目することで動画の質問応答を改善する。
Yanan Wang, Shuichiro Haruta, Donghuo Zeng
― 1 分で読む
視覚的質問応答タスクの課題やモデルについて学ぼう。
Neelabh Sinha, Vinija Jain, Aman Chadha
― 1 分で読む
複数の視点を使って3D形状の認識を向上させる新しいアプローチ。
Hongyu Sun, Yongcai Wang, Peng Wang
― 1 分で読む
PrimeDepthは追加のトレーニングデータなしで、テキストから画像モデルを使って深度推定の効率を向上させるんだ。
Denis Zavadski, Damjan Kalšan, Carsten Rother
― 1 分で読む
新しい方法でインタラクティブなマスク付き画像モデリングを使って物体検出を向上させる。
Minh-Duc Vu, Zuheng Ming, Fangchen Feng
― 1 分で読む
新しいフレームワークが、なりすまし攻撃に対する顔認識のセキュリティを強化した。
Xinxu Ge, Xin Liu, Zitong Yu
― 1 分で読む
DICSモデルは、重要な特徴に注目することで画像分類を強化する。
Qiaowei Miao, Yawei Luo, Yi Yang
― 1 分で読む
GLCONetは、局所的およびグローバルな特徴を使ってカモフラージュされた物体の検出を改善する。
Yanguang Sun, Hanyu Xuan, Jian Yang
― 1 分で読む
新しい方法が、画像の暗黙的ニューラル表現における特徴転送を改善する。
Kushal Vyas, Ahmed Imtiaz Humayun, Aniket Dashpute
― 1 分で読む
新しい方法が、ノイズの多い環境で画像の鮮明さと認識を向上させる。
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan
― 1 分で読む
AMRFが産業アプリケーションにおける画像セグメンテーションをどう向上させるかを学ぼう。
Zheming Zuo, Joseph Smith, Jonathan Stonehouse
― 1 分で読む
この方法は、プロトタイプとマルチスケール表現を使ってセマンティックセグメンテーションの解釈性を高めるんだ。
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 1 分で読む
MAC-VOは、厳しい環境でのカメラ位置推定を強化するよ。
Yuheng Qiu, Yutian Chen, Zihao Zhang
― 1 分で読む
研究では、医療画像検索のために事前学習されたCNNと基盤モデルを比較している。
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia
― 1 分で読む
FKANは、学習可能な活性化関数を使って画像と3D形状の表現を改善するよ。
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari
― 1 分で読む
新しい方法が、専門的なデータを通じてAIの人間の行動への理解を高める。
Dewen Zhang, Wangpeng An, Hayaru Shouno
― 1 分で読む
この方法は、ラベル付きデータなしでディープラーニングを使って向きを推定するんだ。
Shiqi Li, Jihua Zhu, Yifan Xie
― 1 分で読む
この論文は、VLMがサイズや距離について推論する能力を評価してるよ。
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler
― 1 分で読む
人間の動作を検出して分類するための技術の概要。
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1
― 1 分で読む
SparXは人間の視覚システムを真似て画像処理を強化するんだ。
Meng Lou, Yunxiang Fu, Yizhou Yu
― 1 分で読む
研究は、LLMがイベントベースのビジュアルで物体を認識する可能性を示している。
Zongyou Yu, Qiang Qu, Xiaoming Chen
― 1 分で読む
動きの情報を統合すると、画像の物体検出精度がアップするよ。
Cagri Gungor, Adriana Kovashka
― 1 分で読む
ScaleFlow++は、さまざまなアプリケーション向けに単眼カメラを使った3Dモーション推定を改善するよ。
Han Ling, Yinghui Sun, Quansen Sun
― 1 分で読む
NSSR-DILは、大きなデータセットなしで低品質な画像を効率的に変換するよ。
Sree Rama Vamsidhar S, Rama Krishna Gorthi
― 1 分で読む
動きを活用した機械学習アプローチで、効果的な視覚データ学習を実現。
Simone Marullo, Matteo Tiezzi, Marco Gori
― 1 分で読む
このフレームワークは、少ないデータで新しいオブジェクトカテゴリをすぐに学べるんだ。
Yanan Jian, Fuxun Yu, Qi Zhang
― 1 分で読む
新しいシステムが、動画のラベリングのスピードと精度を向上させるよ。
Alexandru Bobe, Jan C. van Gemert
― 1 分で読む
KATは、MLPの代わりに高度なKANを使ってディープラーニングを改善するよ。
Xingyi Yang, Xinchao Wang
― 1 分で読む
新しいフレームワークが骨格データを通じて人間の動作理解を向上させる。
Lehong Wu, Lilang Lin, Jiahang Zhang
― 1 分で読む
新しい方法で、ロボットの把持能力が自然言語コマンドを使って改善されるよ。
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri
― 1 分で読む
FOLKは、適応周波数マスキングとティーチャースチューデントデザインを通じて自己教師あり学習を強化するんだ。
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi
― 1 分で読む
DINOv2を使うと、BEVセグメンテーションが向上して、安全な自動運転車になるよ。
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 1 分で読む
新しいデータセットがRGBとイベントカメラのデータを結集して、顔の分析をより良くする。
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 1 分で読む
SteeredMarigoldは深度マップを改善して、ロボットのナビゲーションやインタラクションを助けるんだ。
Jakub Gregorek, Lazaros Nalpantidis
― 1 分で読む
GRINを紹介するよ、スパースデータを使った深度推定の新しいモデルだ。
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 1 分で読む
NVLMは、AIが言語やビジュアルを理解する力を高めて、いろんなタスクに対応できるようにするよ。
Wenliang Dai, Nayeon Lee, Boxin Wang
― 1 分で読む
この研究は、軽量アダプターを使って、内部モーダルの重複に対処することでCLIPの精度を向上させる。
Alexey Kravets, Vinay Namboodiri
― 1 分で読む
新しいフレームワークが少ない例でセグメンテーションを改善する。
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 1 分で読む
SLAckは、動画内のさまざまなオブジェクトを追跡する新しいアプローチを提供してるよ。
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 1 分で読む
リモートセンシングにおける一般化された少数ショットセグメンテーションのベンチマークが導入された。
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 1 分で読む