Un nuovo approccio che usa immagini a griglia migliora le prestazioni di VideoQA su compiti complessi.
Yanan Wang, Shuichiro Haruta, Donghuo Zeng
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo approccio che usa immagini a griglia migliora le prestazioni di VideoQA su compiti complessi.
Yanan Wang, Shuichiro Haruta, Donghuo Zeng
― 6 leggere min
Un nuovo metodo migliora il video question answering concentrandosi su eventi con più oggetti.
Yanan Wang, Shuichiro Haruta, Donghuo Zeng
― 6 leggere min
Scopri le sfide e i modelli nei compiti di risposta a domande visive.
Neelabh Sinha, Vinija Jain, Aman Chadha
― 6 leggere min
Un nuovo approccio migliora il riconoscimento delle forme 3D usando più viste.
Hongyu Sun, Yongcai Wang, Peng Wang
― 4 leggere min
PrimeDepth migliora l'efficienza nella stima della profondità usando modelli da testo a immagine senza dati di addestramento extra.
Denis Zavadski, Damjan Kalšan, Carsten Rother
― 6 leggere min
Nuovo metodo migliora il rilevamento degli oggetti usando la modellazione interattiva delle immagini mascherate.
Minh-Duc Vu, Zuheng Ming, Fangchen Feng
― 5 leggere min
Nuovo framework migliora la sicurezza del riconoscimento facciale contro attacchi di spoofing.
Xinxu Ge, Xin Liu, Zitong Yu
― 6 leggere min
Il modello DICS migliora la classificazione delle immagini concentrandosi su caratteristiche chiave.
Qiaowei Miao, Yawei Luo, Yi Yang
― 6 leggere min
GLCONet migliora il rilevamento di oggetti camuffati usando caratteristiche locali e globali.
Yanguang Sun, Hanyu Xuan, Jian Yang
― 7 leggere min
Un nuovo metodo migliora il trasferimento delle caratteristiche nelle rappresentazioni neurali implicite per le immagini.
Kushal Vyas, Ahmed Imtiaz Humayun, Aniket Dashpute
― 6 leggere min
Un nuovo metodo migliora la chiarezza e il riconoscimento delle immagini in ambienti rumorosi.
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan
― 7 leggere min
Scopri come AMRF migliora la segmentazione delle immagini nelle applicazioni industriali.
Zheming Zuo, Joseph Smith, Jonathan Stonehouse
― 5 leggere min
Questo metodo migliora l'interpretabilità nella segmentazione semantica usando prototipi e rappresentazione multiscala.
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 5 leggere min
MAC-VO migliora la stima della posizione della camera in ambienti difficili.
Yuheng Qiu, Yutian Chen, Zihao Zhang
― 5 leggere min
Uno studio confronta CNN pre-addestrate e modelli fondamentali per il recupero di immagini mediche.
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia
― 7 leggere min
FKAN migliora la rappresentazione delle immagini e delle forme 3D usando funzioni di attivazione apprendibili.
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari
― 6 leggere min
Un nuovo metodo migliora la comprensione delle azioni umane da parte dell'AI attraverso dati specializzati.
Dewen Zhang, Wangpeng An, Hayaru Shouno
― 7 leggere min
Questo metodo stima le orientazioni senza dati etichettati usando il deep learning.
Shiqi Li, Jihua Zhu, Yifan Xie
― 5 leggere min
Questo documento valuta la capacità dei VLM di ragionare su dimensioni e distanze.
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler
― 6 leggere min
Panoramica delle tecniche per rilevare e classificare le azioni umane.
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1
― 5 leggere min
SparX migliora l'elaborazione delle immagini imitanto il sistema visivo umano.
Meng Lou, Yunxiang Fu, Yizhou Yu
― 6 leggere min
La ricerca mostra il potenziale dei LLM per riconoscere oggetti in immagini basate su eventi.
Zongyou Yu, Qiang Qu, Xiaoming Chen
― 7 leggere min
L'integrazione delle informazioni sul movimento migliora l'accuratezza nel rilevamento degli oggetti nelle immagini.
Cagri Gungor, Adriana Kovashka
― 6 leggere min
ScaleFlow++ migliora la stima del movimento 3D usando telecamere monoculari per vari usi.
Han Ling, Yinghui Sun, Quansen Sun
― 6 leggere min
NSSR-DIL trasforma immagini di bassa qualità in modo efficiente senza bisogno di grandi dataset.
Sree Rama Vamsidhar S, Rama Krishna Gorthi
― 5 leggere min
Un approccio di machine learning che sfrutta il movimento per un apprendimento efficace dei dati visivi.
Simone Marullo, Matteo Tiezzi, Marco Gori
― 8 leggere min
Questo framework permette di imparare in fretta nuove categorie di oggetti con pochissimi dati.
Yanan Jian, Fuxun Yu, Qi Zhang
― 6 leggere min
Un nuovo sistema migliora la velocità e l'accuratezza delle etichette video.
Alexandru Bobe, Jan C. van Gemert
― 6 leggere min
KAT migliora il deep learning usando KAN avanzati al posto delle MLP.
Xingyi Yang, Xinchao Wang
― 6 leggere min
Un nuovo framework migliora la comprensione delle azioni umane attraverso i dati dello scheletro.
Lehong Wu, Lilang Lin, Jiahang Zhang
― 6 leggere min
Un nuovo metodo migliora la capacità di presa dei robot usando comandi in linguaggio naturale.
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri
― 6 leggere min
FOLK migliora l'apprendimento auto-supervisionato attraverso una mascheratura di frequenza adattiva e un design insegnante-studente.
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi
― 5 leggere min
Adattare DINOv2 migliora la segmentazione BEV per auto a guida autonoma più sicure.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 5 leggere min
Un nuovo dataset unisce dati RGB e dati da telecamere a eventi per un'analisi facciale migliore.
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 9 leggere min
SteeredMarigold migliora le mappe di profondità, aiutando i robot nella navigazione e interazione.
Jakub Gregorek, Lazaros Nalpantidis
― 6 leggere min
Presentiamo GRIN, un nuovo modello per la stima della profondità usando dati sparsi.
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 7 leggere min
NVLM migliora la comprensione del linguaggio e delle immagini da parte dell'AI per vari compiti.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 leggere min
Questo lavoro migliora l'accuratezza di CLIP affrontando la sovrapposizione intra-modale utilizzando adattatori leggeri.
Alexey Kravets, Vinay Namboodiri
― 5 leggere min
Un nuovo framework migliora la segmentazione con esempi limitati.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 6 leggere min
SLAck offre un nuovo modo di tenere traccia di oggetti diversi nei video.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 6 leggere min