O PrimeDepth melhora a eficiência da estimativa de profundidade usando modelos de texto para imagem sem precisar de dados de treinamento extras.
Denis Zavadski, Damjan Kalšan, Carsten Rother
― 7 min ler
Ciência de ponta explicada de forma simples
O PrimeDepth melhora a eficiência da estimativa de profundidade usando modelos de texto para imagem sem precisar de dados de treinamento extras.
Denis Zavadski, Damjan Kalšan, Carsten Rother
― 7 min ler
Novo método aprimora a detecção de objetos usando modelagem de imagem mascarada interativa.
Minh-Duc Vu, Zuheng Ming, Fangchen Feng
― 6 min ler
Novo framework melhora a segurança do reconhecimento facial contra ataques de spoofing.
Xinxu Ge, Xin Liu, Zitong Yu
― 7 min ler
O modelo DICS melhora a classificação de imagens ao focar nas características principais.
Qiaowei Miao, Yawei Luo, Yi Yang
― 6 min ler
GLCONet melhora a detecção de objetos camuflados usando características locais e globais.
Yanguang Sun, Hanyu Xuan, Jian Yang
― 7 min ler
Um novo método melhora a transferência de características em representações neurais implícitas para imagens.
Kushal Vyas, Ahmed Imtiaz Humayun, Aniket Dashpute
― 7 min ler
Um novo método melhora a clareza e o reconhecimento de imagens em ambientes barulhentos.
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan
― 8 min ler
Descubra como o AMRF melhora a segmentação de imagens em aplicações industriais.
Zheming Zuo, Joseph Smith, Jonathan Stonehouse
― 6 min ler
Esse método melhora a interpretabilidade na segmentação semântica usando protótipos e representação em múltiplas escalas.
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 6 min ler
O MAC-VO melhora a estimativa da posição da câmera em ambientes desafiadores.
Yuheng Qiu, Yutian Chen, Zihao Zhang
― 6 min ler
Um estudo compara CNNs pré-treinadas e modelos base para recuperação de imagens médicas.
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia
― 7 min ler
O FKAN melhora a representação de imagens e formas 3D usando funções de ativação que dá pra aprender.
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari
― 6 min ler
Um novo método melhora a compreensão da IA sobre as ações humanas por meio de dados especializados.
Dewen Zhang, Wangpeng An, Hayaru Shouno
― 8 min ler
Esse método estima orientações sem precisar de dados rotulados usando deep learning.
Shiqi Li, Jihua Zhu, Yifan Xie
― 5 min ler
Esse artigo avalia a habilidade dos VLMs de raciocinar sobre tamanhos e distâncias.
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler
― 6 min ler
Visão geral das técnicas para detectar e classificar ações humanas.
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1
― 6 min ler
O SparX melhora o processamento de imagem imitando o sistema visual humano.
Meng Lou, Yunxiang Fu, Yizhou Yu
― 7 min ler
Pesquisas mostram que os LLMs têm potencial pra reconhecer objetos em visuais baseados em eventos.
Zongyou Yu, Qiang Qu, Xiaoming Chen
― 7 min ler
Integrar informações de movimento melhora a precisão da detecção de objetos em imagens.
Cagri Gungor, Adriana Kovashka
― 6 min ler
O ScaleFlow++ melhora a estimativa de movimento 3D usando câmeras monoculares pra várias aplicações.
Han Ling, Yinghui Sun, Quansen Sun
― 7 min ler
NSSR-DIL transforma imagens de baixa qualidade de forma eficiente sem precisar de grandes conjuntos de dados.
Sree Rama Vamsidhar S, Rama Krishna Gorthi
― 5 min ler
Uma abordagem de aprendizado de máquina que usa movimento pra aprender dados visuais de forma eficaz.
Simone Marullo, Matteo Tiezzi, Marco Gori
― 9 min ler
Esse framework permite aprender rapidinho novas categorias de objetos com pouca informação.
Yanan Jian, Fuxun Yu, Qi Zhang
― 7 min ler
Um novo sistema melhora a velocidade e a precisão da rotulagem de vídeos.
Alexandru Bobe, Jan C. van Gemert
― 7 min ler
KAT melhora o deep learning usando KANs avançados pra substituir MLPs.
Xingyi Yang, Xinchao Wang
― 7 min ler
Uma nova estrutura melhora a compreensão das ações humanas através de dados de esqueleto.
Lehong Wu, Lilang Lin, Jiahang Zhang
― 7 min ler
Um novo método melhora a habilidade de pegada dos robôs usando comandos em linguagem natural.
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri
― 7 min ler
O FOLK melhora o aprendizado auto-supervisionado com mascaramento de frequência adaptativo e um design de professor-aluno.
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi
― 6 min ler
Adaptar o DINOv2 melhora a segmentação BEV para carros autônomos mais seguros.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 6 min ler
Um novo conjunto de dados junta informações de câmeras RGB e câmeras de eventos pra melhorar a análise facial.
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 10 min ler
SteeredMarigold melhora mapas de profundidade, ajudando robôs na navegação e interação.
Jakub Gregorek, Lazaros Nalpantidis
― 6 min ler
Apresentando o GRIN, um novo modelo pra estimativa de profundidade usando dados esparsos.
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 8 min ler
O NVLM melhora a compreensão de linguagem e visuais da IA para várias tarefas.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 min ler
Esse trampo melhora a precisão do CLIP resolvendo a sobreposição intra-modal com adaptadores leves.
Alexey Kravets, Vinay Namboodiri
― 6 min ler
Uma nova estrutura melhora a segmentação com exemplos limitados.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 7 min ler
O SLAck oferece uma nova forma de acompanhar objetos diferentes em vídeos.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 8 min ler
Um marco para segmentação de poucos exemplos generalizada em sensoriamento remoto foi introduzido.
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 6 min ler
Um novo método melhora a estimativa de pose usando imagens RGB informadas por dados de profundidade.
Alessandro Simoni, Francesco Marchetti, Guido Borghi
― 7 min ler
O método TRIM reduz os tokens de imagem em modelos de linguagem multimodal, mantendo o desempenho.
Dingjie Song, Wenjun Wang, Shunian Chen
― 6 min ler
Uma nova estrutura estima com precisão a profundidade a partir de imagens desfocadas únicas.
Jinchang Zhang, Ningning Xu, Hao Zhang
― 7 min ler