O NVLM melhora a compreensão de linguagem e visuais da IA para várias tarefas.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 min ler
Ciência de ponta explicada de forma simples
O NVLM melhora a compreensão de linguagem e visuais da IA para várias tarefas.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 min ler
Usando IA pra melhorar o diagnóstico precoce de doenças da retina com técnicas de imagem mais avançadas.
Fatema-E- Jannat, Sina Gholami, Jennifer I. Lim
― 9 min ler
A RenderWorld usa dados visuais pra uma tecnologia de dirigibilidade autônoma mais segura.
Ziyang Yan, Wenzhen Dong, Yihua Shao
― 6 min ler
OmniGen simplifica as tarefas de criação de imagens em um único modelo pra todo mundo.
Shitao Xiao, Yueze Wang, Junjie Zhou
― 6 min ler
Esse trampo melhora a precisão do CLIP resolvendo a sobreposição intra-modal com adaptadores leves.
Alexey Kravets, Vinay Namboodiri
― 6 min ler
O LPT++ melhora o reconhecimento de objetos em classes com poucos exemplos usando técnicas avançadas.
Bowen Dong, Pan Zhou, Wangmeng Zuo
― 8 min ler
Uma nova estrutura melhora a segmentação com exemplos limitados.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 7 min ler
Uma nova abordagem melhora a precisão na detecção de estenose aórtica por meio de aprendizado de máquina.
Ang Nan Gu, Michael Tsang, Hooman Vaseli
― 7 min ler
O SLAck oferece uma nova forma de acompanhar objetos diferentes em vídeos.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 8 min ler
Um marco para segmentação de poucos exemplos generalizada em sensoriamento remoto foi introduzido.
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 6 min ler
Um novo método combina vídeo, áudio e algoritmos pra detectar anomalias de forma mais eficiente.
Yuta Kaneko, Abu Saleh Musa Miah, Najmul Hassan
― 8 min ler
Uma olhada na Destilação de Esquecimento de Pontuação e seu impacto na IA generativa.
Tianqi Chen, Shujian Zhang, Mingyuan Zhou
― 6 min ler
SplatFields melhora a imagem 3D a partir de ângulos de câmera limitados, aumentando a qualidade e os detalhes.
Marko Mihajlovic, Sergey Prokudin, Siyu Tang
― 8 min ler
Usando dados sintéticos pra melhorar ferramentas de mobilidade pra pessoas cegas e com visão reduzida.
Hochul Hwang, Krisha Adhikari, Satya Shodhaka
― 8 min ler
Esse artigo analisa a confiabilidade dos modelos MIL em aplicações clínicas.
Hassan Keshvarikhojasteh
― 6 min ler
Um novo método melhora a estimativa de pose usando imagens RGB informadas por dados de profundidade.
Alessandro Simoni, Francesco Marchetti, Guido Borghi
― 7 min ler
OneEncoder conecta de forma eficiente imagens, texto, áudio e vídeo pra um processamento de informações melhor.
Bilal Faye, Hanane Azzag, Mustapha Lebbah
― 8 min ler
Novos métodos melhoram a precisão e a eficiência em reconhecer objetos semelhantes.
Edwin Arkel Rios, Femiloye Oyerinde, Min-Chun Hu
― 6 min ler
Aprenda a avaliar e comparar imagens de forma eficaz.
Gautier Dagan, Olga Loginova, Anil Batra
― 5 min ler
Esse modelo melhora o aprendizado da IA enquanto mantém o conhecimento do passado.
Min-Yeong Park, Jae-Ho Lee, Gyeong-Moon Park
― 7 min ler
Um novo sistema melhora as previsões de segurança para veículos autônomos em ambientes desafiadores.
Manthan Patel, Jonas Frey, Deegan Atha
― 8 min ler
A KALE usa metadados pra criar legendas maneiras pras obras de arte.
Yanbei Jiang, Krista A. Ehinger, Jey Han Lau
― 7 min ler
O TrajSSL melhora a detecção de objetos 3D usando menos dados rotulados através da previsão de movimento.
Philip Jacobson, Yichen Xie, Mingyu Ding
― 7 min ler
Explorando como os LLMs melhoram o raciocínio em diferentes tipos de dados.
Shengsheng Qian, Zuyi Zhou, Dizhan Xue
― 9 min ler
Descubra como o FlexiTex melhora a geração de texturas 3D através de orientações visuais.
DaDong Jiang, Xianghui Yang, Zibo Zhao
― 7 min ler
Novo modelo melhora a precisão na classificação de lesões cutâneas usando vários tipos de dados.
Yuan Zhang, Yutong Xie, Hu Wang
― 6 min ler
Uma nova estrutura estima com precisão a profundidade a partir de imagens desfocadas únicas.
Jinchang Zhang, Ningning Xu, Hao Zhang
― 7 min ler
Estudo mostra diferenças de desempenho em sistemas RIdV entre diferentes grupos.
Kaniz Fatima, Michael Schuckers, Gerardo Cruz-Ortiz
― 6 min ler
Transformers melhoram a precisão da classificação do Transtorno do Espectro Autista por meio de uma análise avançada de imagens cerebrais.
Yinchi Zhou, Peiyu Duan, Yuexi Du
― 8 min ler
A GCA-SUN melhora a contagem de objetos em imagens sem precisar de exemplos rotulados.
Yuzhe Wu, Yipeng Xu, Tianyu Xu
― 6 min ler
Um novo método reduz a necessidade de dados para treinar robôs com demonstrações visuais.
Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer
― 6 min ler
Um novo framework integra ajuste de bundles com PyTorch para melhorar a modelagem 3D.
Zitong Zhan, Huan Xu, Zihang Fang
― 7 min ler
Novas técnicas melhoram as previsões da disponibilidade de energia solar usando imagens do céu.
Leron Julian, Aswin C. Sankaranarayanan
― 6 min ler
Um novo método mistura áudio e expressões faciais para gerar vídeos realistas.
Sai Tanmay Reddy Chakkera, Aggelina Chatziagapi, Dimitris Samaras
― 7 min ler
MoRAG melhora a geração de movimento humano a partir de descrições em texto usando recuperação específica de partes.
Kalakonda Sai Shashank, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla
― 5 min ler
Melhorando a eficiência dos modelos em sensoriamento remoto através de técnicas de destilação de conhecimento.
Yassine Himeur, Nour Aburaed, Omar Elharrouss
― 7 min ler
Novos métodos melhoram a separação das medições de altura da superfície do mar pra uma análise melhor da dinâmica dos oceanos.
Jingwen Lyu, Yue Wang, Christian Pedersen
― 7 min ler
O WaveMixSR-V2 transforma imagens de baixa resolução em saídas de alta qualidade de forma eficiente.
Pranav Jeevan, Neeraj Nixon, Amit Sethi
― 6 min ler
Apresentando o PAD-FT, um método leve pra combater ataques de backdoor sem precisar de dados limpos.
Yukai Xu, Yujie Gu, Kouichi Sakurai
― 7 min ler
Este artigo compara Transformers de Visão e CNNs para classificar imagens de sonar de varredura lateral.
BW Sheffield, Jeffrey Ellen, Ben Whitmore
― 7 min ler