Uma rede leve para estimativa de pose em tempo real em dispositivos móveis.
― 7 min ler
Ciência de ponta explicada de forma simples
Uma rede leve para estimativa de pose em tempo real em dispositivos móveis.
― 7 min ler
A gente propõe um jeito de melhorar a eficiência dos transformers de visão em dispositivos edge.
― 7 min ler
Aprenda a comparar medidas de probabilidade em estruturas de dados complexas.
― 8 min ler
Um novo método melhora a capacidade dos robôs de encontrar objetos em ambientes abertos.
― 9 min ler
Novos métodos melhoram a detecção de objetos pequenos na visão computacional.
― 8 min ler
Um novo método reduz a necessidade de dados rotulados em tarefas de visão computacional.
― 6 min ler
O modelo GCF melhora a precisão do reconhecimento de expressões faciais usando técnicas inovadoras de deep learning.
― 6 min ler
Uma nova estrutura tem como objetivo detectar e corrigir erros nos resultados de LVLM.
― 8 min ler
Novos métodos melhoram a criação de múltiplos objetos em imagens com precisão aprimorada.
― 8 min ler
Uma nova abordagem melhora a previsão de ações futuras usando insights visuais e semânticos.
― 7 min ler
Um novo método usando topologia melhora a detecção de pontos-chave em imagens.
― 8 min ler
O HRSAM melhora a eficiência e a precisão da segmentação de imagens para entradas de alta resolução.
― 7 min ler
HTCL melhora a compreensão de cenas 3D usando dados de câmera de quadros anteriores.
― 5 min ler
O Label Anything melhora a segmentação com menos exemplos e vários prompts.
― 6 min ler
CountFormer melhora a contagem de multidões através de processamento em múltiplas vistas, aumentando a precisão e flexibilidade.
― 6 min ler
Apresentando um novo modelo que junta texto e layout de um jeito eficiente pra entender documentos melhor.
― 5 min ler
O FlowTrack melhora o rastreamento ao focar nos movimentos de pontos individuais e em dados históricos.
― 6 min ler
Um novo método simplifica a modelagem 3D em ambientes usando sistemas de câmera-projetor não calibrados.
― 5 min ler
Um novo método melhora a detecção e rastreamento em veículos autônomos usando câmeras de múltiplas visões.
― 7 min ler
Novo método melhora a precisão da previsão visual através da representação de objetos.
― 5 min ler
CLAMP-ViT oferece uma nova forma de comprimir transformers visuais usando dados sintéticos.
― 8 min ler
Explora a evolução e os benefícios do YOLO na detecção de objetos.
― 6 min ler
Um novo método melhora a reconstrução de cenas urbanas em 3D a partir de diferentes ângulos.
― 6 min ler
Um novo framework analisa e reduz o viés em modelos de visão-linguagem através de intervenções específicas.
― 7 min ler
Um novo método melhora o aprendizado auto-supervisionado ao adicionar um componente de memória.
― 7 min ler
Um novo design de camada convolucional reduz parâmetros e melhora a interpretabilidade em modelos de IA.
― 7 min ler
Novo conjunto de dados melhora a geração de imagens e textos em Modelos de Visão-Linguagem.
― 5 min ler
Um novo método melhora a modelagem 3D a partir de vídeos de uma única câmera.
― 5 min ler
Apresentando um novo método para melhorar a generalização de domínio em aprendizado de máquina.
― 9 min ler
Um novo conjunto de dados ajuda a prever traços individuais a partir de imagens de corpo inteiro.
― 6 min ler
Um novo método ajuda os robôs a enxergar bem o que tá ao redor sem precisar de ajuda humana.
― 6 min ler
Essa pesquisa analisa como problemas visuais afetam modelos de Resposta a Perguntas Visuais.
― 8 min ler
Novos métodos de normalização melhoram a capacidade do Slot Attention de reconhecer objetos em imagens.
― 7 min ler
Um novo método melhora a estimativa de profundidade usando imagens de múltiplas câmeras.
― 5 min ler
Método de conjunto inovador melhora a precisão de modelos de linguagem e visuais.
― 8 min ler
Descubra como os modelos de difusão melhoram a augmentação de dados de imagem em machine learning.
― 9 min ler
Um novo método baseado em pontos melhora a compreensão de cenas para veículos autônomos.
― 6 min ler
Novo método melhora a precisão da segmentação de imagem usando classificação baseada em patch.
― 7 min ler
CLIP-CITE melhora os modelos CLIP para tarefas específicas, mantendo a flexibilidade.
― 7 min ler
TrackPGD testa os limites do rastreamento de objetos através de ataques adversariais avançados.
― 6 min ler