Como modelos pré-treinados impactam o desempenho em novos dados.
― 5 min ler
Ciência de ponta explicada de forma simples
Como modelos pré-treinados impactam o desempenho em novos dados.
― 5 min ler
Novo método melhora os patches adversariais, misturando eficácia com aparência natural.
― 9 min ler
SEED conecta imagens e texto, melhorando como as máquinas processam informações visuais e escritas.
― 6 min ler
Novo método melhora a detecção de vários objetos em movimento em imagens.
― 5 min ler
Explorando o potencial de modelos de peso amarrado com múltiplas máscaras em aprendizado de máquina.
― 6 min ler
Um novo framework melhora a detecção de objetos 3D ao lidar com os desafios de adaptação de domínio.
― 6 min ler
Novo método melhora a correspondência de grafos sem dados rotulados usando consistência de ciclos.
― 8 min ler
Um novo método melhora a eficiência e o desempenho em tarefas de visão-linguagem.
― 7 min ler
Uma nova técnica para classificar imagens de forma mais eficiente com poucos dados.
― 7 min ler
Um novo método usa matemática básica pra analisar conteúdo de vídeo de forma eficaz.
― 6 min ler
Novo método melhora a visão computacional em pouca luz sem dados de treinamento à noite.
― 6 min ler
Explorando modelos de difusão para geração e classificação de imagens.
― 6 min ler
Um novo modelo melhora as conexões entre texto, imagens e áudio.
― 7 min ler
Um novo modelo que melhora o desempenho em tarefas visuais ao combinar CNNs e Transformers.
― 6 min ler
O framework MonoLiG melhora a detecção 3D usando câmeras monoculares e dados de LiDAR.
― 8 min ler
A NORIS melhora a seleção de imagens pra treinar modelos de detecção de objetos de forma eficiente.
― 8 min ler
Robust-Depth melhora a estimativa de profundidade em diferentes condições climáticas.
― 9 min ler
Um novo método melhora a geração de imagens usando dados rotulados e não rotulados que são menos confiáveis.
― 7 min ler
A estrutura HST mostra melhorias significativas no rastreamento de objetos entre os quadros do vídeo.
― 6 min ler
LOAF oferece um novo conjunto de dados para detectar pessoas usando câmeras olho de peixe instaladas no teto.
― 8 min ler
Um novo método melhora como as máquinas respondem perguntas sobre imagens.
― 6 min ler
SDS-CLIP melhora as habilidades de raciocínio imagem-texto do CLIP.
― 7 min ler
RepViT combina CNNs e ViTs pra aplicações de visão móvel eficientes.
― 7 min ler
O modelo ConViT melhora o reconhecimento de ações humanas em imagens paradas usando deep learning.
― 7 min ler
Pesquisas mostram que um novo conjunto de dados tá melhorando o desempenho dos modelos de VQA com o tempo.
― 6 min ler
OnlineRefer melhora a segmentação de objetos em vídeo conectando os quadros por meio da propagação de consultas.
― 7 min ler
Este estudo avalia a eficácia dos modelos de VQA em cenários de direção.
― 6 min ler
Um método para ancoragem visual 3D usando anotações mínimas.
― 5 min ler
Uma nova abordagem melhora a identificação de indivíduos em imagens com extração de características avançadas.
― 7 min ler
LW PLG-ViT oferece um desempenho eficiente para tarefas visuais em dispositivos com recursos limitados.
― 5 min ler
Um novo módulo melhora a estimativa de pose 3D ao integrar informações de ação.
― 6 min ler
Um novo método melhora a regressão ordinal ao diferenciar melhor categorias próximas.
― 5 min ler
Um novo método melhora as nuvens de pontos pra uma análise 3D melhor.
― 5 min ler
Este artigo fala sobre um novo modelo pra melhorar a percepção de profundidade em robôs usando vários sensores.
― 10 min ler
Legendas melhores podem melhorar o desempenho de modelos multimodais usando imagens da web.
― 7 min ler
Um conjunto de dados revolucionário tem como objetivo melhorar a precisão da renderização humana em mídias digitais.
― 5 min ler
Um novo método melhora a eficiência da segmentação semântica da IA com menos exemplos rotulados.
― 7 min ler
Uma nova abordagem melhora a confiabilidade do modelo de deep learning ao medir a incerteza.
― 8 min ler
Uma nova abordagem melhora a localização de objetos ao focar na aparência geral.
― 7 min ler
Apresentando o PoInt-Net para decomposição avançada de imagens intrínsecas usando nuvens de pontos 3D.
― 11 min ler