Pesquisa sobre como melhorar a estimativa de pose humana usando conjuntos de dados variados e aumento de modelos.
― 7 min ler
Ciência de ponta explicada de forma simples
Pesquisa sobre como melhorar a estimativa de pose humana usando conjuntos de dados variados e aumento de modelos.
― 7 min ler
Uma comparação das medidas de qualidade de imagem na geração de imagens modernas.
― 6 min ler
Esse artigo fala sobre a integração do aprendizado auto-supervisionado e modelos baseados em energia em machine learning.
― 7 min ler
O novo modelo GazeCLIP melhora a estimativa de olhar ao combinar dados visuais e percepções de linguagem.
― 8 min ler
O GD-NeRF dá um jeito na embaçação das imagens na síntese de novas visões.
― 6 min ler
Um novo método melhora a segmentação semântica sem precisar de dados de origem durante a adaptação.
― 6 min ler
Um novo modelo de rede neural melhora o reconhecimento de texto em várias tarefas e domínios.
― 11 min ler
Novo framework melhora o desempenho do modelo com dados de qualidade.
― 8 min ler
Explore como os Modelos de Difusão melhoram a super-resolução em várias áreas.
― 6 min ler
Um novo método melhora a estimativa de profundidade a partir de imagens RGB únicas pra detectar objetos 3D melhor.
― 9 min ler
Novas técnicas melhoram o desempenho do modelo usando dados rotulados limitados.
― 9 min ler
Um novo método melhora a geração de amostras positivas em aprendizado auto-supervisionado.
― 8 min ler
Uma nova estrutura melhora o raciocínio visual usando modelos de linguagem como controladores.
― 6 min ler
Nova abordagem melhora a habilidade dos modelos generativos de criar imagens realistas.
― 8 min ler
Analisando o papel do few-shot learning em modelos base multi-modais.
― 9 min ler
Novo método melhora o aprendizado de novas classes com menos dados.
― 5 min ler
Um novo conjunto de dados melhora o reconhecimento de pessoas em diferentes ângulos de câmeras.
― 9 min ler
Essa pesquisa melhora a classificação de imagens usando descrições detalhadas geradas por modelos de linguagem.
― 6 min ler
ProText melhora modelos de visão-linguagem usando dados só de texto pra lidar melhor com as tarefas.
― 7 min ler
Um olhar sobre o framework MacCap e seu impacto na legendagem de imagens.
― 6 min ler
Esse artigo fala sobre jeitos de reduzir os ruídos em Vision Transformers pra melhorar a qualidade das características.
― 7 min ler
Um novo framework otimiza Redes Neurais Tensoriais pra melhorar a eficiência e o desempenho.
― 7 min ler
Novo modelo gera texto usando representações de pixels, melhorando a clareza e o desempenho.
― 12 min ler
RePGARS melhora o reconhecimento de atividades usando poses renderizadas sem depender de rastreamento preciso.
― 7 min ler
IATS melhora a detecção de texto ao lidar com os desafios do reconhecimento de texto de forma inversa.
― 7 min ler
SeTformer melhora a eficiência no processamento de imagens e linguagem.
― 8 min ler
O STAIR melhora a resposta a perguntas em vídeos dividindo as perguntas em tarefas mais fáceis de lidar.
― 7 min ler
Este artigo fala sobre técnicas melhoradas para rastrear objetos transparentes em vídeos.
― 11 min ler
Um novo método melhora o desempenho dos Transformers de Visão em tarefas de reconhecimento de imagem.
― 7 min ler
NeRFmentation melhora a estimativa de profundidade monocular usando dados sintéticos pra treinar o modelo melhor.
― 8 min ler
Surf combina métodos explícitos e implícitos para melhorar a modelagem 3D.
― 7 min ler
Novo modelo melhora o rastreamento e reconhecimento de texto em conteúdo de vídeo.
― 5 min ler
Um novo conjunto de dados para melhorar o reconhecimento de imagens e textos em e-commerce.
― 8 min ler
O DiffSketch permite que artistas criem esboços estilizados a partir de apenas um exemplo.
― 6 min ler
Uma nova arquitetura melhora o processamento de dados visuais baseados em eventos de forma eficiente.
― 7 min ler
Esse estudo apresenta um novo método para detecção confiável de objetos em ambientes complexos.
― 11 min ler
Uma nova abordagem usando modelos de difusão pra melhorar a representação de cenas em vídeos.
― 7 min ler
Analisando como diferentes modelos para imagens e texto podem funcionar juntos de forma eficaz.
― 7 min ler
O TRIPS melhora a eficiência em tarefas de visão-linguagem selecionando partes de imagem relevantes.
― 8 min ler
Pesquisas destacam o uso de pré-treinamento auto-supervisionado na análise de imagens GIE.
― 8 min ler