Um novo método melhora a visibilidade do texto em iluminação difícil.
― 5 min ler
Ciência de ponta explicada de forma simples
Um novo método melhora a visibilidade do texto em iluminação difícil.
― 5 min ler
Um estudo sobre como melhorar o reconhecimento de localização de robôs móveis usando redes neurais avançadas.
― 7 min ler
Uma abordagem nova melhora a remoção de ruído usando uma função de perda com restrição de traço.
― 8 min ler
Novos métodos melhoram a eficiência de rastreamento de objetos e anotação em processamento de vídeo.
― 9 min ler
Um novo parâmetro melhora como a gente avalia os LVLMs e a precisão deles.
― 6 min ler
Novo framework usa grandes modelos de linguagem pra entender cenas em 3D a partir de imagens.
― 9 min ler
Este artigo fala sobre a importância e as técnicas de reconhecer objetos em 3D usando várias perspectivas.
― 8 min ler
Um novo método melhora o reconhecimento de vídeos, mesmo sem áudio ou elementos visuais.
― 11 min ler
Um novo método melhora o treino de IA agrupando dados em clusters pra ter mais precisão.
― 7 min ler
Um novo modelo melhora a detecção e segmentação de objetos enquanto lida com desafios importantes.
― 4 min ler
Estamos juntando dados de câmera e radar para melhorar a detecção de objetos em veículos autônomos.
― 13 min ler
A SynCellFactory gera vídeos de células sintéticas pra melhorar os dados de treino e facilitar o rastreamento.
― 7 min ler
Aprenda como novos métodos melhoram as conexões visuais e textuais dos modelos.
― 6 min ler
Um novo método melhora o reconhecimento de ações a partir de dados de esqueleto usando técnicas avançadas de pooling.
― 6 min ler
Este artigo fala sobre como usar legendas de imagens pra encontrar vídeos de forma eficiente.
― 7 min ler
Novo modelo melhora a estimativa de profundidade usando dados de câmera de eventos através de algoritmos eficientes.
― 9 min ler
Esse estudo combina câmeras RGB-D e IMUs pra ter uma estimativa de movimento melhor.
― 7 min ler
Novo método melhora a forma como as máquinas navegam e entendem comandos de linguagem.
― 7 min ler
Novo modelo melhora o reconhecimento do ambiente do veículo usando câmeras e LiDAR.
― 6 min ler
Apresentando o conjunto de dados ViOCRVQA pra melhorar a resposta a perguntas visuais em vietnamita.
― 8 min ler
O ShapeMoiré melhora a qualidade da imagem removendo de forma eficaz os padrões de moiré indesejados.
― 6 min ler
Llip melhora como as imagens são combinadas com diferentes descrições textuais.
― 7 min ler
Um olhar conciso sobre alucinações em MLLMs e estratégias pra melhorar a confiabilidade.
― 7 min ler
O SGD-PH combina métodos de primeira e segunda ordem pra ter um desempenho melhor no treinamento do modelo.
― 7 min ler
Um conjunto de dados abrangente de imagens de street view para projetos de geolocalização no mundo todo.
― 7 min ler
Um modelo se adapta a várias tarefas de imagem usando exemplos mínimos.
― 9 min ler
Novo método melhora a remoção de sombras em imagens usando aprendizado profundo e transformadores.
― 10 min ler
Novos métodos melhoram a análise de cenas visuais usando técnicas de codificação eficientes.
― 6 min ler
Um estudo revela insights sobre o equilíbrio entre entradas visuais e textuais em VLMs.
― 6 min ler
O MV-RGBT oferece um conjunto de dados realista pra avaliar métodos de rastreamento RGBT.
― 7 min ler
Esse artigo explora a parametrização medial, uma técnica pra descrever formas planas complexas.
― 8 min ler
Novas técnicas reduzem o acesso à memória e aumentam o desempenho em modelos de aprendizado profundo.
― 5 min ler
Apresentando o LVOS: um dataset pra rastrear objetos em vídeos longos.
― 8 min ler
Kite melhora a estimativa de transferibilidade pra uma seleção de modelo melhor em aprendizado de transferência.
― 7 min ler
Uma nova abordagem melhora a geração de imagens com múltiplos sujeitos usando manipulação de layout.
― 8 min ler
Um novo método melhora o reconhecimento de objetos ao incentivar a composição nas representações de imagem.
― 8 min ler
A Wake Vision melhora a detecção de pessoas para TinyML com um baita conjunto de dados.
― 8 min ler
Explora a ascensão e a eficiência dos Transformers de Visão no processamento de imagem.
― 9 min ler
O M3Net melhora a segmentação LiDAR para carros autônomos ao integrar diferentes conjuntos de dados e sensores.
― 8 min ler
Novo conjunto de dados melhora a performance do modelo em tarefas com várias imagens.
― 6 min ler