Um conjunto de dados completo que junta imagens e texto pra ajudar o aprendizado de máquina.
― 8 min ler
Ciência de ponta explicada de forma simples
Um conjunto de dados completo que junta imagens e texto pra ajudar o aprendizado de máquina.
― 8 min ler
Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.
― 7 min ler
Um novo modelo gera efeitos de fonte únicos para várias línguas.
― 6 min ler
Um novo conjunto de dados melhora a avaliação da qualidade de imagem na microscopia.
― 9 min ler
ConSoR melhora a compreensão das conexões sociais através da análise do contexto visual.
― 9 min ler
Uma nova abordagem melhora a robustez dos Transformers de Visão contra ataques adversariais.
― 6 min ler
Um novo modelo melhora a precisão da estimativa de profundidade usando técnicas de aprendizado auto-supervisionado.
― 8 min ler
hGCA automatiza a criação de cenas 3D realistas usando dados LiDAR esparsos.
― 7 min ler
Novos métodos melhoram conjuntos de dados de imagem enquanto garantem privacidade e desempenho.
― 6 min ler
A pesquisa foca em melhorar a eficiência nos modelos de compreensão de documentos.
― 9 min ler
Um novo benchmark testa o raciocínio composicional em modelos avançados.
― 8 min ler
CFG++ melhora a geração e edição de imagens, proporcionando uma melhor alinhamento com os comandos de texto.
― 7 min ler
ABTrack melhora a velocidade e a eficiência do rastreamento visual em vários dispositivos.
― 7 min ler
Um benchmark criado pra melhorar a compreensão de conteúdos em vídeo longos.
― 8 min ler
Utilizando imagens de satélite e aprendizado de máquina pra melhorar o mapeamento de favelas e as condições de vida.
― 7 min ler
Um novo conjunto de dados melhora a criação de áudio foley para conteúdo multimídia.
― 7 min ler
Novo método melhora a seleção de bandas para imagem hiperespectral sem precisar re-treinar.
― 6 min ler
Um novo método melhora a precisão dos modelos de aprendizado de máquina em dados não vistos.
― 7 min ler
Um conjunto de dados completo para reconhecimento e pesquisa de texto árabe manuscrito.
― 7 min ler
ImageNet3D melhora a compreensão de máquinas sobre objetos 3D em imagens.
― 7 min ler
Uma nova rede neural melhora o reconhecimento de cores pra uma classificação de imagem melhor.
― 6 min ler
Novo conjunto de dados melhora as habilidades de pegar dos robôs usando comandos em linguagem natural.
― 7 min ler
SeMOPO melhora o aprendizado a partir de dados de baixa qualidade, separando informações úteis do barulho.
― 5 min ler
Explorando ameaças à privacidade em processamento de imagem usando modelos de difusão e gradientes vazados.
― 9 min ler
Um novo modelo melhora a compreensão de vídeos ao juntar codificadores de imagem e vídeo.
― 9 min ler
Uma nova perspectiva sobre como melhorar a criação de imagens através da amostragem por destilação de pontuação.
― 8 min ler
Uma mudança de patches pra pixels na visão computacional tá mudando a análise de imagens.
― 7 min ler
Personalizando modelos generativos pra refletir identidades únicas através do espaço de pesos.
― 8 min ler
Esse estudo apresenta um novo método pra identificar as imagens de treinamento chave em visuais gerados por IA.
― 9 min ler
Este artigo analisa como Modelos de Espaço de Estado Visual lidam com desafios visuais.
― 7 min ler
Um novo framework melhora o raciocínio em modelos de linguagem através de esboços visuais.
― 4 min ler
MMScan melhora a capacidade da IA de entender ambientes 3D complexos com anotações extensas.
― 8 min ler
Um novo método ajuda a IA a ter conversas pessoais sobre assuntos específicos.
― 5 min ler
Os pesquisadores querem melhorar a compreensão das máquinas sobre as atividades diárias através da análise de vídeos.
― 7 min ler
SimGen melhora o treinamento de carros autônomos com dados sintéticos realistas.
― 9 min ler
Explorando o papel dos VLGFMs na análise de dados geoespaciais.
― 6 min ler
Um novo método cria rapidamente modelos 3D detalhados de cabeças a partir de imagens 2D.
― 8 min ler
Novo método melhora a precisão na estimativa de profundidade usando imagens únicas.
― 8 min ler
Um novo modelo melhora os métodos de compreensão e avaliação de vídeo.
― 6 min ler
Um novo método melhora a adaptabilidade do modelo entre domínios usando aprendizado por prompt e alinhamento de gradiente.
― 7 min ler