A RetiZero melhora a identificação de doenças oculares usando técnicas de IA avançadas e um monte de dados.
― 6 min ler
Ciência de ponta explicada de forma simples
A RetiZero melhora a identificação de doenças oculares usando técnicas de IA avançadas e um monte de dados.
― 6 min ler
Um jeito de melhorar os modelos dos alunos usando insights de modelos de professores mais fortes.
― 6 min ler
Um novo sistema permite a criação de modelos 3D usando imagens únicas do mundo real.
― 7 min ler
Uma nova abordagem para segmentação de objetos em vídeo melhora a precisão ao limitar o uso de memória.
― 9 min ler
Novo método transforma imagens únicas em avatares 3D realistas.
― 5 min ler
Um novo modelo melhora a correspondência do som com as ações visuais em vídeos.
― 13 min ler
Um novo método pra reconstruir objetos complexos usando entrada visual e técnicas de codificação.
― 6 min ler
Um método novo pra criar imagens a partir de texto usando modelos especializados.
― 5 min ler
Um conjunto de dados completo que junta imagens e texto pra ajudar o aprendizado de máquina.
― 8 min ler
Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.
― 7 min ler
Um novo modelo gera efeitos de fonte únicos para várias línguas.
― 6 min ler
Um novo conjunto de dados melhora a avaliação da qualidade de imagem na microscopia.
― 9 min ler
ConSoR melhora a compreensão das conexões sociais através da análise do contexto visual.
― 9 min ler
Uma nova abordagem melhora a robustez dos Transformers de Visão contra ataques adversariais.
― 6 min ler
Um novo modelo melhora a precisão da estimativa de profundidade usando técnicas de aprendizado auto-supervisionado.
― 8 min ler
hGCA automatiza a criação de cenas 3D realistas usando dados LiDAR esparsos.
― 7 min ler
Novos métodos melhoram conjuntos de dados de imagem enquanto garantem privacidade e desempenho.
― 6 min ler
A pesquisa foca em melhorar a eficiência nos modelos de compreensão de documentos.
― 9 min ler
Um novo benchmark testa o raciocínio composicional em modelos avançados.
― 8 min ler
CFG++ melhora a geração e edição de imagens, proporcionando uma melhor alinhamento com os comandos de texto.
― 7 min ler
ABTrack melhora a velocidade e a eficiência do rastreamento visual em vários dispositivos.
― 7 min ler
Um benchmark criado pra melhorar a compreensão de conteúdos em vídeo longos.
― 8 min ler
Utilizando imagens de satélite e aprendizado de máquina pra melhorar o mapeamento de favelas e as condições de vida.
― 7 min ler
Um novo conjunto de dados melhora a criação de áudio foley para conteúdo multimídia.
― 7 min ler
Novo método melhora a seleção de bandas para imagem hiperespectral sem precisar re-treinar.
― 6 min ler
Um novo método melhora a precisão dos modelos de aprendizado de máquina em dados não vistos.
― 7 min ler
Um conjunto de dados completo para reconhecimento e pesquisa de texto árabe manuscrito.
― 7 min ler
ImageNet3D melhora a compreensão de máquinas sobre objetos 3D em imagens.
― 7 min ler
Uma nova rede neural melhora o reconhecimento de cores pra uma classificação de imagem melhor.
― 6 min ler
Novo conjunto de dados melhora as habilidades de pegar dos robôs usando comandos em linguagem natural.
― 7 min ler
SeMOPO melhora o aprendizado a partir de dados de baixa qualidade, separando informações úteis do barulho.
― 5 min ler
Explorando ameaças à privacidade em processamento de imagem usando modelos de difusão e gradientes vazados.
― 9 min ler
Um novo modelo melhora a compreensão de vídeos ao juntar codificadores de imagem e vídeo.
― 9 min ler
Uma nova perspectiva sobre como melhorar a criação de imagens através da amostragem por destilação de pontuação.
― 8 min ler
Uma mudança de patches pra pixels na visão computacional tá mudando a análise de imagens.
― 7 min ler
Personalizando modelos generativos pra refletir identidades únicas através do espaço de pesos.
― 8 min ler
Esse estudo apresenta um novo método pra identificar as imagens de treinamento chave em visuais gerados por IA.
― 9 min ler
Este artigo analisa como Modelos de Espaço de Estado Visual lidam com desafios visuais.
― 7 min ler
Um novo framework melhora o raciocínio em modelos de linguagem através de esboços visuais.
― 4 min ler
MMScan melhora a capacidade da IA de entender ambientes 3D complexos com anotações extensas.
― 8 min ler