Correspondência de Imagens com Modelos de Difusão: Método DIFT
O DIFT usa modelos de difusão pra encontrar correspondências de imagem sem supervisão.
― 12 min ler
Índice
- Importância das Correspondências em Visão Computacional
- Como Funcionam os Modelos de Difusão
- Avaliando DIFT
- Trabalhos Relacionados
- Configuração do Problema
- Extraindo DIFT
- Correspondência Semântica
- Avaliação de Benchmark
- Resultados
- Outras Tarefas de Correspondência
- Discussão e Conclusão
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
Encontrar pontos correspondentes entre imagens é uma tarefa básica em visão computacional. Este trabalho mostra como essas Correspondências podem ocorrer em modelos de difusão de imagens sem precisar de orientações diretas.
Apresentamos um método simples, chamado DIffusion FeaTures (DIFT), para extrair informações de redes de difusão como se fossem características de imagem. Essas características ajudam a estabelecer correspondências entre imagens reais. Notavelmente, sem precisar de ajuste fino extra ou supervisão em tarefas específicas, o DIFT supera outros métodos de características fracas e prontos para uso ao encontrar diferentes tipos de correspondências, incluindo semânticas (baseadas em significado), geométricas (baseadas em forma) e temporais (baseadas em tempo).
Para correspondência semântica, o DIFT de um modelo de difusão amplamente utilizado chamado Stable Diffusion se sai melhor do que outros métodos, mostrando ganhos significativos em benchmarks de avaliação difíceis.
Importância das Correspondências em Visão Computacional
Encontrar correspondências entre imagens é crucial para muitos usos práticos, como construir modelos 3D, rastrear objetos, cortar segmentos de vídeo, editar imagens e traduzir uma imagem para outra. Enquanto é fácil para os humanos identificar correspondências entre diferentes imagens, como reconhecer características similares em vários ângulos, poses ou iluminação, as máquinas enfrentam um desafio em aprender essas conexões sem rótulos claros.
Os humanos aprendem essas associações por meio de observação e interação, precisando de poucos ou nenhum rótulo explícito. Surge a pergunta: será que os computadores podem aprender correspondências precisas sem rótulos?
Existem vários algoritmos para aprender a partir de dados não rotulados, incluindo métodos não supervisionados e auto-supervisionados. Evidências sugerem que técnicas auto-supervisionadas podem encontrar boas correspondências indiretamente.
Recentemente, um novo tipo de modelos auto-supervisionados ganhou atenção: modelos gerativos baseados em difusão. Principalmente conhecidos por criar imagens, esses modelos também produzem bons resultados em traduzir e editar imagens. Por exemplo, eles podem transformar um cachorro em um gato, mantendo a pose inalterada. Isso sugere que o modelo deve entender as partes correspondentes (como o olho do cachorro) para substituí-lo corretamente pelo olho do gato.
Então, os modelos de difusão de imagens aprendem essas correspondências? Descobrimos que sim. Descrevemos um método simples para extrair correspondências de imagens reais usando modelos de difusão pré-treinados.
Como Funcionam os Modelos de Difusão
Os modelos de difusão funcionam através de um processo que adiciona ruído às imagens e depois o remove gradualmente. No núcleo desses modelos, há um U-Net, que recebe uma imagem ruidosa como entrada e produz uma imagem clara como saída. Isso significa que eles já geram características que podem ser usadas para encontrar correspondências.
No entanto, como o U-Net aprende a remover o ruído das imagens, ele nem sempre funciona bem com imagens diretas. Nossa abordagem é adicionar ruído à imagem original antes de enviá-la para o U-Net, permitindo que ele extraia características úteis. Chamamos essas características de DIFT.
O DIFT pode ser usado para encontrar locais de pixels correspondentes em duas imagens ao comparar essas características. Descobrimos que as correspondências criadas usando DIFT são precisas e confiáveis, mesmo ao comparar diferentes categorias ou tipos de imagens.
Por exemplo, dado um ponto em uma imagem, queremos encontrar onde ele corresponde em outras. Sem nenhum ajuste fino ou rótulos, o DIFT consegue estabelecer correspondências em instâncias, categorias e até mesmo entre diferentes tipos de imagens, como de uma foto para uma pintura.
Avaliando DIFT
Testamos o DIFT em diferentes modelos de difusão e várias tarefas de correspondência, incluindo correspondências semânticas, geométricas e temporais. Comparámos o DIFT com outros métodos, incluindo abordagens específicas para tarefas e modelos auto-supervisionados treinados em conjuntos de dados semelhantes.
Apesar de sua simplicidade, o DIFT teve um desempenho forte em todas as tarefas sem quaisquer ajustes ou orientações especiais. Importante, ele superou métodos fracos e outras características auto-supervisionadas, mantendo um desempenho competitivo com métodos supervisionados de ponta em correspondência semântica.
Trabalhos Relacionados
Correspondência Visual
Encontrar correspondências visuais entre imagens é fundamental para tarefas como modelagem 3D, rastreamento de objetos, reconhecimento e segmentação. Tradicionalmente, as pessoas usavam características feitas à mão, mas com o surgimento do aprendizado profundo, métodos treinados em dados rotulados mostraram promessa. No entanto, essas abordagens têm dificuldades para escalar devido à necessidade de dados rotulados.
Esforços recentes mudaram para construir modelos de correspondência com supervisão fraca ou auto-supervisão. O aprendizado de representação auto-supervisionado produziu características fortes que podem ajudar a identificar correspondências entre imagens. Além disso, trabalhos anteriores mostraram que características de Redes Adversariais Generativas poderiam ser úteis para correspondência em certas categorias de imagens. Nosso trabalho contribui para essa ideia mostrando que modelos de difusão podem gerar características valiosas para correspondência visual entre várias imagens.
Modelos de Difusão
Os modelos de difusão são modelos gerativos notáveis. Eles demonstraram superioridade sobre GANs na geração de imagens de alta qualidade. Com avanços como orientação sem classificador, modelos de difusão foram treinados em conjuntos de dados massivos, resultando em modelos populares como Stable Diffusion. À medida que os pesquisadores exploram suas representações internas, as descobertas apontam para seu potencial em tarefas posteriores, incluindo correspondência visual.
No entanto, nossa abordagem é a primeira a avaliar a utilidade das características geradas por modelos de difusão pré-treinados especificamente para tarefas de correspondência.
Configuração do Problema
Nosso objetivo é encontrar locais de pixels correspondentes em duas imagens. As correspondências podem estar relacionadas a diferentes tipos de correspondência: semântica (significados semelhantes), geométrica (mesmo objeto de diferentes pontos de vista) ou Temporal (mesmo objeto ao longo do tempo).
O método simples para obter correspondências envolve extrair características de ambas as imagens e compará-las. Nós focamos no mapa de características denso e usamos métricas de distância para correspondência, principalmente a distância cosseno.
Extraindo DIFT
Entendendo os Modelos de Difusão
Os modelos de difusão transformam uma distribuição normal em uma distribuição de dados. No nosso caso, aplicamos isso a imagens, onde tanto os dados quanto o ruído gaussiano estão sobre o espaço de imagens 2D.
Durante o treinamento, adicionamos diferentes níveis de ruído gaussiano a pontos de dados limpos para criar versões ruidosas. Esse processo é chamado de "difusão para frente". Uma rede neural é treinada para pegar uma imagem ruidosa e prever o ruído adicionado. Na geração de imagens, o modelo "reversa" esse processo de difusão, removendo o ruído para gerar uma imagem clara.
Uma vez treinado, o modelo é usado para estimar o ruído de dados ruidosos dados e limpá-los passo a passo.
Seguindo esse processo, podemos extrair mapas de características ou ativações em etapas específicas durante o processo reverso. Esse método é eficaz para correspondência porque captura as informações necessárias para encontrar correspondências entre imagens.
Extraindo Características de Imagens Reais
Para validar nossa hipótese de que modelos de difusão aprendem correspondência, precisamos de um método para extrair informações de imagens reais. Inicialmente, usaremos imagens geradas onde podemos acessar todo o estado da rede. Extraímos mapas de características de camadas específicas durante o processo reverso.
O desafio surge quando tentamos aplicar isso a imagens reais, já que elas não se encaixam na distribuição de treinamento do modelo. Superamos isso simulando o processo de difusão para frente: adicionamos ruído à imagem real, transformando-a em uma distribuição adequada. Então, passamos pelo modelo para extrair as características DIFT.
Descobrimos que etapas de tempo maiores e camadas mais iniciais da rede geram características mais significativas. As melhores escolhas dependem das tarefas específicas, equilibrando detalhes Semânticos e de baixo nível.
Para melhorar a estabilidade da representação, fazemos uma média das características extraídas de várias versões ruidosas da imagem.
Correspondência Semântica
Usando DIFT, focamos em identificar pixels em imagens que compartilham significados semelhantes, como os olhos de diferentes gatos.
Visualizações em vários conjuntos de dados mostram que o DIFT identifica com sucesso correspondências, mesmo em cenas complexas, mudando pontos de vista e oclusões.
Variantes de Modelo e Linhas de Base
Testamos o DIFT em dois modelos de difusão bem conhecidos: Stable Diffusion e Ablated Diffusion Model. Para ver como os dados de treinamento impactam o desempenho do DIFT, também avaliamos duas características auto-supervisionadas populares treinadas em conjuntos de dados semelhantes: OpenCLIP e DINO.
Todas as comparações mostraram que o DIFT tem um bom desempenho sem qualquer ajuste fino ou supervisão adicional.
Avaliação de Benchmark
Conjuntos de Dados e Métricas de Avaliação
Avaliamos o DIFT em três benchmarks populares: SPair-71k, PF-WILLOW e CUB-200-2011. O SPair-71k é particularmente desafiador, com pares de imagens diversos.
Medimos nossos resultados relatando a porcentagem de pontos-chave corretos. Um ponto previsto é considerado correto se estiver dentro de uma certa distância do ponto verdadeiro.
Notamos diferenças no cálculo de correção em trabalhos anteriores, levando-nos a relatar ambas as métricas para uma comparação mais completa.
Resultados
Desempenho no SPair-71k
O DIFT supera significativamente vários métodos fracos enquanto também é competitivo com os melhores métodos supervisionados em quase todas as categorias, especialmente no SPair-71k.
A comparação mostra que mesmo sem supervisão, o DIFT se destaca em identificar correspondências em benchmarks e supera outras características prontas, como OpenCLIP e DINO.
Resultados Qualitativos
Para entender melhor o DIFT, visualizamos seu desempenho no SPair-71k. Os resultados visuais confirmam que o DIFT pode encontrar correspondências precisas em diversos cenários complexos, mesmo entre diferentes tipos de imagens.
Também examinamos correspondências entre categorias, onde o DIFT identifica com sucesso correspondências entre diferentes categorias de objetos.
Propagação de Edição
Um uso prático do DIFT é na edição de imagem. Podemos transferir edições de uma imagem para outras com características correspondentes.
Uma demonstração notável mostra que o DIFT propaga edições com sucesso entre diferentes instâncias e categorias, resultando em resultados precisos, ao contrário de outros métodos que têm dificuldades devido à falta de correspondências confiáveis.
Outras Tarefas de Correspondência
Correspondência Geométrica
O DIFT também mostra resultados fortes em tarefas de correspondência geométrica. Com foco em detalhes de baixo nível, o DIFT é valioso para tarefas como estimativa de homografia.
Nós o avaliamos usando o benchmark HPatches, demonstrando que mesmo sem treinamento Geométrico explícito, o DIFT tem um desempenho comparável a métodos que dependem de supervisão geométrica.
Correspondência Temporal
O DIFT exibe um desempenho robusto em tarefas de correspondência temporal, como segmentação de vídeo e rastreamento de pose.
Testamos no SPair-71k e em dois benchmarks de vídeo desafiadores, e o DIFT superou outros métodos auto-supervisionados, mesmo aqueles treinados especificamente para dados de vídeo.
Discussão e Conclusão
O DIFT revela que a correspondência surge de modelos de difusão de imagem sem precisar de supervisão clara. Apresentamos uma técnica fácil para extrair esse conhecimento implícito como mapas de características úteis para várias tarefas de correspondência em imagens reais.
Apesar da ausência de supervisão, o DIFT supera métodos fracos e características prontas na identificação de diferentes tipos de correspondência. Ele também se mantém forte contra métodos supervisionados de alto nível em correspondência semântica.
Nossas descobertas visam promover mais explorações sobre como melhor aproveitar essas correspondências emergentes de modelos de difusão de imagem e repensar seu papel no aprendizado auto-supervisionado.
Considerações Éticas
Embora o DIFT utilize modelos de difusão publicamente disponíveis, conjuntos de dados existentes podem trazer problemas como preconceitos e estereótipos. Esses preconceitos podem afetar a eficácia da correspondência para vários tipos de imagem.
Num cenário ideal, treinar em um conjunto de dados curado poderia resultar em melhores resultados. No entanto, o alto custo e a complexidade de treinar modelos de difusão podem dificultar tais esforços em ambientes acadêmicos. Esperamos que nossas descobertas motivem futuras iniciativas para desenvolver modelos de difusão cuidadosamente construídos.
Conclusão
Este trabalho mostra que modelos de difusão de imagem podem identificar correspondências entre imagens sem supervisão explícita. Introduzimos o DIFT para extrair características de redes de difusão, facilitando diversas tarefas de correspondência.
Através de testes extensivos, estabelecemos que o DIFT supera métodos fracos e características prontas na identificação de correspondências semânticas, geométricas e temporais, mantendo um desempenho equivalente aos melhores métodos supervisionados em correspondência semântica.
Esperamos que esta pesquisa abra caminho para estudos futuros sobre como utilizar correspondências emergentes de difusão de imagem e desenvolver modelos auto-supervisionados de maneira eficaz.
Título: Emergent Correspondence from Image Diffusion
Resumo: Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowledge out of diffusion networks as image features, namely DIffusion FeaTures (DIFT), and use them to establish correspondences between real images. Without any additional fine-tuning or supervision on the task-specific data or annotations, DIFT is able to outperform both weakly-supervised methods and competitive off-the-shelf features in identifying semantic, geometric, and temporal correspondences. Particularly for semantic correspondence, DIFT from Stable Diffusion is able to outperform DINO and OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k benchmark. It even outperforms the state-of-the-art supervised methods on 9 out of 18 categories while remaining on par for the overall performance. Project page: https://diffusionfeatures.github.io
Autores: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
Última atualização: 2023-12-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.03881
Fonte PDF: https://arxiv.org/pdf/2306.03881
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/ShuaiyiHuang/SCorrSAN/blob/bc06425a3f1af4c0d7c878bed5f42ff9d468fbab/utils_training/evaluation.py
- https://github.com/wpeebles/gangealing/blob/ffa6387c7ffd3f7de76bdc693dc2272e274e9bfd/applications/pck.py
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://diffusionfeatures.github.io