Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Aprendizagem automática# Aprendizagem de máquinas

Avançando a Geração Condicional com Técnicas Geodésicas de Wasserstein

Um gerador de novelas melhora a criação de imagens em várias categorias usando métodos de transporte ótimo.

― 9 min ler


Avanço no GeradorAvanço no GeradorGeodésico de Wassersteingeração de imagens condicionais.Novo método melhora o realismo na
Índice

Gerar amostras que se encaixem em certas categorias, como idade ou emoção, pode ser complicado. Essa tarefa é conhecida como geração condicional. É útil em várias áreas, incluindo criação de imagens, conversões de texto para imagem e expansão de dados para um treinamento de modelo melhor. Métodos tradicionais pegam ideias de técnicas avançadas de geração de imagem, muitas vezes usando redes neurais profundas para transformar variáveis ocultas em imagens.

Alguns dos métodos mais conhecidos incluem autoencoders variacionais condicionais (cVAE), redes adversariais generativas condicionais (cGAN) e autoencoders adversariais condicionais (cAAE). A ideia principal é incluir os rótulos de categoria nas variáveis ocultas, permitindo que o gerador crie imagens com base tanto nas variáveis ocultas quanto na categoria específica.

Embora muitos desses métodos tenham mostrado resultados impressionantes para categorias específicas, eles costumam ter dificuldade em criar amostras realistas para categorias que ficam entre as conhecidas. Por exemplo, treinar modelos com imagens de pessoas na casa dos 20 e 50 anos pode permitir que eles gerem imagens de pessoas na casa dos 30 e 40, mas isso não garante que as imagens geradas vão parecer suaves ou realistas.

Para resolver esses problemas, apresentamos um novo conceito chamado gerador geodésico de Wasserstein. Em vez de depender de métodos tradicionais, nossa abordagem usa princípios da teoria do transporte ótimo para criar uma conexão mais suave entre as diferentes categorias. A geodésica de Wasserstein representa o caminho mais curto entre duas distribuições, e nosso gerador aprende esse caminho para criar imagens que transitam de forma lógica e suave entre categorias observadas e não observadas.

Contexto

Modelos Geradores

Modelos geradores têm como objetivo aprender a criar novos pontos de dados com base em dados existentes. A maioria dos modelos geradores para imagens se baseia em variações de técnicas de aprendizado profundo, como VAEs, GANs e AAEs. Esses métodos funcionam gerando dados por meio de redes que aprendem as conexões entre variáveis ocultas e os pontos de dados.

VAEs consistem em duas partes: um codificador que mapeia os dados para variáveis ocultas e um decodificador que constrói dados a partir dessas variáveis ocultas. O modelo visa maximizar a probabilidade dos dados observados, o que muitas vezes é problemático devido à complexidade dos dados do mundo real.

GANs introduzem uma abordagem um pouco diferente. Eles envolvem duas redes: um gerador que cria novos dados e um discriminador que avalia e informa o gerador sobre a qualidade das amostras criadas. O objetivo é minimizar as diferenças entre os dados gerados e os reais, levando a amostras mais realistas.

AAEs combinam ideias de VAEs e GANs usando codificadores, geradores e discriminadores para criar e avaliar dados. No entanto, eles podem ter dificuldades em gerar dados que se encaixem entre categorias, geralmente exigindo suposições fortes sobre os dados.

Modelos Geradores Condicionais

Na geração condicional, modelos ajustam sua saída com base em rótulos de categoria específicos, como emoção ou idade. A maioria dos métodos pega os modelos geradores mencionados anteriormente e adiciona um mecanismo que vincula os rótulos de categoria às variáveis ocultas. Por exemplo, em um cVAE, o codificador recebe tanto os dados quanto os rótulos de categoria, enquanto o gerador usa essa informação para criar saídas que se alinham com os rótulos dados.

Embora esses métodos possam gerar saídas realistas para categorias conhecidas, muitas vezes falham quando se trata de categorias não observadas ou intermediárias. Por exemplo, um modelo treinado apenas com imagens de pessoas na casa dos 20 e 50 anos pode ter dificuldades para produzir imagens realistas de pessoas na casa dos 30. Isso se deve, em parte, à falta de um quadro teórico que explique como as diferentes distribuições de categoria se conectam.

A Distância de Wasserstein

A distância de Wasserstein é um conceito matemático que mede a distância entre distribuições de probabilidade. Especificamente, ela quantifica o custo de transportar uma distribuição para coincidir com outra. Essa ideia é particularmente útil em modelos geradores, pois pode fornecer resultados de treinamento mais claros e estáveis em comparação com outras distâncias estatísticas.

Ao utilizar a distância de Wasserstein, os modelos podem produzir transições mais suaves entre distribuições. Ao gerar categorias não observadas, o objetivo é criar uma distribuição que fique ao longo do caminho, ou geodésica, definida pela distância de Wasserstein entre duas categorias conhecidas.

Método Proposto: Gerador Geodésico de Wasserstein

O gerador geodésico de Wasserstein visa criar amostras realistas tanto de categorias observadas quanto não observadas, aproveitando as propriedades da teoria do transporte ótimo. Os principais componentes do método proposto incluem sua capacidade de aprender distribuições condicionais enquanto navega pelo espaço definido pela distância de Wasserstein.

Aprendendo a Geodésica de Wasserstein

Nosso método foca primeiro em aprender as distribuições condicionais associadas a categorias observadas. Essas distribuições servem como vértices no espaço definido pela distância de Wasserstein. O gerador então aprende a definir as arestas ou conexões entre esses vértices para criar uma distribuição que fique dentro da geodésica.

O gerador consiste em três redes principais: um codificador, um gerador e um mapa de transporte. O codificador aprende como mapear dados para variáveis ocultas, enquanto o gerador usa essas variáveis para produzir novos dados. O mapa de transporte conecta as distribuições observadas para gerar amostras de categorias não observadas.

Essa abordagem permite que o modelo gere amostras de categorias não observadas ao seguir com precisão o caminho mais curto no espaço de Wasserstein. Em outras palavras, o método passa por uma série de etapas para garantir que os dados gerados permaneçam suaves, sem saltos abruptos entre categorias.

Distribuições Condicionais e Mapas de Transporte

Para aprender as conexões entre categorias observadas, introduzimos o que chamamos de sub-acoplamentos condicionais. Esses sub-acoplamentos fornecem uma estrutura para caracterizar como as distribuições condicionais interagem umas com as outras no espaço de Wasserstein.

Ao utilizar mapas de Transporte Ótimos, o gerador aprende a criar uma transição suave de uma distribuição para a próxima. Como resultado, o método pode gerar amostras realistas para categorias não observadas ao interpolar entre categorias conhecidas.

Fundamentos Teóricos

Nosso trabalho estabelece uma base teórica sólida para entender como as distribuições condicionais mudam ao longo das categorias de domínio. Ao derivar um limite superior tratável da distância de Wasserstein entre distribuições condicionais, fornecemos uma base matemática para garantir que as amostras geradas permaneçam críveis.

As amostras de saída produzidas pelo nosso gerador se parecerão de perto com aquelas do baricentro de Wasserstein quando as distribuições das variáveis latentes nas categorias observadas forem idênticas. O baricentro serve como o centróide para múltiplas distribuições observadas, permitindo a geração suave de categorias não observadas.

Resultados Experimentais

Realizamos uma série de experimentos para validar a eficácia do gerador geodésico de Wasserstein. O foco principal foi avaliar o quão bem o método gerou imagens sob várias condições de luz, com essas condições atuando como os rótulos de categoria.

Conjunto de Dados e Configuração

Os experimentos usaram um conjunto de dados de imagens faciais que contém uma variedade de sujeitos, poses e condições de iluminação. Cada imagem foi categorizada com base na direção e intensidade da fonte de luz, permitindo que treinássemos nosso modelo em várias categorias conhecidas enquanto avaliávamos sua capacidade de inferir categorias não observadas.

Os passos de pré-processamento de dados envolveram detecção e recorte de faces para facilitar um conjunto de dados mais limpo, garantindo que o modelo se concentrasse apenas nas características faciais durante o treinamento.

Escolhemos vários métodos de referência para comparação, incluindo cAAE, CycleGAN e StarGAN, para avaliar como nosso gerador se saiu em comparação com técnicas tradicionais de geração condicional. Cada modelo foi cuidadosamente estruturado para garantir que as comparações fossem válidas e justas.

Resultados

O gerador geodésico de Wasserstein mostrou melhorias significativas na produção de amostras realistas em comparação com os métodos de referência. Na tarefa de geração condicional, nosso modelo produziu com sucesso imagens faciais que exibiam transições mais suaves entre diferentes condições de iluminação. Em comparação, os métodos de referência muitas vezes produziam resultados que não eram tão visualmente atraentes ou realistas.

Para o transporte de dados de uma categoria observada para outra, nosso método efetivamente lançava sombras e refletia características tridimensionais, fazendo com que as imagens geradas parecessem mais nítidas e realistas.

A distância de Fréchet (FID), uma medida de quão semelhantes são as amostras geradas em comparação com amostras reais, foi significativamente menor para nosso método em relação aos modelos de referência. Isso indica que, além de as imagens geradas serem mais relacionáveis, elas também mantinham qualidade em várias condições de iluminação.

Conclusão

O gerador geodésico de Wasserstein representa um avanço significativo no campo da geração condicional. Ao empregar princípios da teoria do transporte ótimo, nosso método aborda deficiências importantes presentes em modelos tradicionais.

Ao aprender as relações entre categorias observadas e não observadas, o gerador pode produzir amostras que transitam suavemente entre condições, resultando em resultados realistas. Experimentos demonstram que o gerador proposto supera métodos existentes, tornando-se uma ferramenta valiosa para gerar imagens e dados de alta qualidade em aplicações práticas.

Este trabalho estabelece a base para uma exploração mais aprofundada na geração condicional, prometendo melhorias na síntese de dados, aumento e mais aplicações em várias áreas.

Fonte original

Título: Wasserstein Geodesic Generator for Conditional Distributions

Resumo: Generating samples given a specific label requires estimating conditional distributions. We derive a tractable upper bound of the Wasserstein distance between conditional distributions to lay the theoretical groundwork to learn conditional distributions. Based on this result, we propose a novel conditional generation algorithm where conditional distributions are fully characterized by a metric space defined by a statistical distance. We employ optimal transport theory to propose the Wasserstein geodesic generator, a new conditional generator that learns the Wasserstein geodesic. The proposed method learns both conditional distributions for observed domains and optimal transport maps between them. The conditional distributions given unobserved intermediate domains are on the Wasserstein geodesic between conditional distributions given two observed domain labels. Experiments on face images with light conditions as domain labels demonstrate the efficacy of the proposed method.

Autores: Young-geun Kim, Kyungbok Lee, Youngwon Choi, Joong-Ho Won, Myunghee Cho Paik

Última atualização: 2023-08-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.10145

Fonte PDF: https://arxiv.org/pdf/2308.10145

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes