Conjunto de Dados Sintético Inovador para Modelagem de Cabeça
Um novo conjunto de dados sintético permite detecção precisa de cabeças e modelagem 3D.
― 12 min ler
Índice
- A Necessidade de Conjuntos de Dados de Alta Qualidade
- Construindo um Conjunto de Dados Diversificado
- Principais Contribuições
- Contexto sobre Detecção de Cabeças
- Modelo Morfável 3D
- Gerando Dados Sintéticos
- O Processo de Geração de Dados
- Abordando Segurança e Privacidade
- Estatísticas do Conjunto de Dados
- Desempenho do Modelo
- Treinamento e Avaliação
- Conclusão
- Agradecimentos
- Fonte original
- Ligações de referência
Detectar cabeças humanas, estimar pontos chave e criar modelos 3D de cabeças são tarefas importantes com várias aplicações. Mas, os conjuntos de dados coletados do mundo real costumam ter problemas como viés, preocupações com privacidade e questões éticas. Muitos desses conjuntos são reunidos em laboratórios, o que dificulta o funcionamento dos modelos no mundo real.
Esse artigo fala sobre um novo conjunto de dados que foi criado usando técnicas digitais para gerar imagens de cabeças humanas. O conjunto tem mais de 1 milhão de fotos de alta qualidade, e cada uma vem com informações detalhadas sobre as características 3D da cabeça, pontos faciais e contornos. Também apresentamos um novo tipo de modelo que consegue encontrar cabeças e construir modelos 3D a partir de apenas uma imagem em uma única etapa. Nossos testes mostram que os modelos treinados com esses dados sintéticos têm um desempenho muito bom quando testados com imagens reais. Esse conjunto de dados pode ser usado para várias tarefas diferentes e oferece uma visão ampla das cabeças humanas.
Além disso, explicamos como fazemos esses dados sintéticos, para que outros possam usar o mesmo método para suas necessidades. O conjunto de dados e o código estão disponíveis para quem quiser usá-los.
A Necessidade de Conjuntos de Dados de Alta Qualidade
Nos últimos anos, muitas áreas da visão computacional precisam de conjuntos de dados de alta qualidade, especialmente para tarefas que envolvem cabeças humanas. Obter modelos precisos de cabeças é importante para reconhecimento facial, animação, realidade aumentada e imagens médicas. Mas os conjuntos de dados tradicionais geralmente focam demais em apenas um aspecto, como pontos faciais, ou têm baixa resolução e tipos limitados de informações.
Normalmente, encontrar cabeças começa com a detecção do rosto e depois determina-se os pontos chave nesse rosto. Embora métodos de caixa delimitadora para detecção de rostos possam ser úteis, eles não funcionam bem para modelagem 3D. Isso acontece porque esses métodos geralmente analisam apenas algumas poses e perdem a variedade necessária para uma modelagem 3D precisa. Além disso, conjuntos de dados da vida real podem criar problemas de privacidade e ética, dificultando a coleta e o uso legal dos dados. Conjuntos de dados bem conhecidos às vezes são retirados devido a problemas de licenciamento. Usar conjuntos de dados sintéticos pode ajudar a combater esses problemas de privacidade e ética.
Construindo um Conjunto de Dados Diversificado
Nosso objetivo é resolver o maior problema na pesquisa de cabeças humanas criando um grande e diversificado Conjunto de Dados Sintéticos usando técnicas de modelagem avançadas. Esse conjunto inclui características principais da cabeça, pose, forma, contornos faciais e pontos faciais 2D. Usando técnicas comprovadas para ocultar informações pessoais e incluir uma ampla variedade de cenas do mundo real, garantimos que o conjunto de dados atenda aos seus objetivos.
Principais Contribuições
Conjunto de Dados Sintético em Grande Escala
Criamos um conjunto de dados sintético com mais de 1 milhão de imagens. Cada cabeça nas imagens vem com uma malha 3D detalhada. Esse conjunto fornece uma fonte rica e variada para treinar e avaliar modelos que lidam com tarefas relacionadas a cabeças. Nossos testes confirmam a qualidade, precisão e capacidade de modelos treinados com esses dados sintéticos em generalizar para aplicações do mundo real.
Nova Arquitetura de Modelo
Apresentamos uma nova arquitetura de modelo que foi treinada nesse conjunto de dados. Esse modelo consegue criar várias malhas de cabeça a partir de uma única imagem. Usando as informações detalhadas do nosso conjunto, ele otimiza caixas delimitadoras, formas de cabeça 3D, rotações e pontos faciais 2D para garantir resultados precisos.
Aplicabilidade Geral
Realizamos testes minuciosos para provar a eficácia do nosso conjunto de dados e do novo modelo desenvolvido. Mostramos que modelos treinados com nosso conjunto se destacam em imagens reais, ressaltando a adaptabilidade dos nossos dados sintéticos. O modelo treinado em nosso conjunto de dados alcança resultados tão bons ou melhores que os métodos mais avançados em áreas como estimativa de pose de cabeça 3D, estimativa de malha 3D, alinhamento de cabeça, e mais.
Variedade no Conjunto de Dados
Nosso conjunto de dados mostra uma ampla gama de cenas, número de pessoas e informações ricas para cada cabeça. Essa variedade é crucial para criar modelos que funcionem em situações do mundo real.
Detecção de Cabeças
Contexto sobreNo passado, a maneira mais simples de representar uma cabeça era usando uma caixa delimitadora ao redor do rosto. Métodos iniciais de detecção de rostos dependiam de características feitas à mão. No entanto, com o surgimento do deep learning, os métodos melhoraram significativamente para detectar objetos. As abordagens existentes podem ser divididas em dois tipos principais: métodos de uma etapa e de duas etapas.
Métodos de uma etapa, como SFD ou PyramidBox, funcionam bem para detectar partes faciais menores. Por outro lado, métodos de duas etapas, baseados em Faster R-CNN e R-FCN, melhoraram a detecção usando técnicas de múltiplas escalas e melhores estratégias de pooling. Ainda assim, esses métodos geralmente se concentram em áreas faciais e têm dificuldades com visões laterais e poses incomuns.
Recentemente, conjuntos de dados como HollywoodHeads surgiram para lidar com a detecção total da cabeça, reunindo dados de cenas de filmes para cobrir várias poses. Da mesma forma, o SCUT-Head coletou dados de vídeos de sala de aula. No entanto, esses conjuntos de dados se concentram em cenas limitadas, faltando verdadeira diversidade.
O RetinaFace fez avanços recentemente na melhoria da detecção ao aprender a reconhecer rostos e marcos faciais juntos. Outros métodos, como img2pose, trabalham diretamente a partir de imagens para obter poses 3D, mas não cobrem toda a gama de tarefas de modelagem de cabeças.
Modelo Morfável 3D
Modelos mais antigos, como os Modelos de Face Morfáveis 3D (3DMM), ofereciam uma representação básica de formas e texturas de cabeça. À medida que esses modelos evoluíram, permitiram que modelos 3D realistas fossem manipulados usando alguns parâmetros. Modelos como o Basel Face Model e FLAME fornecem representações 3D completas, treinadas em conjuntos de dados maiores.
Alguns métodos tentaram descobrir parâmetros de 3DMM diretamente a partir de imagens de cabeça. O RingNet prevê a forma da cabeça sem precisar de dados 3D, enquanto o DAD-3DHeads introduziu um novo conjunto de dados de cabeças 3D para modelagem realista. Embora essas abordagens prevejam estruturas de cabeça detalhadas, muitas vezes exigem imagens bem recortadas, tornando o cálculo caro.
Gerando Dados Sintéticos
No passado, gerar dados sintéticos dependia de motores de renderização 3D, que precisavam de ajustes para cada conjunto de dados e tarefa. Métodos modernos que usam redes adversariais generativas (GANs) têm maior flexibilidade, mas muitas vezes amostram de dados existentes, limitando sua utilidade. Avanços mais recentes usaram modelos de difusão para gerar imagens e dados relevantes para muitas aplicações.
Nosso objetivo ao criar esse conjunto de dados é desenvolver um conjunto de imagens emparelhadas com rótulos. Cada rótulo inclui caixas delimitadoras da cabeça e parâmetros que descrevem o modelo de cabeça 3D. Para conseguir isso, usamos grandes modelos de difusão latente pré-treinados para criar imagens junto com um modelo de detecção de cabeças treinado nos dados gerados, prevendo parâmetros 3D para cada cabeça.
O Processo de Geração de Dados
Etapas da Criação do Conjunto de Dados
O processo consiste em várias etapas principais. Primeiro, geramos imagens usando um modelo de difusão latente baseado em um grande conjunto de dados de imagens reais. Em seguida, rotulamos manualmente um subconjunto dessas imagens com caixas delimitadoras de cabeças para treinar um modelo de detecção de cabeças nos dados sintéticos. Para cada cabeça identificada nas imagens geradas, prevemos os parâmetros do modelo de cabeça 3D, e no final, filtramos o conjunto de dados para remover ruído e qualquer informação sensível.
Geração de Imagens
Gerar imagens com o modelo de difusão latente requer representar poses humanas e descrições de cena. Usando poses humanas, conseguimos modelar de forma confiável fundos complexos e cenas com diferentes interações entre pessoas e objetos. Assim, criamos imagens que incluem uma ampla variedade de configurações do mundo real.
Anotações
Os modelos disponíveis para detecção de rostos se concentram apenas em rostos e funcionam melhor em visões frontais. Assim, eles podem não ter um bom desempenho para ângulos de cabeça variados, que são cruciais em muitas tarefas de modelagem. Para criar rótulos consistentes, manualmente rotulamos nossas imagens com caixas delimitadoras ao redor das cabeças visíveis. O processo levou várias horas, e garantimos excluir conteúdo que pudesse ser sensível ou prejudicial.
Processo de Filtragem
Mesmo que as imagens geradas sejam de alta qualidade, o modelo ainda pode criar resultados imperfeitos em alguns casos. Filtramos imagens de baixa qualidade usando o modelo de detecção de cabeças treinado. Isso ajuda a garantir que o conjunto de dados final mantenha um alto nível de precisão.
Abordando Segurança e Privacidade
Muitos conjuntos de dados foram retirados da internet sem considerar questões de privacidade e direitos autorais. Conjuntos de dados em grande escala também podem incluir conteúdo prejudicial que é difícil de detectar. Ao usar conjuntos de dados sintéticos, podemos minimizar esses problemas e escalar os dados de forma eficiente.
Segurança do Conteúdo
Como os modelos de difusão latente são treinados em grandes quantidades de dados da internet, eles podem, às vezes, gerar conteúdo inadequado. Tomamos medidas adicionais para filtrar imagens potencialmente prejudiciais. Temos critérios de remoção rigorosos baseados nos rótulos originais e também aplicamos um modelo de classificação para sinalizar conteúdo indesejado.
Privacidade do Conteúdo
Investigamos se os modelos de difusão conseguem lembrar de seus exemplos de treinamento, o que poderia vazar dados pessoais. Nossos testes mostram que, embora alguns dados possam ser reconhecidos, os modelos geralmente combinam características de diferentes imagens sem capturar detalhes específicos. Tomamos medidas para garantir que nomes pessoais ou características identificáveis sejam removidos das amostras geradas.
Estatísticas do Conjunto de Dados
Do conjunto de dados LAION, selecionamos 1,7 milhão de imagens humanas, filtrando uma parte que poderia conter conteúdo sensível. Após isso, geramos 1,3 milhão de imagens sintéticas. Após limpeza e processamento, o conjunto de dados final inclui muitas imagens com cabeças, todas rotuladas adequadamente.
Desempenho do Modelo
Nosso modelo oferece uma gama mais ampla de representações de cabeças em comparação com métodos anteriores. Os rótulos abrangentes nos permitem capturar representações 3D de múltiplas cabeças a partir de uma única imagem. Ao contrário de métodos anteriores, que se concentravam em imagens de cabeças recortadas, nossa abordagem codifica uma representação mais geral para uma variedade de tarefas.
Arquitetura do Modelo
O modelo é baseado no design YOLO-NAS para detectar objetos. Nosso modelo é desenvolvido para também prever parâmetros 3D das cabeças enquanto usa estruturas existentes. Isso mantém o foco na precisão, enquanto aproveita métodos anteriores.
Treinamento e Avaliação
Implementamos nossos modelos usando uma estrutura popular. Os modelos são configurados para aprender a partir de uma ampla gama de condições, o que ajuda a melhorar sua capacidade de generalizar diante de imagens reais.
Avaliação do Conjunto de Dados
Avaliamo como nosso modelo se sai em tarefas específicas relacionadas a cabeças. A avaliação indica que nosso modelo se destaca em alinhar e estimar poses de cabeça.
Estimativa de Pose de Cabeça
Medimos a precisão da estimativa de pose de cabeça usando conjuntos de dados estabelecidos. Nosso modelo apresenta um desempenho melhor do que outros métodos existentes, mostrando sua eficácia e confiabilidade.
Alinhamento de Cabeça 3D
Usando conjuntos de dados criados para avaliar o alinhamento de cabeças, descobrimos que nossa abordagem supera consistentemente outros modelos treinados com imagens reais. Isso destaca a adaptabilidade do nosso modelo a condições difíceis do mundo real.
Conclusão
Ao criar um grande conjunto de dados sintético e um novo modelo, superamos muitos problemas encontrados em conjuntos de dados tradicionais. Esse conjunto permite a detecção precisa de cabeças e a reconstrução de modelos de cabeças 3D, levando a um desempenho melhor em imagens reais. Nossa pesquisa demonstra que dados sintéticos podem efetivamente encerrar a lacuna com aplicações do mundo real, abrindo caminho para avanços em modelagem de cabeças e além.
Agradecimentos
Agradecemos toda a ajuda e feedback dos nossos colegas e organizações. Nosso objetivo é promover práticas de pesquisa ética e garantir segurança no desenvolvimento de IA, tornando nosso trabalho um passo à frente neste campo importante.
Título: VGGHeads: 3D Multi Head Alignment with a Large-Scale Synthetic Dataset
Resumo: Human head detection, keypoint estimation, and 3D head model fitting are essential tasks with many applications. However, traditional real-world datasets often suffer from bias, privacy, and ethical concerns, and they have been recorded in laboratory environments, which makes it difficult for trained models to generalize. Here, we introduce \method -- a large-scale synthetic dataset generated with diffusion models for human head detection and 3D mesh estimation. Our dataset comprises over 1 million high-resolution images, each annotated with detailed 3D head meshes, facial landmarks, and bounding boxes. Using this dataset, we introduce a new model architecture capable of simultaneous head detection and head mesh reconstruction from a single image in a single step. Through extensive experimental evaluations, we demonstrate that models trained on our synthetic data achieve strong performance on real images. Furthermore, the versatility of our dataset makes it applicable across a broad spectrum of tasks, offering a general and comprehensive representation of human heads.
Autores: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
Última atualização: 2024-12-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.18245
Fonte PDF: https://arxiv.org/pdf/2407.18245
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.