Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Gráficos

Novo Método para Gerar Vistas Urbanas Realistas

Apresentando um método para criar vistas de rua de alta qualidade a longas distâncias.

― 6 min ler


Método de Visão de RuaMétodo de Visão de RuaRealista Reveladoalta qualidade de forma eficiente.Um novo sistema gera visuais urbanos de
Índice

Nos últimos anos, o interesse em gerar conteúdo visual detalhado, como imagens, vídeos e modelos 3D, só aumentou. No entanto, criar saídas realistas que cubram grandes áreas, como cenas urbanas, ainda é um desafio. Os métodos existentes têm dificuldades quando se trata de produzir vídeos longos ou representar cidades inteiras. Este artigo discute uma nova abordagem que visa criar visões de rua realistas que podem abranger longas distâncias, mantendo a qualidade visual lá em cima.

Visão Geral do Método

O novo método gera longas sequências de visões de rua usando entradas de linguagem, como o nome de uma cidade ou condições meteorológicas, e um mapa base que define o caminho desejado. Diferente dos modelos desenvolvidos anteriormente, esse método permite movimentos de câmera mais longos que cobrem vários quarteirões sem perder a qualidade ou a consistência visual.

A base dessa abordagem é construída em trabalhos anteriores em difusão de vídeo, que é um método que cria imagens removendo gradualmente ruídos de entradas aleatórias. Esse método funciona bem dentro de um framework autoregressivo, permitindo gerar sequências mais longas sem se desviar do estilo visual pretendido.

Características Principais

Dados de Entrada

O método depende de dados de alta qualidade, especificamente imagens tiradas do Google Street View combinadas com dados de mapa relevantes. Isso dá aos usuários a capacidade de gerar visões de rua com base em qualquer layout de cidade que escolherem. Além disso, o sistema permite controlar as posições das câmeras e até ajustar elementos como clima e horário do dia.

Capacidades de Saída

Os resultados desse método de geração produzem visões de rua consistentes ao longo dos caminhos planejados, sendo influenciados pelos dados do mapa. O sistema pode criar visões de rua de alta qualidade que refletem vários estilos geográficos e pode se adaptar a diferentes condições climáticas.

Desafios na Geração

Existem vários desafios ao gerar saídas em grande escala:

  1. Controle da Entrada: Enquanto o texto é comumente usado para criar saídas visuais, não é muito eficaz para controlar detalhes em escala urbana. Por isso, esse método usa uma entrada combinada de mapas de rua e mapas de altura para garantir que o processo de geração seja preciso.

  2. Consistência da Saída: Gerar saídas que mantenham a coerência visual é crucial. Esse sistema contorna os problemas comuns de geração de vídeos condicionando cada quadro ao layout da cena, garantindo a continuidade nas imagens geradas.

  3. Qualidade dos Dados de Treinamento: O método requer grandes quantidades de dados para um treinamento eficaz. Felizmente, o Google Street View fornece um rico conjunto de dados com inúmeras sequências de visões de rua e layouts de cena relevantes. No entanto, alguns dados não estão perfeitamente alinhados, o que pode apresentar problemas durante a geração.

Resultados e Aplicações

O novo sistema produziu resultados impressionantes com sua capacidade de gerar visões de rua de alta qualidade. As principais aplicações incluem:

  1. Geração de Visão de Rua de Longo Alcance: Essa tarefa envolve criar imagens do zero com base apenas no layout de cena desejado e no caminho da câmera. As imagens geradas são comparadas com modelos existentes, mostrando qualidade e consistência superiores.

  2. Geração de Visões Perpetuadas: Nesse caso, o sistema começa de uma imagem conhecida de visão de rua e então produz uma longa sequência de novas visões. Os resultados permanecem consistentes com a imagem inicial, mantendo também alta qualidade.

  3. Aplicações Criativas: O sistema abre caminhos para diversos usos criativos, como gerar visões de rua que mudam de acordo com condições climáticas específicas ou horários do dia. Os usuários podem facilmente inserir suas condições desejadas e receber saídas relevantes.

Aspectos Técnicos do Sistema

Geração de Dois Quadros

Um componente crucial desse sistema é a capacidade de gerar dois quadros consecutivos ao mesmo tempo. Esse recurso é inspirado em recentes avanços nas técnicas de geração de vídeos. A geração de dois quadros permite uma melhor continuidade entre os quadros, criando uma saída de vídeo mais realista.

Geração Condicional

O uso de dados de controle é vital para alcançar layouts de cena precisos. Os mapas e as informações de altura ajudam a guiar o processo de geração, transformando representações abstratas em visuais coerentes. Esse método de geração condicional adiciona previsibilidade às saídas.

Síntese de Vídeo Autoregressiva

O sistema incorpora um método de síntese de vídeo autoregressiva. Essa abordagem permite a consistência ao permitir que os quadros gerados se baseiem uns nos outros sequencialmente. Por meio desse mecanismo, o sistema gera os quadros um por um, mantendo qualidade e coerência durante todo o processo.

Desafios de Dados

Ao usar dados geográficos, surgem várias dificuldades:

  1. Desalinhamento: Os dados aéreos usados para mapas de altura podem não se alinhar perfeitamente com as visões em nível da rua. Esse desalinhamento pode ser devido a erros nas capturas aéreas e à natureza dinâmica das cenas urbanas.

  2. Ruído nos Dados: As poses reais das câmeras, derivadas de latitude e longitude, podem não ser precisas em termos de pixel. Essa imprecisão pode levar a desvios que afetam a qualidade das imagens geradas.

  3. Desfoque de Imagem: Algumas imagens podem estar desfocadas por razões de privacidade, o que pode limitar a quantidade de dados utilizáveis.

Insumos da Pesquisa

Através deste trabalho, novas técnicas são desenvolvidas que ajudam a gerar visões de rua de forma mais eficaz. O uso de conjuntos de dados robustos de serviços de mapeamento desempenha um papel significativo no treinamento bem-sucedido do sistema. Os principais insumos incluem a necessidade de modelos adaptáveis que possam lidar com ruído e desalinhamento nos dados, enquanto ainda entregam saídas de alta qualidade.

Conclusão

O método proposto se destaca pela sua capacidade de gerar visões de rua de alta qualidade e consistentes ao longo de longas distâncias. A eficácia do sistema é atribuída à combinação de dados avançados e técnicas inovadoras para manipular esses dados. Ao superar muitos desafios associados à geração de cenas urbanas, esse método tem o potencial de revolucionar a forma como criamos conteúdo visual relacionado ao ambiente urbano.

O futuro dessa tecnologia promete avanços ainda maiores na geração de cenas urbanas mais realistas e variadas, com maior controle sobre os dados de entrada e melhor manejo do ruído durante a geração.

Fonte original

Título: Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Resumo: We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.

Autores: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

Última atualização: 2024-07-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.13759

Fonte PDF: https://arxiv.org/pdf/2407.13759

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes