Avanços na Edição de Imagens com Modelos de IA
Novo conjunto de dados melhora a habilidade da IA de entender edições complexas de imagens.
― 8 min ler
Índice
Edição de imagem virou uma parte essencial da criação de conteúdo digital. Com a ascensão da inteligência artificial (IA) nos últimos anos, o objetivo tem sido criar modelos que consigam entender e fazer uma variedade de edições com facilidade. Os desafios nessa área geralmente estão relacionados a edições baseadas em ações e raciocínio. Os modelos atuais enfrentam dificuldades consideráveis com esses tipos de edições, que precisam de uma compreensão mais profunda de como as imagens interagem com as instruções.
Tipos de Edições
Quando pensamos em editar imagens, várias categorias vêm à mente. Principalmente, existem cinco tipos de mudanças que podemos fazer:
Mudanças de Objeto ou Atributo: Essas edições envolvem modificações específicas em objetos, como trocar um objeto por outro, mudar cores ou redimensionar itens.
Edições Globais: Essas mudanças impactam toda a imagem, como alterar o fundo ou modificar o estilo geral.
Edições Centrado em Ações: Essas são mais complexas, envolvendo mudanças que resultam de ações, como mover um objeto ou alterar a posição de uma pessoa na cena.
Edições Centrado em Raciocínio: Esse tipo de edição exige um certo grau de pensamento lógico, como entender relações espaciais ou resolver referências dentro da imagem.
Edições de Ponto de Vista: Essas edições envolvem mudar a perspectiva da câmera dentro da cena.
Entre esses tipos, as edições centradas em ações e raciocínio tendem a ser as mais desafiadoras para os modelos atuais.
Desafios na Edição de Imagem
Modelos de edição atuais costumam ter sucesso em fazer mudanças de objeto ou atributo. No entanto, eles se atrapalham com edições mais intrincadas que exigem entender eventos ou ações que acontecem nas imagens.
Quando um modelo recebe instruções para realizar uma ação, ele precisa de um conhecimento abrangente de como diferentes elementos na cena interagem. Por exemplo, o modelo precisa entender não apenas o que deve mudar, mas como o contexto da cena afeta essa mudança. Modelos existentes tendem a focar em mudanças localizadas, ou seja, eles ajustam apenas uma parte da imagem sem captar o quadro geral.
Outro problema surge a partir dos dados de treinamento disponíveis para essas tarefas. Dados de alta qualidade voltados para edições centradas em ações e raciocínio são limitados e geralmente vêm de fontes diferentes, como vídeos ou simulações, onde a dinâmica da cena é melhor capturada.
Criando um Conjunto de Dados de Qualidade
Para superar esses desafios, um novo conjunto de dados foi criado. Esse conjunto, conhecido como Action-Reasoning-Object-Attribute dataset, consiste em exemplos de treinamento de alta qualidade selecionados a partir de vídeos e motores de simulação.
O foco principal desse conjunto de dados são os "trios", que incluem uma imagem fonte, um prompt descrevendo a edição necessária e uma imagem alvo ilustrando o resultado desejado. A parte crítica desses trios é que eles contêm mudanças visuais mínimas; idealmente, deve haver apenas uma ou duas alterações significativas entre as imagens fonte e alvo.
O conjunto inclui exemplos especificamente estruturados para treinar modelos sobre como realizar edições baseadas em ações e raciocínio de forma eficaz. Um total de 289.000 exemplos de alta qualidade foi coletado, garantindo cenários diversos e variados para o modelo aprender.
Avaliando o Desempenho do Modelo
Para avaliar os avanços feitos pelo modelo treinado nesse novo conjunto de dados, um novo benchmark foi estabelecido englobando oito diferentes tarefas de edição. Notavelmente, esse benchmark foi desenvolvido com contribuições de especialistas para garantir sua validade e abrangência.
Na avaliação, foi constatado que o modelo treinado nesse conjunto de dados superou significativamente modelos anteriores. Avaliadores humanos classificaram a eficácia dessas edições, fornecendo insights sobre as capacidades do modelo.
Enquanto essas avaliações destacaram o sucesso, elas também apontaram falhas em métricas antigas usadas para avaliar imagens. Muitas dessas métricas tendiam a medir similaridade em vez de verdadeira precisão de edição. Como resultado, uma nova métrica automática, focada em entender edições, foi proposta para melhorar as avaliações dos modelos.
Importância de Dados de Treinamento de Alta Qualidade
Um problema comum entre os modelos atuais vem da fraca qualidade dos dados de treinamento disponíveis para edições centradas em ações e raciocínio. A maioria dos dados disponíveis é mais fácil de coletar para mudanças de objetos do que para edições mais complexas envolvendo ações ou raciocínio.
Por exemplo, conjuntos de dados focados em mudanças simples de imagem podem ser criados a partir de imagens estáticas ou ilustrações. Em contraste, coletar dados suficientes para ação e raciocínio requer uma abordagem mais intrincada, que muitas vezes envolve fontes de vídeos ou simulações que preservam contexto e dinâmica.
Através de uma coleta cuidadosa e curadoria usando critérios específicos, foi possível obter um conjunto de dados de qualidade que aborda essa lacuna. O uso de vídeos e simulações permite que os modelos aprendam com cenários do mundo real, tornando-os mais robustos em lidar com edições complexas.
Treinando o Modelo
Com o novo conjunto de dados estabelecido, foram feitos esforços para treinar um modelo de ponta capaz de realizar uma ampla gama de edições. Ao aproveitar o rico e diverso conjunto de dados, o modelo pôde aprender a fazer mudanças mínimas, mas significativas, com base nos prompts fornecidos.
Durante o treinamento, o modelo foi ajustado primeiro trabalhando em edições mais simples antes de passar gradualmente para tarefas mais complexas envolvendo ação ou raciocínio. Essa abordagem passo a passo garantiu que o modelo construísse uma forte compreensão fundamental.
Foi crucial ter recursos computacionais adequados disponíveis durante a fase de treinamento. O uso de unidades de processamento gráfico (GPUs) poderosas permitiu que o modelo iterasse pelo conjunto de dados de forma eficiente, levando a um desempenho melhorado.
Métricas de Avaliação Humana
Uma vez que o modelo foi treinado, avaliadores humanos desempenharam um papel vital em determinar o sucesso das edições do modelo. Eles foram encarregados de classificar o grau em que as edições foram executadas com sucesso, fornecendo feedback crítico sobre as capacidades do modelo.
Esse julgamento humano foi essencial para avaliar o desempenho do modelo, já que métricas tradicionais muitas vezes falhavam em refletir com precisão o sucesso na edição. Os avaliadores focaram na precisão semântica, garantindo que as edições feitas estivessem alinhadas com os prompts dados.
Foi notado que mesmo as métricas mais avançadas disponíveis muitas vezes não eram adequadas para entender profundamente o desempenho do modelo. Assim, confiar no julgamento humano se mostrou um método mais confiável de avaliação.
Conclusão
A jornada para desenvolver um modelo capaz de realizar edições diversas em imagens foi repleta de desafios, principalmente em relação à complexidade de tarefas centradas em ações e raciocínio. No entanto, através da curadoria cuidadosa de um conjunto de dados de alta qualidade e treinamento focado, progressos significativos foram feitos.
O novo modelo de edição de imagem apresenta um desempenho melhorado, mostrando as possibilidades do que pode ser alcançado ao combinar dados de treinamento robustos com técnicas inovadoras de aprendizado de máquina. À medida que esse campo continua evoluindo, a esperança é aprimorar ainda mais as capacidades do modelo e refinar os processos de avaliação, abrindo caminho para tecnologias de edição de imagem ainda mais avançadas.
Direções Futuras
O desenvolvimento contínuo nessa área levanta questões importantes sobre o futuro da edição de imagens. Embora avanços significativos tenham sido feitos, ainda há trabalho a ser feito para refinar os modelos a fim de entender e executar melhor edições complexas.
Uma possível avenida de exploração está na integração de técnicas de geração de vídeo. Ao invés de apenas focar em editar imagens existentes, criar novas visuais através de processos generativos pode permitir capacidades de edição mais ricas e abrangentes.
Além disso, a pesquisa pode se aprofundar na melhoria de métricas e processos de avaliação para tarefas de edição. Criar melhores maneiras de medir o sucesso, com base em julgamentos humanos, levará a avaliações mais confiáveis e, por fim, aprimorará os modelos em desenvolvimento.
Por último, conforme os modelos se tornam mais sofisticados, a ética na edição de imagem precisará ser considerada. Garantir que as tecnologias sejam usadas de forma responsável e não levem a abusos será essencial à medida que as capacidades dos modelos de edição de imagem se expandirem.
Continuando a abordar essas áreas, o objetivo é desenvolver modelos gerais de edição de imagem que efetivamente façam a ponte entre o raciocínio humano e a compreensão da máquina em tarefas visuais complexas.
Título: Learning Action and Reasoning-Centric Image Editing from Videos and Simulations
Resumo: An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.
Autores: Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy
Última atualização: 2024-10-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.03471
Fonte PDF: https://arxiv.org/pdf/2407.03471
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/McGill-NLP/AURORA
- https://neurips.cc/Conferences/2024/CallForDatasetsBenchmarks
- https://github.com/McGill-NLP/AURORA/blob/main/datasheet.md
- https://developer.qualcomm.com/software/ai-datasets/something-something
- https://drive.google.com/file/d/1TZu8wRJdo2IgwGdnEvxO0UyEsK0EKyJI/view
- https://github.com/OSU-NLP-Group/MagicBrush