Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avaliando a Qualidade em Conteúdo de Vídeo Gerado por IA

Avaliar a qualidade dos vídeos gerados por IA pra melhorar a criação de conteúdo.

― 7 min ler


Avaliação de Qualidade deAvaliação de Qualidade deVídeo com IAconteúdo em vídeo gerado por IA.Novo modelo melhora a avaliação de
Índice

Nos últimos anos, o campo da inteligência artificial (IA) fez grandes avanços em criar conteúdos em vídeo automaticamente a partir de descrições de texto. Esse processo é conhecido como geração de texto para vídeo (T2V). À medida que essa tecnologia continua a crescer, a necessidade de avaliar a qualidade dos vídeos produzidos só aumenta. Isso é especialmente importante para os conteúdos gerados por IA, já que esses vídeos muitas vezes apresentam problemas de qualidade distintos em comparação com os conteúdos de vídeo tradicionais.

O Desafio da Avaliação da Qualidade de Vídeo

Quando se trata de qualidade de vídeo, vários fatores entram em cena. Para o conteúdo gerado por IA, a qualidade pode variar bastante devido a várias distorções que podem estar presentes. Essas distorções podem levar a imagens embaçadas, movimentos não naturais e inconsistências entre o que está descrito no texto e o que aparece no vídeo.

Avaliar a qualidade desses vídeos é crucial para entender como a tecnologia está se saindo e para melhorar os métodos usados para criá-los. No entanto, criar medições confiáveis para a qualidade do vídeo tem se mostrado uma tarefa desafiadora. Os métodos existentes costumam falhar em capturar com precisão as características únicas dos vídeos gerados por IA.

Criando um Novo Conjunto de Dados

Para resolver esse problema, um novo conjunto de dados foi desenvolvido para avaliar vídeos gerados por IA. Esse conjunto consiste em uma grande coleção de vídeos produzidos por vários modelos de texto para vídeo, utilizando uma ampla gama de prompts de texto. O objetivo era reunir um conjunto diversificado de vídeos que cobrisse diferentes assuntos e cenas.

O conjunto inclui 2.808 vídeos gerados usando seis modelos diferentes. Cada vídeo foi criado com base em 468 prompts de texto cuidadosamente escolhidos que foram projetados para refletir cenários do mundo real. Os vídeos produzidos são então avaliados com base em três critérios principais: Qualidade Espacial (como as imagens aparecem), qualidade temporal (como o movimento se parece) e alinhamento texto-vídeo (quão bem o vídeo combina com a descrição do texto).

Avaliando a Qualidade do Vídeo

Para avaliar os vídeos no conjunto de dados, foram empregadas avaliações tanto subjetivas quanto objetivas.

Avaliação Subjetiva

Na avaliação subjetiva, as pessoas deram suas notas para os vídeos com base nos três critérios de qualidade. Os participantes assistiram aos vídeos e os pontuaram em aspectos como clareza, continuidade do movimento e se as imagens combinavam com os prompts de texto fornecidos. Essa etapa é essencial, pois captura a percepção humana, que muitas vezes é mais sutil do que o que os sistemas automatizados conseguem avaliar.

Avaliação Objetiva

Na avaliação objetiva, métricas de qualidade existentes foram aplicadas ao conjunto de dados para testar sua eficácia. Essas métricas medem características de qualidade com base em processos automatizados, que podem incluir a análise de características visuais, consistência do movimento e alinhamento com o texto. No entanto, os resultados indicaram que muitas dessas métricas padrão não eram bem adequadas para a complexidade dos vídeos gerados por IA. Elas frequentemente falhavam em refletir com precisão a qualidade percebida pelos espectadores humanos.

O Novo Modelo de Avaliação de Qualidade

Para superar as limitações encontradas com os métodos existentes, um novo modelo de avaliação da qualidade do vídeo foi proposto. Esse modelo foi projetado para avaliar simultaneamente a qualidade espacial, a qualidade temporal e o alinhamento texto-vídeo.

Extração de Recursos

O modelo usa várias características extraídas dos vídeos para medir a qualidade. Por exemplo:

  • Características Espaciais: Essas características capturam os elementos visuais de quadros individuais. O modelo considera não apenas a aparência geral, mas também detalhes como nitidez e clareza dos objetos.
  • Características Temporais: Essas características avaliam quão bem o movimento no vídeo flui. Isso é particularmente importante para avaliar a continuidade das ações e quão suavemente elas transitam de um quadro para outro.
  • Características de Alinhamento: Aqui, o modelo mede quão de perto o conteúdo do vídeo se alinha com a descrição do texto. Isso garante que as imagens sejam relevantes e precisas em relação ao que o espectador deve entender a partir do texto.

Fusão de Recursos

Uma vez que essas características são extraídas, elas são combinadas para criar uma visão abrangente da qualidade do vídeo. Esse processo de fusão melhora a representação das informações de qualidade, permitindo uma avaliação mais completa. O modelo basicamente pega todas as informações coletadas e as usa para produzir pontuações de qualidade para os aspectos espaciais, temporais e de alinhamento.

Resultados e Descobertas

O desempenho do novo modelo de avaliação de qualidade foi avaliado usando o conjunto de dados e comparado com métricas existentes. O modelo demonstrou uma melhoria notável na avaliação da qualidade do vídeo em todos os três critérios.

Avaliação da Qualidade Espacial

Para a qualidade espacial, o modelo foi capaz de capturar com precisão várias distorções visuais comumente encontradas em vídeos gerados por IA, como embaçamento e objetos desalinhados nas cenas. Esse desempenho superou o das métricas tradicionais, que frequentemente tinham dificuldade com esses problemas.

Avaliação da Qualidade Temporal

Quando se tratou de avaliar a qualidade temporal, o novo modelo se destacou em reconhecer inconsistências de movimento. Isso foi crucial para lidar com problemas como tremores de quadro ou padrões de movimento não naturais, que podem afetar o conteúdo gerado por IA. Ao identificar esses defeitos, o modelo pode ajudar a guiar melhorias nas técnicas de geração.

Avaliação do Alinhamento Texto-Vídeo

Em termos de alinhamento com os prompts de texto, o modelo forneceu melhores insights do que os métodos existentes. Ele foi capaz de destacar onde o conteúdo do vídeo não combinava com a descrição, facilitando a identificação de áreas que precisavam de melhorias.

Conclusão

À medida que os conteúdos em vídeo gerados por IA continuam a ganhar força em várias indústrias, como cinema, publicidade e jogos, a importância da avaliação da qualidade não pode ser subestimada. Com o desenvolvimento de um conjunto de dados dedicado e um robusto modelo de avaliação de qualidade, as partes interessadas podem avaliar melhor o desempenho das técnicas de geração de vídeo.

Essa iniciativa não só traz luz à qualidade dos vídeos gerados por IA, mas também oferece caminhos para avanços futuros nas tecnologias de geração de vídeo. Os insights obtidos a partir do processo de avaliação podem impulsionar melhorias, levando, em última análise, a conteúdos em vídeo mais envolventes e precisos que atendam às expectativas do público.

Resumindo, a combinação de um conjunto de dados abrangente e um novo modelo de avaliação de qualidade fornece uma base sólida para avaliar e melhorar o conteúdo em vídeo gerado por IA. Este é um passo necessário para garantir que os avanços na geração de vídeo estejam alinhados com as imagens e narrativas que o público busca.

Fonte original

Título: Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model

Resumo: In recent years, artificial intelligence (AI)-driven video generation has gained significant attention. Consequently, there is a growing need for accurate video quality assessment (VQA) metrics to evaluate the perceptual quality of AI-generated content (AIGC) videos and optimize video generation models. However, assessing the quality of AIGC videos remains a significant challenge because these videos often exhibit highly complex distortions, such as unnatural actions and irrational objects. To address this challenge, we systematically investigate the AIGC-VQA problem, considering both subjective and objective quality assessment perspectives. For the subjective perspective, we construct the Large-scale Generated Video Quality assessment (LGVQ) dataset, consisting of 2,808 AIGC videos generated by 6 video generation models using 468 carefully curated text prompts. We evaluate the perceptual quality of AIGC videos from three critical dimensions: spatial quality, temporal quality, and text-video alignment. For the objective perspective, we establish a benchmark for evaluating existing quality assessment metrics on the LGVQ dataset. Our findings show that current metrics perform poorly on this dataset, highlighting a gap in effective evaluation tools. To bridge this gap, we propose the Unify Generated Video Quality assessment (UGVQ) model, designed to accurately evaluate the multi-dimensional quality of AIGC videos. The UGVQ model integrates the visual and motion features of videos with the textual features of their corresponding prompts, forming a unified quality-aware feature representation tailored to AIGC videos. Experimental results demonstrate that UGVQ achieves state-of-the-art performance on the LGVQ dataset across all three quality dimensions. Both the LGVQ dataset and the UGVQ model are publicly available on https://github.com/zczhang-sjtu/UGVQ.git.

Autores: Zhichao Zhang, Xinyue Li, Wei Sun, Jun Jia, Xiongkuo Min, Zicheng Zhang, Chunyi Li, Zijian Chen, Puyi Wang, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Guangtao Zhai

Última atualização: 2024-12-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.21408

Fonte PDF: https://arxiv.org/pdf/2407.21408

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes