Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

ZeroGen: Uma Nova Abordagem para Geração de Texto

ZeroGen gera texto usando entradas visuais e textuais de forma eficiente.

― 7 min ler


Sistema de Geração deSistema de Geração deTexto ZeroGenimagens e palavras.Um sistema pra gerar texto usando
Índice

Criar texto automaticamente que atenda a certas necessidades é um objetivo desafiador e antigo na tecnologia. Embora tenha havido progresso em fazer sistemas de geração de texto responderem a tipos únicos de controle-como certas palavras ou estilos-encontrar maneiras de tornar esses sistemas responsivos a várias fontes de entrada, como imagens e texto, de forma eficiente ainda é um trabalho em andamento.

A gente apresenta um novo sistema chamado ZeroGen, que ajuda a gerar texto usando sinais de texto e imagens sem precisar de treinamento extra. Ele usa esses diferentes tipos de controle de maneira inteligente para melhorar a qualidade do texto gerado. Ao combinar entradas de texto e imagens, conseguimos guiar o sistema para produzir saídas mais relevantes e personalizadas.

O ZeroGen funciona pegando primeiro uma entrada de um texto e uma imagem para guiar seu processo de geração. Ele usa diferentes níveis de controle de entrada-desde pedaços menores de informação, como palavras-chave, até descrições maiores de uma frase. Isso significa que o sistema pode ser flexível e fornecer saídas que estão mais alinhadas com o que se deseja.

Contexto

Grandes modelos pré-treinados tiveram um grande impacto na área de inteligência artificial. Esses modelos aprendem com grandes quantidades de dados, o que permite que realizem várias tarefas. Em particular, modelos de linguagem pré-treinados (PLMs) se tornaram fundamentais na geração de textos que obedecem a regras ou estilos específicos. O controle sobre o texto gerado pode incluir o comprimento desejado, o tópico ou o estilo.

Métodos tradicionais que orientam a geração de texto geralmente dependem do treinamento do modelo em um grande número de exemplos. Essa abordagem pode ser limitante, já que existem possibilidades infinitas de combinações de palavras e muitas vezes falta dados rotulados. Recentemente, pesquisadores têm se voltado para métodos "plug-and-play". Esses métodos têm como objetivo inserir controles simples em modelos de linguagem existentes com pouco ou nenhum treinamento. No entanto, eles tendem a funcionar apenas com tipos únicos de entrada, como palavras-chave ou tópicos, em vez de entradas mistas como imagens e texto.

Existem desafios na comunicação humana que não são bem abordados quando se usa apenas texto. Interações da vida real costumam depender de sinais visuais e contexto que não podem ser capturados apenas com texto. Portanto, confiar apenas em tipos únicos de controle em sistemas de geração de texto pode criar problemas, especialmente em tarefas que requerem uma compreensão tanto de contextos textuais quanto visuais.

Para resolver esses problemas, estendemos os métodos tradicionais "plug-and-play" para incorporar tanto texto quanto imagens e apresentamos o ZeroGen. Nosso objetivo é desbloquear o potencial do controle multimodal na geração de texto.

A Abordagem do ZeroGen

O sistema ZeroGen é projetado para criar texto considerando as contribuições dos controles visuais e textuais. Ele faz isso de duas maneiras distintas:

  1. Orientação Textual em Nível de Token: O sistema analisa pequenas partes de texto (tokens) e encontra suas semelhanças com as palavras-chave dadas.
  2. Orientação Visual em Nível de Frase: O sistema examina a imagem para estabelecer uma compreensão mais abrangente do contexto por trás do conteúdo visual e gera frases relacionadas.

Orientação Textual em Nível de Token

No primeiro passo, o ZeroGen foca em palavras-chave individuais que definem a direção do texto gerado. O sistema identifica quão próximas essas palavras-chave estão do vocabulário que usa, garantindo que o texto que cria se alinhe com a orientação dada. Esse passo acontece antes de qualquer texto ser gerado.

Orientação Visual em Nível de Frase

Além de palavras-chave, o ZeroGen usa o conteúdo de uma imagem para fornecer um contexto mais detalhado. Comparando os elementos visuais da imagem com o texto potencial, ele garante que as frases geradas reflitam com precisão o que a imagem está mostrando. Essa parte acontece durante o processo real de geração de texto.

Mecanismo de Pesagem Dinâmica

Para melhorar ainda mais a saída, o ZeroGen usa uma abordagem de pesagem dinâmica. Isso significa que o sistema pode ajustar quanta influência cada tipo de orientação (textual ou visual) tem durante a geração de texto. Ao equilibrar corretamente essas entradas, o sistema consegue produzir conteúdo fluente, relevante e envolvente.

Tarefas e Testes

Testamos o ZeroGen em três tarefas diferentes:

  1. Legenda de Imagem: Isso envolve gerar legendas descritivas para imagens.
  2. Legenda Estilizada: Isso é semelhante à legenda de imagem, mas adiciona elementos estilísticos às legendas.
  3. Geração Controlável de Notícias: O sistema gera artigos de notícias com base em imagens e sentimentos específicos.

Legenda de Imagem

Na tarefa de legenda de imagem, avaliamos quão bem o ZeroGen poderia criar legendas para imagens usando controles textuais e visuais. As legendas geradas foram comparadas com métodos existentes para avaliar sua qualidade e relevância. O ZeroGen produziu melhores legendas do que muitos métodos base, demonstrando vantagens significativas em sua abordagem para integrar múltiplos tipos de entrada.

Legenda Estilizada

Em seguida, examinamos a legenda estilizada, onde o objetivo era produzir legendas com estilos específicos, como tons românticos ou humorísticos. O ZeroGen foi capaz de se adaptar e gerar legendas que combinavam esses estilos de forma eficaz, muitas vezes superando outros modelos que precisavam de treinamento específico para a tarefa.

Geração Controlável de Notícias

Na tarefa de geração controlável de notícias, o ZeroGen teve a tarefa de gerar artigos de notícias relevantes com base em entradas visuais e textuais que transmitiam um certo sentimento. Isso significava que o sistema precisava entender não apenas o conteúdo da imagem, mas também como expressar sentimentos como positividade ou negatividade através da escrita. Os resultados mostraram que o ZeroGen gerou conteúdo de notícias que estava intimamente alinhado com as orientações visuais e sentimentais dadas.

Resultados

Os testes extensivos nessas três tarefas revelaram que o ZeroGen consistentemente superou outros modelos. Sua capacidade de aproveitar entradas textuais e visuais sem precisar de um treinamento extenso baseado em tarefas provou ser uma vantagem significativa.

Métricas de Avaliação

Utilizamos várias métricas de avaliação para comparar a eficácia do nosso sistema com métodos existentes. As métricas foram projetadas para avaliar:

  • Fluência: Quão bem formado e compreensível é o texto gerado.
  • Relevância: Quão bem o texto se relaciona com as imagens ou palavras-chave fornecidas.
  • Adesão ao Sentimento: Quão precisamente o texto reflete o tom emocional desejado.

Avaliações humanas apoiaram ainda mais os resultados quantitativos, confirmando que o ZeroGen produziu saídas que eram não apenas coerentes, mas diversas e contextualizadas.

Conclusão

Resumindo, o ZeroGen representa um avanço notável na área de geração de texto controlável. Ao combinar entradas de texto e imagens, apresenta uma nova maneira de gerar conteúdo relevante e de alta qualidade sem precisar de treinamento adicional extenso.

Apesar dos sucessos, ainda há áreas para melhoria. Desafios em andamento incluem aumentar a diversidade dos textos gerados e abordar questões relacionadas a preconceitos que podem surgir de dados de treinamento específicos. Trabalhos futuros explorarão essas áreas para refinar as capacidades do ZeroGen e ampliar suas aplicações em cenários do mundo real.

Com o desenvolvimento contínuo de sistemas multimodais mais robustos, estamos otimistas sobre o futuro das tecnologias de geração de texto controlável e seu potencial para criar ferramentas de comunicação mais eficazes.

Fonte original

Título: ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple Oracles

Resumo: Automatically generating textual content with desired attributes is an ambitious task that people have pursued long. Existing works have made a series of progress in incorporating unimodal controls into language models (LMs), whereas how to generate controllable sentences with multimodal signals and high efficiency remains an open question. To tackle the puzzle, we propose a new paradigm of zero-shot controllable text generation with multimodal signals (\textsc{ZeroGen}). Specifically, \textsc{ZeroGen} leverages controls of text and image successively from token-level to sentence-level and maps them into a unified probability space at decoding, which customizes the LM outputs by weighted addition without extra training. To achieve better inter-modal trade-offs, we further introduce an effective dynamic weighting mechanism to regulate all control weights. Moreover, we conduct substantial experiments to probe the relationship of being in-depth or in-width between signals from distinct modalities. Encouraging empirical results on three downstream tasks show that \textsc{ZeroGen} not only outperforms its counterparts on captioning tasks by a large margin but also shows great potential in multimodal news generation with a higher degree of control. Our code will be released at https://github.com/ImKeTT/ZeroGen.

Autores: Haoqin Tu, Bowen Yang, Xianfeng Zhao

Última atualização: 2023-06-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.16649

Fonte PDF: https://arxiv.org/pdf/2306.16649

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes