Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Interação Homem-Computador

Avaliando a Criatividade em Modelos de Linguagem vs. Autores Humanos

Um estudo comparando a criatividade em textos gerados por modelos de linguagem e escritores humanos.

― 7 min ler


IA vs. CriatividadeIA vs. CriatividadeHumanacom a escrita humana.em modelos de linguagem em comparaçãoUm olhar crítico sobre a criatividade
Índice

Modelos de Linguagem Grandes (LLMs) se tornaram ferramentas populares para tarefas de escrita, incluindo histórias e outras criações criativas. Embora esses modelos consigam gerar textos que parecem escritos por humanos, ainda tem muita pergunta sobre a capacidade deles de produzir trabalhos realmente criativos. Este artigo explora como avaliar a criatividade em textos gerados por LLMs e compara com obras escritas por autores humanos.

O que são Modelos de Linguagem Grandes?

LLMs são programas de computador que usam inteligência artificial para entender e gerar linguagem. Eles são treinados em uma quantidade enorme de dados textuais, permitindo que produzam frases coerentes e relevantes ao contexto. Alguns LLMs conhecidos são o GPT-3.5, GPT-4 e Claude. Esses modelos conseguem escrever ensaios, responder perguntas e até criar poesia ou histórias, mas a criatividade deles é um tema debatido.

O Desafio de Avaliar Criatividade

A criatividade é difícil de definir e ainda mais difícil de medir. Enquanto muitos modelos podem gerar textos que parecem bons à primeira vista, descobrir quão criativo é esse texto requer um processo de avaliação cuidadoso. Criatividade geralmente envolve fatores como Originalidade, profundidade e impacto emocional-qualidades que podem ser complicadas de quantificar.

Um método para avaliar criatividade é o Teste de Pensamento Criativo de Torrance (TTCT). Esse teste tem sido amplamente utilizado para medir a capacidade criativa, observando como bem os indivíduos conseguem pensar de forma divergente-chegando a várias ideias ou soluções para um problema. No entanto, adaptar esse teste para avaliar textos escritos, especialmente contos, traz desafios únicos.

Apresentando o Teste de Torrance para Escrita Criativa

Para avaliar melhor a criatividade de textos escritos, pesquisadores desenvolveram um novo framework chamado Teste de Torrance para Escrita Criativa (TTCW). Esse teste é baseado no TTCT original, mas foca em aspectos específicos da escrita criativa. O TTCW avalia a criatividade em quatro dimensões:

  1. Fluência: A habilidade de gerar uma ampla gama de ideias em resposta a um tema.
  2. Flexibilidade: A diversidade de ideias produzidas, incluindo a habilidade de mudar perspectivas.
  3. Originalidade: A novidade das ideias ou conceitos apresentados.
  4. Elaboração: O detalhe e a profundidade incluídos na história.

Usando essas dimensões, o TTCW fornece uma abordagem estruturada para avaliar a criatividade tanto na escrita humana quanto na gerada por modelos.

Como Funciona o Processo de Avaliação

Para implementar o TTCW, pesquisadores criaram um conjunto de 14 testes binários que avaliam cada uma das quatro dimensões. Esses testes foram desenhados para serem fáceis de aplicar, permitindo que especialistas avaliem histórias e ofereçam justificativas para seus julgamentos.

O processo de avaliação envolve várias etapas:

  1. Seleção de Histórias: Um grupo de histórias é escolhido, incluindo textos escritos por autores experientes e várias geradas por LLMs. Isso permite uma comparação direta.

  2. Avaliação de Especialistas: Especialistas em escrita criativa avaliam cada história usando o framework do TTCW. Cada história é avaliada com base em múltiplos critérios, com os especialistas dando uma resposta simples de "sim" ou "não" para cada pergunta, junto com uma breve explicação.

  3. Análise de Dados: As avaliações são coletadas e analisadas para determinar as taxas de sucesso das histórias escritas por humanos em comparação com as geradas por LLMs nas várias dimensões do TTCW.

Resultados da Avaliação

Os pesquisadores realizaram um estudo envolvendo 48 histórias-12 escritas por humanos de fontes respeitáveis e 36 histórias geradas por vários LLMs. As descobertas da avaliação revelaram vários insights importantes.

Desempenho das Histórias Escritas por Humanos

Autores humanos, especialmente os publicados em veículos de prestígio, tiveram uma alta taxa de sucesso ao passar nos testes do TTCW. Em média, essas histórias passaram cerca de 84,7% dos testes totais, mostrando sua capacidade de satisfazer os critérios de criatividade de forma eficaz. Essa alta taxa de aprovação indica que escritores experientes, em geral, produzem trabalhos bem desenvolvidos e criativos.

Desempenho das Histórias Geradas por LLMs

Em contraste, as histórias geradas por LLMs apresentaram deficiências notáveis ao passar nos testes do TTCW. Dependendo do modelo, essas histórias passaram entre 9% a 30% dos testes. No geral, descobriu-se que os LLMs eram de três a dez vezes menos propensos a passar em testes individuais do TTCW em comparação com histórias escritas por humanos.

Análise Detalhada dos Resultados

Na análise de qual LLM teve o melhor desempenho, foi encontrado que o GPT-4 teve uma ligeira probabilidade maior de passar em testes focados em originalidade, enquanto o Claude se saiu melhor em áreas relacionadas à fluência e flexibilidade. No entanto, todos os modelos ficaram aquém em comparação com escritores humanos, destacando claramente a lacuna criativa.

Julgamentos de Especialistas sobre Escrita de IA e Humana

Além de avaliar as histórias, especialistas também foram convidados a classificar suas preferências entre as histórias e adivinhar suas origens. Os resultados mostraram uma forte preferência por histórias escritas por humanos em relação às geradas por LLMs. A maioria das histórias escritas por humanos foi favorecida, enquanto as histórias geradas pelos LLMs eram muitas vezes vistas como menos impressionantes ou atribuídas a escritores amadores.

Limitações dos LLMs na Avaliação de Criatividade

Uma análise da capacidade dos LLMs de avaliar criatividade revelou que esses modelos frequentemente falhavam em correlacionar com as avaliações de especialistas. Apesar dos avanços na tecnologia dos LLMs, eles não produziam avaliações que correspondessem significativamente às avaliações de especialistas. Isso sugere que, enquanto os LLMs podem gerar textos interessantes, eles não têm a compreensão sutil necessária para avaliar a criatividade de forma eficaz.

A Importância da Participação de Especialistas

A participação de especialistas em escrita criativa no processo de avaliação é crucial. Seus insights ajudam a garantir que as avaliações sejam válidas e confiáveis. Especialistas podem identificar sutilezas na escrita que os LLMs podem ignorar, como desenvolvimento de personagens, ritmo narrativo e uso de dispositivos literários.

Direções Futuras para Pesquisa

À medida que os LLMs continuam a evoluir, há potencial para eles melhorarem tanto na geração de conteúdo criativo quanto na avaliação de criatividade. Os pesquisadores esperam que, ao refinarem o framework do TTCW e explorarem ferramentas interativas, os LLMs possam eventualmente fornecer um feedback mais valioso aos escritores.

Esse framework pode facilitar uma colaboração mais eficaz entre escritores humanos e ferramentas de IA, focando em áreas específicas da criatividade. Ao guiar os LLMs para fornecer feedback direcionado, eles podem ajudar no processo de escrita criativa e aprimorar a habilidade dos autores.

Conclusão

Em resumo, a exploração da criatividade no contexto dos LLMs e da escrita humana tradicional revela diferenças significativas no desempenho. Enquanto os LLMs podem produzir textos que se parecem com a escrita humana, suas capacidades criativas, como mostrado pelo framework TTCW, ainda ficam aquém. A pesquisa contínua nessa área pode levar a avanços que fechem a lacuna, melhorando tanto a habilidade dos LLMs de gerar conteúdo envolvente quanto sua capacidade de avaliar a criatividade de forma eficaz.

Ao fomentar uma compreensão mais profunda dos processos criativos, os pesquisadores podem ajudar a abrir caminho para ferramentas inovadoras que apoiem escritores em seus empreendimentos artísticos, enriquecendo assim o cenário da escrita criativa na era digital.

Fonte original

Título: Art or Artifice? Large Language Models and the False Promise of Creativity

Resumo: Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.

Autores: Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien-Sheng Wu

Última atualização: 2024-03-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.14556

Fonte PDF: https://arxiv.org/pdf/2309.14556

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes