Uma Nova Maneira de Medir Criatividade
Apresentando uma estrutura pra gerar itens de teste de criatividade usando modelos de linguagem.
― 6 min ler
Índice
- O que é o CPIG?
- Importância da Criatividade
- O Processo de Geração de Itens
- Passo 1: Geração de Lista de Palavras
- Passo 2: Criação de Itens
- Passo 3: Geração de Respostas
- Avaliação e Seleção de Itens
- Melhoria Iterativa
- Validação da Estrutura
- Desafios e Considerações
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
A criatividade é uma habilidade super importante no mundo de hoje. Ajuda tanto indivíduos quanto organizações a lidarem com problemas complexos e é essencial em vários setores. Mas medir criatividade pode ser complicado. Os métodos tradicionais costumam exigir muito tempo e esforço para criar ferramentas de avaliação eficazes. Recentemente, grandes modelos de linguagem (LLMs) mostraram potencial para automatizar esses processos. Este artigo apresenta uma nova estrutura chamada Gerador de Itens Psicométricos Criativos (CPIG) que usa LLMs para criar e validar itens de teste de criatividade.
O que é o CPIG?
O CPIG é uma estrutura desenhada para gerar itens para avaliações de criatividade. Especificamente, foca em uma tarefa chamada Resolução Criativa de Problemas (CPS). O objetivo do CPIG é produzir itens de teste que possam proporcionar medidas válidas e confiáveis de criatividade dos participantes. A estrutura combina a geração de itens com a avaliação deles em um processo iterativo, ou seja, conforme novos itens são criados, eles são continuamente melhorados com base no feedback.
Importância da Criatividade
A criatividade é um fator chave para o sucesso em várias áreas. À medida que tarefas rotineiras se tornam automatizadas, a capacidade de pensar de forma criativa se torna ainda mais essencial. As empresas estão cada vez mais buscando formas de avaliar a criatividade em seus funcionários. Testes de criatividade validados podem ajudar a identificar pessoas com fortes habilidades criativas, levando a melhores decisões de contratação e treinamento.
O Processo de Geração de Itens
Criar itens eficazes para avaliação de criatividade não é fácil. Bons itens precisam ser complexos o suficiente para permitir uma variedade de respostas, mas também ambíguos o suficiente para que nenhuma resposta única seja claramente certa ou errada. O CPIG usa uma abordagem de múltiplos passos para gerar esses itens. Inicialmente, cria listas de palavras que devem ser incluídas nos itens. Essas listas ajudam a garantir que os itens cobrem uma variedade de cenários e evitam redundância.
Passo 1: Geração de Lista de Palavras
Antes de gerar itens de teste, o CPIG primeiro cria listas de palavras que incluem nomes, locais e ações. Isso torna a tarefa de geração de itens mais focada e permite um conteúdo variado. Por exemplo, uma lista de palavras pode conter nomes como "Marc" e "Ana," um local como "praia," e uma ação como "nadar." Usar essas listas garante que cada cenário gerado seja único.
Passo 2: Criação de Itens
Depois, o CPIG pede a um LLM para gerar itens de teste CPS usando as listas de palavras. Orientações e exemplos de itens de alta qualidade são fornecidos ao modelo. Os itens gerados são avaliados quanto à legibilidade e complexidade para garantir que atendam a certos padrões de qualidade. Se um item não atende a esses padrões, ele é descartado e o modelo tenta de novo.
Passo 3: Geração de Respostas
Uma vez que itens de teste válidos são criados, o próximo passo é gerar respostas para esses itens. O CPIG usa LLMs para criar soluções como se fossem participantes humanos. Este passo envolve usar diferentes tipos de prompts para incentivar uma ampla gama de respostas criativas. Por exemplo, alguns prompts podem incluir detalhes demográficos para imitar tipos específicos de participantes.
Avaliação e Seleção de Itens
Após gerar as respostas, o CPIG as avalia com base na originalidade. A estrutura usa um modelo de Pontuação automatizado treinado para avaliar quão original uma resposta é. Esse modelo ajuda a selecionar itens de alta qualidade para iterações futuras. Várias estratégias são usadas para escolher quais itens manter e quais descartar, sempre buscando aumentar a singularidade e qualidade das respostas.
Melhoria Iterativa
A estrutura CPIG foi projetada para melhorar continuamente a qualidade dos itens criados. Cada rodada de geração de itens incorpora feedback das rodadas anteriores, tornando os itens mais originais e eficazes com o tempo. Esse processo iterativo permite que o CPIG evolua e se adapte para produzir melhores ferramentas de avaliação de criatividade.
Validação da Estrutura
Para validar o CPIG, pesquisadores realizaram uma série de experimentos comparando itens gerados pelo CPIG com aqueles criados por humanos. O objetivo era ver se os itens produzidos pelo CPIG eram tão válidos e confiáveis quanto os itens tradicionais. Os resultados mostraram que os itens gerados pelo CPIG eram realmente eficazes em provocar respostas originais e de alta qualidade.
Desafios e Considerações
Embora o CPIG mostre potencial, ainda existem desafios. Uma preocupação é o potencial dos LLMs de produzir respostas que carecem de diversidade. Pesquisas indicam que os LLMs podem gerar saídas semelhantes para prompts semelhantes, reduzindo a gama de ideias geradas ao longo do tempo. Isso é uma consideração importante ao usar LLMs em avaliações de criatividade.
Outro desafio é garantir que as avaliações continuem válidas em diferentes contextos culturais. O modelo de pontuação usado no CPIG é baseado em dados que podem não captar perspectivas diversas. Isso ressalta a necessidade de melhorias na forma como itens e respostas são avaliados para garantir justiça e precisão.
Direções Futuras
Para entender melhor e aumentar a eficácia do CPIG, pesquisas futuras podem se concentrar em várias áreas. Uma área importante é desenvolver mecanismos de pontuação melhores que considerem múltiplos aspectos da criatividade, como originalidade, relevância e viabilidade. Além disso, explorar o uso de fontes de dados diversas para treinar LLMs poderia ajudar a criar ferramentas de avaliação mais equilibradas.
Além disso, estudos com usuários envolvendo participantes reais fornecerão insights valiosos sobre como os itens do CPIG se saem em situações do mundo real. Isso envolveria administrar itens gerados pelo CPIG a participantes e analisar seu desempenho e feedback.
Conclusão
A criatividade é uma habilidade vital na economia moderna, e ferramentas de avaliação eficazes são necessárias para medi-la. O Gerador de Itens Psicométricos Criativos oferece uma nova abordagem para criar itens de teste de criatividade válidos e confiáveis usando grandes modelos de linguagem. Ao gerar e refinar itens de forma iterativa, o CPIG tem o potencial de revolucionar como a criatividade é avaliada. No entanto, abordar desafios relacionados à diversidade e precisão na pontuação é crucial para o sucesso da estrutura.
A pesquisa em torno do CPIG abre possibilidades empolgantes para ferramentas de avaliação automatizadas, oferecendo novas oportunidades para medir a criatividade humana e entender melhor seus mecanismos subjacentes. À medida que o campo se desenvolve, será essencial continuar refinando esses métodos e garantindo que as estruturas usadas sejam inclusivas e justas, permitindo uma visão holística da criatividade em diferentes populações e contextos.
Título: The creative psychometric item generator: a framework for item generation and validation using large language models
Resumo: Increasingly, large language models (LLMs) are being used to automate workplace processes requiring a high degree of creativity. While much prior work has examined the creativity of LLMs, there has been little research on whether they can generate valid creativity assessments for humans despite the increasingly central role of creativity in modern economies. We develop a psychometrically inspired framework for creating test items (questions) for a classic free-response creativity test: the creative problem-solving (CPS) task. Our framework, the creative psychometric item generator (CPIG), uses a mixture of LLM-based item generators and evaluators to iteratively develop new prompts for writing CPS items, such that items from later iterations will elicit more creative responses from test takers. We find strong empirical evidence that CPIG generates valid and reliable items and that this effect is not attributable to known biases in the evaluation process. Our findings have implications for employing LLMs to automatically generate valid and reliable creativity tests for humans and AI.
Autores: Antonio Laverghetta, Simone Luchini, Averie Linell, Roni Reiter-Palmon, Roger Beaty
Última atualização: 2024-08-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.00202
Fonte PDF: https://arxiv.org/pdf/2409.00202
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://conceptbase.sourceforge.net/mjf/
- https://osf.io/umnk5/
- https://www.nltk.org/api/nltk.tokenize.word
- https://www.nyc.gov/site/doh/index.page
- https://www.census.gov/programs-surveys/decennial-census.html
- https://www.langchain.com/
- https://www.anthropic.com/news/claude-3-family
- https://dx.doi.org/#1
- https://arxiv.org/abs/1908.10084