Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Une nouvelle façon de mesurer la créativité

Présentation d'un cadre pour générer des éléments de test de créativité en utilisant des modèles de langage.

― 7 min lire


Repenser l'évaluation deRepenser l'évaluation dela créativitélangage pour évaluer la créativité.Nouveau cadre utilise des modèles de
Table des matières

La créativité est une compétence super importante de nos jours. Ça aide les gens et les organisations à gérer des problèmes compliqués et c'est essentiel dans plein de secteurs. Mais, évaluer la créativité, c'est pas toujours évident. Les méthodes traditionnelles demandent souvent beaucoup de temps et d'efforts pour créer des outils d'évaluation efficaces. Récemment, les grands modèles de langage (LLMs) ont montré qu'ils pouvaient automatiser ces processus. Cet article présente un nouveau cadre appelé le Générateur d'Items Psychométriques Créatifs (CPIG) qui utilise des LLMs pour créer et valider des items de tests de créativité.

C'est quoi CPIG ?

CPIG est un cadre conçu pour générer des items pour les évaluations de créativité. Plus précisément, ça se concentre sur une tâche appelée Résolution créative de problèmes (CPS). L'objectif de CPIG est de produire des items de test qui peuvent donner des mesures valides et fiables de créativité chez les testés. Le cadre combine génération d'items et évaluation dans un processus itératif, c'est-à-dire qu'au fur et à mesure que de nouveaux items sont créés, ils sont continuellement améliorés grâce aux retours.

L'importance de la créativité

La créativité est un facteur clé pour réussir dans divers domaines. Avec l'automatisation des tâches routinières, la capacité à penser de manière créative est encore plus essentielle. Les entreprises cherchent de plus en plus des moyens d'évaluer la créativité de leurs employés. Les tests de créativité validés peuvent aider à identifier les individus avec de bonnes compétences créatives, ce qui mène à de meilleures décisions d'embauche et de formation.

Le processus de génération d'items

Créer des items efficaces pour l'évaluation de la créativité, c'est pas simple. De bons items doivent être suffisamment complexes pour permettre une variété de réponses mais aussi assez ambigus pour qu'il n'y ait pas une seule bonne ou mauvaise réponse. CPIG utilise une approche en plusieurs étapes pour générer ces items. Au départ, il crée des listes de mots à inclure dans les items. Ces listes aident à s'assurer que les items couvrent une gamme de scénarios et évitent la redondance.

Étape 1 : Génération de la liste de mots

Avant de générer les items de test, CPIG commence par créer des listes de mots comprenant des noms, des lieux et des actions. Ça rend la tâche de génération d'items plus ciblée et permet un contenu varié. Par exemple, une liste de mots pourrait contenir des noms comme "Mark" et "Amy", un lieu comme "plage" et une action comme "nager". En utilisant ces listes, on s'assure que chaque scénario généré est unique.

Étape 2 : Création des items

CPIG demande ensuite à un LLM de générer des items de test CPS en utilisant les listes de mots. Des conseils et des exemples d'items de haute qualité sont fournis au modèle. Les items générés sont évalués en termes de lisibilité et de complexité pour garantir qu'ils répondent à certains standards de qualité. Si un item ne répond pas à ces standards, il est éliminé et le modèle essaie de nouveau.

Étape 3 : Génération des réponses

Une fois les items de test valides créés, l'étape suivante est de générer des réponses à ces items. CPIG utilise des LLMs pour créer des solutions comme si elles venaient de participants humains. Cette étape implique d'utiliser différents types de prompts pour encourager une large gamme de réponses créatives. Par exemple, certains prompts pourraient inclure des détails démographiques pour imiter des types de participants spécifiques.

Évaluation et sélection des items

Après avoir généré les réponses, CPIG les évalue sur la base de leur originalité. Le cadre utilise un modèle d'évaluation automatisé entraîné pour évaluer à quel point une réponse est originale. Ce modèle aide à sélectionner des items de haute qualité pour les itérations futures. Plusieurs stratégies sont utilisées pour choisir quels items garder et lesquels éliminer, toujours dans l'optique d'augmenter l'unicité et la qualité des réponses.

Amélioration itérative

Le cadre CPIG est conçu pour améliorer continuellement la qualité des items créés. Chaque cycle de génération d'items intègre des retours des cycles précédents, rendant les items plus originaux et efficaces avec le temps. Ce processus itératif permet à CPIG d'évoluer et de s'adapter pour produire de meilleurs outils d'évaluation de la créativité.

Validation du cadre

Pour valider CPIG, les chercheurs ont mené une série d'expériences comparant les items générés par CPIG à ceux créés par des humains. Ils voulaient voir si les items produits par CPIG étaient tout aussi valides et fiables que les items traditionnels. Les résultats ont montré que les items générés par CPIG étaient effectivement efficaces pour susciter des réponses originales et de haute qualité.

Défis et considérations

Bien que CPIG montre du potentiel, des défis restent à relever. Une préoccupation est le risque que les LLMs produisent des réponses qui manquent de diversité. La recherche indique que les LLMs peuvent générer des résultats similaires pour des prompts similaires, réduisant la diversité des idées au fil du temps. C'est une considération importante en utilisant des LLMs dans les évaluations de créativité.

Un autre défi est de garantir que les évaluations restent valides dans différents contextes culturels. Le modèle de scoring utilisé dans CPIG est basé sur des données qui peuvent ne pas capturer des perspectives diverses. Cela souligne la nécessité d'améliorations dans la manière dont les items et les réponses sont évalués pour assurer équité et précision.

Directions futures

Pour mieux comprendre et améliorer l'efficacité de CPIG, des recherches futures peuvent se concentrer sur plusieurs domaines. Un domaine important est de développer de meilleurs mécanismes de scoring qui prennent en compte plusieurs aspects de la créativité, comme l'originalité, la pertinence et la faisabilité. De plus, explorer l'utilisation de sources de données diverses pour entraîner les LLMs pourrait aider à créer des outils d'évaluation plus équilibrés.

En outre, des études utilisateurs impliquant de vrais testés fourniront des informations précieuses sur la performance des items CPIG dans des environnements réels. Cela impliquerait d'administrer des items générés par CPIG à des participants et d'analyser leur performance et leurs retours.

Conclusion

La créativité est une compétence vitale dans l'économie moderne, et des outils d'évaluation efficaces sont nécessaires pour la mesurer. Le Générateur d'Items Psychométriques Créatifs offre une nouvelle approche pour créer des items de test de créativité valides et fiables en utilisant de grands modèles de langage. En générant et en affinant les items de manière itérative, CPIG a le potentiel de révolutionner la façon dont la créativité est évaluée. Cependant, s'attaquer aux défis liés à la diversité et à la précision des scores est crucial pour le succès du cadre.

La recherche autour de CPIG ouvre des possibilités passionnantes pour des outils d'évaluation automatisés, offrant de nouvelles opportunités pour mesurer la créativité humaine et mieux comprendre ses mécanismes sous-jacents. À mesure que le domaine se développe, il sera essentiel de continuer à affiner ces méthodes et de s'assurer que les cadres utilisés sont inclusifs et équitables, permettant une vue holistique de la créativité à travers différentes populations et contextes.

Source originale

Titre: The creative psychometric item generator: a framework for item generation and validation using large language models

Résumé: Increasingly, large language models (LLMs) are being used to automate workplace processes requiring a high degree of creativity. While much prior work has examined the creativity of LLMs, there has been little research on whether they can generate valid creativity assessments for humans despite the increasingly central role of creativity in modern economies. We develop a psychometrically inspired framework for creating test items (questions) for a classic free-response creativity test: the creative problem-solving (CPS) task. Our framework, the creative psychometric item generator (CPIG), uses a mixture of LLM-based item generators and evaluators to iteratively develop new prompts for writing CPS items, such that items from later iterations will elicit more creative responses from test takers. We find strong empirical evidence that CPIG generates valid and reliable items and that this effect is not attributable to known biases in the evaluation process. Our findings have implications for employing LLMs to automatically generate valid and reliable creativity tests for humans and AI.

Auteurs: Antonio Laverghetta, Simone Luchini, Averie Linell, Roni Reiter-Palmon, Roger Beaty

Dernière mise à jour: Aug 30, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.00202

Source PDF: https://arxiv.org/pdf/2409.00202

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires