Identifier le texte généré par l'IA dans l'éducation
Cet article examine comment distinguer l'écriture humaine de celle de l'IA.
― 9 min lire
Table des matières
Récemment, des outils qui créent du texte avec l'intelligence artificielle (IA), comme ChatGPT, sont devenus super populaires. Ces outils peuvent aider les étudiants en générant des essais ou d'autres travaux écrits. Mais ça soulève une question pour les profs : comment savoir si un texte a été écrit par un élève ou créé par une IA ? Cet article se penche sur ce problème. On vise à trouver des moyens d’identifier les textes écrits par l’IA et de les distinguer de ceux écrits par des humains.
Le Besoin de Différenciation
Avec la montée en puissance des outils IA, il est crucial de faire la différence entre le contenu créé par des humains et celui généré par des machines. Bien que les deux types de rédaction puissent transmettre des infos, ils le font souvent avec des intentions différentes. L’écriture humaine vient généralement d’expériences personnelles et de créativité, tandis que le texte généré par l’IA est créé sur la base de modèles et de données alimentées dans le système. L’IA peut répéter des phrases ou suivre certains formules, alors que l'écriture humaine a tendance à être plus variée et unique.
Le défi s'intensifie à mesure que les modèles IA s'améliorent. Ils peuvent produire des textes qui semblent réalistes et originaux, ce qui peut mener à des problèmes comme le plagiat ou la diffusion de fausses infos. À cause de ça, il y a un besoin pressant d'outils qui peuvent aider à identifier si un texte a été écrit par une personne ou généré par une IA.
Objectifs de Recherche
Dans notre étude, on se concentre sur les différences entre l’écriture humaine et le texte généré par l’IA. En examinant ces différences, on espère améliorer les méthodes de détection des écrits générés par l'IA. On veut aussi créer une ressource précieuse pour les futures études dans ce domaine. On a rassemblé un nouvel ensemble de textes couvrant dix matières scolaires pour aider notre recherche.
Pour nous aider, on a décidé de générer des textes avec ChatGPT parce que c’est l’un des outils les plus utilisés en ce moment. Son apprentissage sur de grands ensembles de données en fait un bon candidat pour générer du texte ressemblant à l’écriture humaine.
Travaux Liés
Les chatbots comme ChatGPT utilisent un traitement du langage avancé pour produire du texte basé sur des demandes des utilisateurs. ChatGPT, en particulier, est construit sur un modèle qui lui permet de répondre à des questions avec du texte pertinent. Bien que les détails exacts de son entraînement ne soient pas publics, on sait que la version précédente de ce modèle a été formée sur une énorme quantité de données, ce qui lui permet de créer des textes souvent difficiles à différencier de l’écriture humaine.
Avec l’utilisation croissante des outils IA, il devient de plus en plus important d’identifier si un texte est humain ou généré par l’IA. Il existe de nombreux outils pour aider avec ça, y compris GPTZero, qui se concentre sur l’analyse des modèles dans l’écriture. Bien que ces outils montrent du potentiel, ils font encore face à des défis en matière d’exactitude. Des études récentes ont exploré différentes méthodes pour améliorer la détection, mais beaucoup n'ont regardé que des demandes simples faites à l’IA.
Notre Nouveau Corpus de Données
Pour mener notre recherche, on a créé une nouvelle collection d’environ 500 articles. Cette collection inclut des textes sur dix matières scolaires différentes, comme la biologie, l’histoire et le sport. Pour chaque matière, on a sélectionné dix sujets spécifiques. On a généré des textes de deux manières : d’abord, en utilisant des demandes basiques qui demandent simplement à l'IA d'écrire sur un sujet, et ensuite, avec des demandes plus avancées qui instructent l'IA à écrire comme si elle était humaine.
On a aussi généré des exemples d’IA reformulant des textes humains. Pour notre reformulation, on a utilisé des textes pris dans des articles Wikipedia publiés avant la sortie de ChatGPT, s’assurant que les textes humains étaient originaux.
Types de Textes d’IA
On s’est concentré sur deux principaux types de textes générés par l’IA :
Textes d’IA de Base : Ce sont des textes créés entièrement par l’IA en utilisant des demandes simples. Par exemple, demander à l’IA de générer des infos sur une ville spécifique.
Textes d’IA Avancés : Ces textes sont créés avec des instructions pour que l’IA écrive d’une manière qui imite plus étroitement l’écriture humaine. Par exemple, dire à l’IA d’écrire sur un sujet comme le ferait un humain.
En plus de générer de nouveaux textes, on a aussi collecté des textes générés par des humains pour comparaison. Cela nous a permis d’analyser comment les différentes caractéristiques des textes générés par l’IA diffèrent de ceux écrits par des gens.
Caractéristiques pour la Classification de Textes
Pour identifier si un texte est humain ou généré par l’IA, on a regardé plusieurs caractéristiques :
Caractéristiques de Perplexité
La perplexité est une mesure de la capacité d’un modèle de langage à prédire le mot suivant dans une séquence. Un score de perplexité plus bas indique généralement que le texte est plus prévisible, ce qui suggère qu’il pourrait être généré par l’IA. En revanche, l’écriture humaine a tendance à être plus surprenante et variée.
Caractéristiques sémantiques
Ces caractéristiques se rapportent à la signification du texte. Par exemple, on a examiné le sentiment du texte pour voir s'il avait un ton positif, neutre ou négatif. On a aussi évalué si le texte était objectif ou subjectif.
Caractéristiques de Recherche de Liste
C'est la vérification de types spécifiques de mots. Par exemple, compter les mots de liaison ou chercher des phrases répétées. On a remarqué que les textes générés par l’IA contiennent souvent des modèles prévisibles ou des mots-clés répétés.
Caractéristiques Documentaires
Ces caractéristiques sont liées à la structure générale du texte. Cela inclut l'analyse des fréquences de mots et de l’utilisation de la ponctuation, car les textes générés par l’IA ont souvent des modèles différents par rapport à l’écriture humaine.
Caractéristiques Basées sur des Erreurs
L’écriture humaine est plus susceptible d'avoir des fautes d'orthographe ou grammaticales par rapport aux textes générés par l’IA, qui ont généralement moins d'erreurs. On a cherché les erreurs courantes comme indication pour savoir si un texte a été écrit par une personne ou généré par l’IA.
Caractéristiques de Lisibilité
On a mesuré la facilité ou la difficulté de lecture du texte. Les textes générés par l’IA ont souvent des scores de lisibilité différents de ceux écrits par des humains.
Caractéristiques de Retour d’IA
Dans une approche unique, on a directement demandé à ChatGPT s'il avait généré un texte particulier. Ses réponses nous ont donné des points de données supplémentaires pour la classification.
Caractéristiques de Vecteur de Texte
Ces caractéristiques examinaient la relation entre les mots et leurs significations. En analysant la proximité de phrases similaires, on pouvait identifier une possible répétition dans les textes écrits par l’IA.
Expérimentation et Résultats
On a testé différentes caractéristiques en utilisant trois approches différentes : XGBoost, forêt aléatoire et perceptrons multicouches. Chaque méthode a fourni des scores de précision et de F1 pour évaluer à quel point ils pouvaient bien distinguer entre les textes humains et ceux d'IA.
On a exécuté une série de tests pour évaluer nos systèmes par rapport aux textes que nous avons créés. Ces tests étaient conçus pour s'assurer que nous avions des résultats stables et fiables.
Les résultats ont montré que nos modèles ont bien fonctionné. Par exemple, pour la détection de textes générés par l’IA de base, on a obtenu un score F1 de plus de 96 %. Pour des cas plus avancés, on a quand même réussi à maintenir une haute précision, montrant que nos méthodes fonctionnent même lorsque l’IA imite étroitement l’écriture humaine.
Conclusion et Futures Directions
Dans cette recherche, on a étudié différentes caractéristiques qui peuvent aider à détecter les textes générés par l’IA. Nos résultats montrent que combiner des mesures traditionnelles avec de nouvelles caractéristiques peut énormément améliorer la performance de classification. À mesure que les outils d’IA deviennent plus accessibles, le risque de mauvaise utilisation dans les milieux éducatifs augmente. Nos découvertes peuvent aider les profs à identifier l'utilisation de l’IA dans les tâches d’écriture.
Pour l'avenir, on vise à élargir notre travail en examinant des textes dans d'autres langues et en explorant d'autres types de demandes données à l’IA. On croit que la recherche continue dans ce domaine est essentielle à mesure que la technologie IA évolue. Dans l'ensemble, notre étude contribue des aperçus précieux sur le défi en cours de distinguer l’écriture humaine de celle générée par l’IA.
Titre: Classification of Human- and AI-Generated Texts: Investigating Features for ChatGPT
Résumé: Recently, generative AIs like ChatGPT have become available to the wide public. These tools can for instance be used by students to generate essays or whole theses. But how does a teacher know whether a text is written by a student or an AI? In our work, we explore traditional and new features to (1) detect text generated by AI from scratch and (2) text rephrased by AI. Since we found that classification is more difficult when the AI has been instructed to create the text in a way that a human would not recognize that it was generated by an AI, we also investigate this more advanced case. For our experiments, we produced a new text corpus covering 10 school topics. Our best systems to classify basic and advanced human-generated/AI-generated texts have F1-scores of over 96%. Our best systems for classifying basic and advanced human-generated/AI-rephrased texts have F1-scores of more than 78%. The systems use a combination of perplexity, semantic, list lookup, error-based, readability, AI feedback, and text vector features. Our results show that the new features substantially help to improve the performance of many classifiers. Our best basic text rephrasing detection system even outperforms GPTZero by 183.8% relative in F1-score.
Auteurs: Lorenz Mindner, Tim Schlippe, Kristina Schaaff
Dernière mise à jour: 2023-08-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.05341
Source PDF: https://arxiv.org/pdf/2308.05341
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/LorenzM97/human-AI-generatedTextCorpus
- https://gptzero.me
- https://writer.com/ai-content-detector
- https://openai-openai-detector.hf.space
- https://www.overleaf.com/project/643d3bee50ed5bb9b6d70a5cgltr
- https://www.overleaf.com/project/643d3bee50ed5bb9b6d70a5c
- https://github.com/openai/gpt-2
- https://textblob.readthedocs.io/en/dev/quickstart.html
- https://github.com/jxmorris12/language