Évaluer la cohérence de ChatGPT dans la classification de texte
Une étude évalue la fiabilité de ChatGPT pour classifier du texte.
― 6 min lire
Table des matières
Des études récentes montrent que ChatGPT peut aider à des tâches comme le tri et l'étiquetage de texte. Cependant, il est important de noter que ChatGPT ne donne pas toujours la même réponse à la même question. Tout comme les gens peuvent donner des réponses différentes à la même question, ChatGPT peut faire la même chose. Ça soulève des questions sur sa fiabilité en tant qu'outil pour l'annotation et la classification de texte.
C'est quoi l'annotation et la classification de texte ?
L'Annotation de texte, c'est quand une machine examine un texte et lui attribue des étiquettes. Par exemple, elle pourrait lire un article de presse et le classer comme "actualité" ou "pas actualité." La classification est un peu similaire. Elle essaie d'organiser le texte en catégories. Ces tâches peuvent être utiles pour les chercheurs et les entreprises qui ont besoin de trier beaucoup d'infos rapidement.
Pourquoi utiliser ChatGPT ?
Utiliser ChatGPT peut faire gagner du temps et de l'argent par rapport à des personnes qui font ces tâches. Dans le passé, pour former des machines à classifier du texte, les humains devaient annoter le texte manuellement. ChatGPT vise à simplifier ce processus, permettant de classer le texte directement sans trop d'implication humaine. Certaines études ont montré que ChatGPT s'en sortait bien avec des tâches spécifiques, comme détecter des discours nuisibles ou évaluer la crédibilité des infos.
L'importance de la Cohérence
Bien que ChatGPT montre des promesses dans ces tâches, la question de la cohérence est cruciale. Quand on demande à ChatGPT de classifier le même texte plusieurs fois, il ne donne pas toujours la même réponse. Cette incohérence pourrait poser des problèmes quand les chercheurs comptent dessus pour des décisions importantes. Cette étude examine de près à quel point ChatGPT est fiable quand il reçoit le même texte encore et encore.
Comment l'étude a été réalisée
L'étude s'est concentrée sur une tâche du monde réel : trier des sites web en "actualités" ou "pas actualités." Les chercheurs ont collecté des exemples de textes venant de différents sites et ont veillé à avoir un mélange de contenu. Pour voir comment ChatGPT performait, l'équipe a créé différentes instructions pour lui dire quoi faire.
Les chercheurs ont testé deux types de réglages en demandant à ChatGPT de classifier le texte. Ils ont utilisé ce qu'on appelle un "réglage de température". Une température basse signifie que la sortie sera plus contrôlée et prévisible, tandis qu'une température élevée permet plus de randomité dans les réponses. Ils ont aussi répété les mêmes tâches plusieurs fois pour voir à quel point les réponses étaient cohérentes.
Résultats de l'étude
Quand on a demandé à ChatGPT de classifier le même texte en utilisant différents réglages, les résultats ont montré qu'il ne classait pas toujours le texte de la même manière à chaque fois. Par exemple, utiliser des réglages de température basse a donné des réponses plus cohérentes qu'avec des réglages de température haute. Cependant, la cohérence globale n'était pas encore aussi fiable qu'on pourrait l'espérer.
L'étude a découvert que même de petits changements dans les instructions données à ChatGPT pouvaient entraîner des résultats différents. Par exemple, changer un mot pouvait affecter sa classification du texte de manière significative. Ça, c'est quelque chose qui n'arrive généralement pas avec les annotateurs humains, qui peuvent être moins sensibles aux changements mineurs dans les instructions.
Regroupement des résultats
Une stratégie que les chercheurs ont examinée pour améliorer la cohérence était le regroupement des résultats. Cela signifie prendre plusieurs réponses de ChatGPT pour la même question et voir quelle réponse apparaît le plus souvent. Quand ils ont fait ça, ils ont constaté que le regroupement des réponses aidait à améliorer la fiabilité. Plus ils répétaient la même question, meilleure était la cohérence de la classification.
Par exemple, quand ils ont classé chaque texte une seule fois, le taux de cohérence était en dessous de ce que les scientifiques considèrent habituellement comme acceptable. Cependant, quand ils ont pris la réponse majoritaire après avoir demandé dix fois, la cohérence s'est beaucoup améliorée.
Défis et préoccupations
Une préoccupation majeure avec l'utilisation de ChatGPT comme outil d'annotation de texte est la nature boîte noire de ses réponses. Ça signifie qu'il est souvent flou pourquoi ChatGPT arrive à certaines conclusions. Ce manque de transparence peut poser des problèmes, surtout quand les résultats sont utilisés pour des décisions ou analyses importantes.
De plus, la complexité de la tâche et la variabilité du texte à classifier peuvent influencer fortement les résultats. Cette étude n'a exploré que sa fiabilité ; donc, des recherches supplémentaires sont nécessaires pour comprendre la validité des sorties fournies par ChatGPT.
La Validation est particulièrement importante. Si les chercheurs ne comparent pas les Classifications de ChatGPT avec celles faites par des humains, ils pourraient croire par erreur que ses résultats sont précis. Pour utiliser ChatGPT efficacement, les chercheurs doivent toujours valider les sorties par rapport à des ensembles de données fiables.
Recommandations pour une utilisation future
Sur la base des résultats, il est recommandé que les chercheurs et les organisations qui envisagent d'utiliser ChatGPT pour l'annotation de texte soient prudents. Ils devraient s'assurer de valider les résultats par rapport à des références annotées par des humains. Aussi, en utilisant ChatGPT pour des tâches de classification, utiliser des réglages de température plus bas peut aider à améliorer la cohérence.
De plus, les chercheurs devraient répéter la même entrée plusieurs fois et ensuite prendre la réponse la plus fréquente comme classification finale. Cette méthode pourrait aider à compenser un peu la randomité des sorties de ChatGPT. Cependant, il est important de se rappeler que même si le regroupement peut améliorer la fiabilité, cela ne garantit pas l'exactitude.
Conclusion
En résumé, même si ChatGPT offre des possibilités intéressantes pour l'annotation et la classification de texte, sa fiabilité reste à questionner. L'étude montre que la cohérence est souvent inférieure à ce dont on a besoin pour des normes scientifiques. Étant donné les complexités impliquées, les futures études devraient aussi examiner comment différents types de textes pourraient affecter la capacité de ChatGPT à classifier avec précision.
En étant attentifs à ces défis et en s'assurant que des processus de validation sont en place, les chercheurs peuvent mieux tirer parti des capacités de ChatGPT tout en évitant des pièges potentiels. La technologie a du potentiel, mais elle doit être abordée avec prudence et soin.
Titre: Testing the Reliability of ChatGPT for Text Annotation and Classification: A Cautionary Remark
Résumé: Recent studies have demonstrated promising potential of ChatGPT for various text annotation and classification tasks. However, ChatGPT is non-deterministic which means that, as with human coders, identical input can lead to different outputs. Given this, it seems appropriate to test the reliability of ChatGPT. Therefore, this study investigates the consistency of ChatGPT's zero-shot capabilities for text annotation and classification, focusing on different model parameters, prompt variations, and repetitions of identical inputs. Based on the real-world classification task of differentiating website texts into news and not news, results show that consistency in ChatGPT's classification output can fall short of scientific thresholds for reliability. For example, even minor wording alterations in prompts or repeating the identical input can lead to varying outputs. Although pooling outputs from multiple repetitions can improve reliability, this study advises caution when using ChatGPT for zero-shot text annotation and underscores the need for thorough validation, such as comparison against human-annotated data. The unsupervised application of ChatGPT for text annotation and classification is not recommended.
Auteurs: Michael V. Reiss
Dernière mise à jour: 2023-04-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.11085
Source PDF: https://arxiv.org/pdf/2304.11085
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.