Comparer les réponses humaines et celles de l'IA en développement logiciel
Une étude comparant la qualité des réponses humaines et celles de l'IA en programmation.
― 7 min lire
Table des matières
L'IA générative, comme ChatGPT, est devenue populaire pour répondre à des questions, surtout en développement logiciel. Mais certaines plateformes, comme Stack Overflow, ont arrêté d'utiliser ces réponses générées par IA parce qu'elles les ont trouvées de mauvaise qualité. Cet article discute des différences entre les réponses données par des humains et celles générées par l'IA, surtout dans le domaine des questions et réponses sur le logiciel (SQA).
Contexte
Stack Overflow est un site connu où les programmeurs peuvent poser des questions et obtenir des réponses d'autres utilisateurs. Récemment, son trafic a chuté, ce que certains attribuent à l'utilisation d'outils d'IA générative qui peuvent produire des réponses rapidement. Ces outils peuvent répondre à différents types de questions, y compris celles liées aux Langages de programmation comme Java et Python. Cependant, après le lancement de ChatGPT, Stack Overflow a décidé d'interdire son utilisation pour répondre aux questions parce qu'ils pensaient que les réponses générées par l'IA étaient souvent incorrectes.
Objectif de l'étude
Malgré les préoccupations de Stack Overflow, il n'y a pas beaucoup de preuves solides montrant si les réponses générées par l'IA sont vraiment pires que celles écrites par des humains. Cet article vise à comparer ces deux types de réponses de plus près en examinant leur qualité et d'autres caractéristiques.
Dans cette étude, nous posons les questions suivantes :
- Quelles sont les différences de qualité entre les réponses écrites par des humains et celles générées par l'IA ?
- Comment les utilisateurs perçoivent-ils la qualité des réponses générées par l'IA par rapport à celles écrites par des humains ?
Méthodologie
Pour réaliser cette étude, nous avons collecté des questions et réponses techniques de Stack Overflow. Nous avons établi des critères spécifiques pour sélectionner les questions afin de garantir qu'elles étaient pertinentes et avaient des réponses acceptées par des utilisateurs humains. Nous avons choisi des questions liées à Java et Python, en excluant celles avec des images puisque l'IA ne peut pas les traiter.
Collecte de données
Nous avons rassemblé un total de 442 questions sur Python et 182 questions sur Java. Pour chaque question, nous avons obtenu la réponse acceptée écrite par un humain. Nous avons aussi utilisé un modèle d'IA, spécifiquement ChatGPT, pour générer des réponses aux mêmes questions. Les réponses ont été comparées selon différents aspects comme la longueur, la justesse, l'utilité et la clarté.
Processus d'analyse
Pour comparer les réponses, nous les avons examinées de deux manières :
- Comparaison automatique : Cela consistait à mesurer la longueur des réponses et à vérifier leur similarité à l'aide d'un modèle mathématique. Nous avons vérifié si les réponses avaient été générées par l'IA ou écrites par des humains selon certains critères.
- Comparaison manuelle : Dans cette partie de l'étude, nous avons demandé à des participants humains d'évaluer les deux types de réponses selon leur satisfaction et si elles adressaient bien les questions.
Résultats
Résultats de la comparaison automatique
Dans la comparaison automatique, nous avons trouvé que les réponses écrites par des humains étaient généralement plus longues que celles générées par l'IA. Pour les deux langages de programmation, les réponses humaines étaient environ 1,8 fois plus longues que celles générées par ChatGPT. Malgré cela, le sens des réponses était souvent similaire, montrant que l'IA pouvait comprendre les questions dans une certaine mesure.
Cependant, il y avait des différences d'opinion sur le fait qu'une question devrait inclure des extraits de code. Dans de nombreux cas, l'IA n'était pas d'accord avec les réponses humaines à ce sujet.
Résultats de la comparaison manuelle
Dans l'analyse manuelle, les participants ont été invités à évaluer les réponses humaines et celles générées par l'IA. Ils ont noté les réponses sur une échelle et ont donné des commentaires supplémentaires sur leur satisfaction. Les résultats ont montré que les réponses écrites par des humains étaient préférées dans presque tous les aspects mesurés.
Les réponses humaines étaient meilleures en termes de justesse, d'utilité, de diversité, de lisibilité, de clarté et de concision. Les participants ont également remarqué que les réponses générées par l'IA manquaient souvent de force dans certains domaines, avec 27 % d'entre elles contenant des erreurs factuelles, contre seulement 2 % des réponses humaines ayant des problèmes similaires.
Les participants ont déclaré que les réponses écrites par des humains comprenaient mieux les questions, montrant une compréhension 15 % meilleure comparée à celles générées par l'IA. Ils ont également noté que les réponses humaines étaient plus susceptibles d'adresser complètement les questions, avec un écart de 32 %.
Fait intéressant, 86 % des participants pouvaient facilement distinguer quelles réponses avaient été générées par l'IA, notant souvent que les réponses de l'IA semblaient dépourvues d'émotion et comprenaient des détails inutiles.
Discussion
L'étude souligne que même si l'IA peut produire des réponses rapidement, la qualité de ces réponses ne correspond souvent pas à celle des réponses écrites par des humains. Les utilisateurs humains préféraient des réponses qui étaient non seulement précises mais aussi claires et utiles. Beaucoup d'utilisateurs ont souligné que ChatGPT était limité dans sa capacité à fournir des informations pertinentes pour des questions qui n'étaient pas dans ses données d'entraînement.
Implications
Cette comparaison met en lumière comment l'IA générative peut aider à répondre à des questions liées aux logiciels, mais montre aussi les limites qu'elle rencontre. Bien que l'IA puisse générer des réponses rapidement, elle manque souvent de profondeur et de précision que les réponses humaines fournissent.
Pour l'avenir, il faut se concentrer sur l'amélioration des réponses de l'IA ainsi que sur la recherche de meilleures façons pour les humains et l'IA de collaborer dans la réponse aux questions sur les logiciels.
Directions futures
Il y a deux domaines clés pour des recherches futures :
- Améliorer les réponses de l'IA : Trouver des méthodes pour améliorer la qualité des réponses générées par les outils d'IA, les rendant plus utiles et précises.
- Collaboration humain-IA : Explorer comment les humains et l'IA peuvent efficacement partager la charge de travail dans le SQA, assurant que les utilisateurs reçoivent des réponses de haute qualité rapidement.
Conclusion
L'IA générative a montré un grand potentiel pour répondre aux questions liées aux logiciels mais ne correspond pas encore à la qualité des réponses écrites par des humains. Bien qu'elle puisse répondre rapidement, la profondeur de compréhension et la précision sont souvent insuffisantes. À mesure que la technologie progresse, améliorer les capacités de l'IA sera essentiel pour son acceptation et son utilité dans des domaines comme la programmation et le développement de logiciels.
Titre: Are We Ready to Embrace Generative AI for Software Q&A?
Résumé: Stack Overflow, the world's largest software Q&A (SQA) website, is facing a significant traffic drop due to the emergence of generative AI techniques. ChatGPT is banned by Stack Overflow after only 6 days from its release. The main reason provided by the official Stack Overflow is that the answers generated by ChatGPT are of low quality. To verify this, we conduct a comparative evaluation of human-written and ChatGPT-generated answers. Our methodology employs both automatic comparison and a manual study. Our results suggest that human-written and ChatGPT-generated answers are semantically similar, however, human-written answers outperform ChatGPT-generated ones consistently across multiple aspects, specifically by 10% on the overall score. We release the data, analysis scripts, and detailed results at https://anonymous.4open.science/r/GAI4SQA-FD5C.
Auteurs: Bowen Xu, Thanh-Dat Nguyen, Thanh Le-Cong, Thong Hoang, Jiakun Liu, Kisub Kim, Chen Gong, Changan Niu, Chenyu Wang, Bach Le, David Lo
Dernière mise à jour: 2023-08-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.09765
Source PDF: https://arxiv.org/pdf/2307.09765
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://platform.openai.com/docs/api-reference/chat/create
- https://stackoverflow.com/questions/71641264
- https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/
- https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
- https://stackexchange.com/sites?view=list
- https://www.similarweb.com/website/stackoverflow.com/
- https://cdn.openai.com/papers/gpt-4.pdf
- https://github.com/maxxbw54/GAI4SQA
- https://mvnrepository.com/artifact/com.sun.xml.bind/jaxb-impl