Simple Science

La science de pointe expliquée simplement

# Informatique# Interaction homme-machine

Impact de l'IA conversationnelle sur la performance en ingénierie logicielle

Cette étude examine comment l'IA affecte la productivité et la confiance parmi les ingénieurs logiciels.

― 7 min lire


Le rôle de l'IA dans laLe rôle de l'IA dans laperformance del'ingénierie logicielleingénieurs.productivité et la confiance desExamen de l'influence de l'IA sur la
Table des matières

Les récentes avancées en intelligence artificielle (IA) ont changé la façon dont les gens interagissent avec la technologie dans de nombreux domaines, y compris le développement logiciel. L'IA conversationnelle, comme Bard de Google et ChatGPT d'OpenAI, est maintenant utilisée pour aider les ingénieurs logiciels avec des tâches comme écrire et corriger du code. Cependant, il n'est pas encore clair à quel point ces outils sont bénéfiques dans des scénarios réels. Cette étude examine comment l'utilisation de ces agents conversationnels affecte la Productivité et la Confiance des ingénieurs logiciels.

Contexte de l'étude

Cette étude se concentre sur les ingénieurs logiciels. L'objectif est de voir comment l'accès à l'IA conversationnelle pendant un examen de programmation affecte leur performance, efficacité, Satisfaction et confiance. Un total de 76 ingénieurs ont participé, travaillant sur des tâches avec et sans le soutien de Bard.

Questions de recherche

Cette étude examine deux questions principales :

  1. Effets sur la productivité : Comment l'utilisation de l'IA conversationnelle impacte-t-elle la productivité des ingénieurs logiciels ?
  2. Comportements de confiance : Comment les utilisateurs montrent-ils leur confiance dans les outils d'IA conversationnelle pendant leurs tâches ?

Méthodologie

Participants

On a invité 1 400 ingénieurs logiciels chez Google à participer à cette recherche. Parmi eux, 220 ont répondu, et 76 ont complété l'étude après avoir rempli des critères spécifiques. Les participants ont passé un examen de programmation composé de dix questions à choix multiples liées à la programmation Java.

Design de l'étude

L'examen était divisé en deux parties : une où les participants utilisaient d'abord Bard et une autre où ils l'utilisaient en dernier. Ce design nous a permis de comparer les niveaux de productivité en utilisant Bard et des ressources traditionnelles. L'étude comprenait à la fois des questions ouvertes nécessitant une résolution de problème et des questions simples pouvant être répondues par la recherche d'informations.

Mesure de la productivité et de la confiance

Pour évaluer la productivité, nous avons examiné trois aspects :

  1. Performance : Combien de questions ont été répondues correctement.
  2. Efficacité : Le temps total passé sur l'examen.
  3. Satisfaction : À quel point les participants se sentaient satisfaits de leur performance après la tâche.

La confiance a été évaluée à travers les actions des participants pendant qu'ils utilisaient Bard et des ressources traditionnelles, ainsi que par leurs sentiments auto-déclarés à propos de ces outils.

Principales conclusions

Niveaux de productivité

Dans l'ensemble, les participants ont obtenu un score moyen de 4,89 sur 10 à l'examen. Ceux qui utilisaient Bard avaient tendance à passer plus de temps sur les tâches mais se percevaient comme plus productifs. Cela indique un décalage entre la performance réelle et l'efficacité perçue. Les participants réussissaient mieux à répondre à des questions simples par rapport à celles nécessitant une résolution de problème plus profonde.

Confiance dans l'IA conversationnelle

Les résultats ont montré que les ingénieurs se fiaient de plus en plus à Bard au fur et à mesure qu'ils progressaient dans l'examen, malgré une confiance moindre envers l'outil. Les utilisateurs novices montraient souvent plus de confiance en Bard par rapport aux experts. Les experts étaient plus sceptiques et avaient tendance à se fier aux ressources traditionnelles.

Modèles d'utilisation

L'étude a mis en avant que les novices trouvaient Bard plus facile à utiliser, optant souvent pour poser des questions générales. En revanche, les experts, plus familiers avec la documentation traditionnelle, préféraient parfois s'y fier. Cette différence de comportement suggère que, tandis que Bard simplifie le processus pour les novices, les experts sont plus prudents et critiques quant à ses résultats.

Charge Cognitive et substitution d'effort

Utiliser Bard semblait réduire la charge cognitive en permettant aux utilisateurs de poser des questions et de recevoir des réponses instantanées. Les participants ont déclaré ressentir moins d'effort mental en utilisant Bard, même si cela prenait plus de temps pour compléter les tâches. Cela s'appelle la substitution d'effort, où les utilisateurs s'attendent à ce que les outils IA prennent en charge une partie du travail, entraînant un engagement moins critique avec la tâche.

Blâme asymétrique

Lorsque les participants recevaient des réponses incorrectes de Bard, ils étaient plus enclins à blâmer l'IA pour leurs erreurs. En revanche, lorsqu'ils utilisaient des ressources traditionnelles, ils étaient moins susceptibles d'attribuer des erreurs à la documentation. Cela implique que les utilisateurs peuvent avoir des réactions émotionnelles différentes selon la source de l'information.

Biais de confirmation

Les utilisateurs cherchaient souvent une validation de Bard plutôt que d'analyser de manière critique les réponses. Ce comportement démontre le biais de confirmation, où les gens privilégient les informations qui confirment leurs croyances ou idées préexistantes. Si les utilisateurs recevaient une réponse affirmative de Bard, ils étaient plus enclin à lui faire confiance sans chercher de clarification supplémentaire.

Implications pour la conception de l'IA

Étant donné ces résultats, il y a des recommandations spécifiques pour améliorer la conception des systèmes d'IA conversationnelle :

  1. Construire pour une confiance appropriée : Les systèmes devraient encourager les utilisateurs à vérifier les informations fournies plutôt que de favoriser une confiance aveugle.
  2. Montrer l'incertitude : Communiquer l'incertitude peut aider les utilisateurs à prendre de meilleures décisions et éviter la surdépendance à l'IA.
  3. Améliorer la transparence : Fournir des attributions et des sources plus claires pour les informations générées par l'IA peut aider les utilisateurs à se sentir plus confiants dans leur prise de décision.

Limitations et travaux futurs

Bien que les idées tirées de cette étude soient précieuses, elles peuvent être limitées au contexte spécifique des ingénieurs logiciels d'une entreprise. L'expérience et les attitudes des ingénieurs pourraient différer de celles d'autres utilisateurs dans d'autres domaines. Les recherches futures pourraient examiner une gamme plus large de tâches et d'expériences utilisateur pour valider ces résultats.

Conclusion

Dans l'ensemble, cette étude offre des perspectives importantes sur la façon dont les outils d'IA conversationnelle impactent la productivité et la confiance des ingénieurs logiciels. Bien que ces outils aient le potentiel d'améliorer la productivité, leur utilisation n'est pas toujours simple et dépend fortement de l'expertise individuelle de l'utilisateur. Comprendre comment les utilisateurs interagissent avec ces systèmes est crucial pour concevoir de meilleurs outils d'IA qui améliorent réellement la productivité et favorisent une confiance appropriée.

À retenir

  1. Résultats mitigés en productivité : Les participants se sentaient plus productifs en utilisant Bard, même s'ils ne voyaient pas de gains mesurables.
  2. Dynamiques de confiance : La confiance dans l'IA varie considérablement entre novices et experts.
  3. Modèles comportementaux : Les utilisateurs cherchent souvent une validation de l'IA, ce qui peut conduire à un biais de confirmation.
  4. Recommandations de conception : Les systèmes d'IA devraient être conçus pour promouvoir un engagement critique plutôt qu'une dépendance.

Ces résultats soulignent la nécessité d'une réflexion soigneuse dans la conception des systèmes d'IA conversationnelle pour soutenir efficacement les utilisateurs dans leurs tâches tout en assurant une pensée critique et des niveaux de confiance appropriés.

Source originale

Titre: Take It, Leave It, or Fix It: Measuring Productivity and Trust in Human-AI Collaboration

Résumé: Although recent developments in generative AI have greatly enhanced the capabilities of conversational agents such as Google's Gemini (formerly Bard) or OpenAI's ChatGPT, it's unclear whether the usage of these agents aids users across various contexts. To better understand how access to conversational AI affects productivity and trust, we conducted a mixed-methods, task-based user study, observing 76 software engineers (N=76) as they completed a programming exam with and without access to Bard. Effects on performance, efficiency, satisfaction, and trust vary depending on user expertise, question type (open-ended "solve" vs. definitive "search" questions), and measurement type (demonstrated vs. self-reported). Our findings include evidence of automation complacency, increased reliance on the AI over the course of the task, and increased performance for novices on "solve"-type questions when using the AI. We discuss common behaviors, design recommendations, and impact considerations to improve collaborations with conversational AI.

Auteurs: Crystal Qian, James Wexler

Dernière mise à jour: 2024-04-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.18498

Source PDF: https://arxiv.org/pdf/2402.18498

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires