Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Mensch-Computer-Interaktion

Auswirkungen von Conversational AI auf die Performance in der Softwareentwicklung

Diese Studie untersucht, wie KI die Produktivität und das Vertrauen unter Software-Ingenieuren beeinflusst.

― 6 min Lesedauer


Die Rolle von KI in derDie Rolle von KI in derSoftware-EngineeringPerformancebeeinflusst.und das Vertrauen von IngenieurenUntersuchen, wie KI die Produktivität
Inhaltsverzeichnis

Jüngste Fortschritte in der künstlichen Intelligenz (KI) haben verändert, wie Menschen mit Technologie in vielen Bereichen interagieren, einschliesslich der Softwareentwicklung. Gesprächs-KI wie Googles Bard und OpenAIs ChatGPT werden jetzt genutzt, um Software-Ingenieuren bei Aufgaben wie dem Schreiben und Beheben von Code zu helfen. Es ist jedoch noch unklar, wie nützlich diese Tools in realen Szenarien sind. Diese Studie untersucht, wie sich die Nutzung dieser Gesprächsagenten auf die Produktivität und das Vertrauen unter Software-Ingenieuren auswirkt.

Kontext der Studie

Der Fokus dieser Studie liegt auf Software-Ingenieuren. Ziel ist es zu sehen, wie der Zugang zu Gesprächs-KI während einer Programmierprüfung ihre Leistung, Effizienz, Zufriedenheit und Vertrauen beeinflusst. Insgesamt 76 Ingenieure nahmen teil und arbeiteten an Aufgaben sowohl mit als auch ohne die Unterstützung von Bard.

Forschungsfragen

Diese Studie untersucht zwei Hauptfragen:

  1. Auswirkungen auf die Produktivität: Wie beeinflusst die Nutzung von Gesprächs-KI die Produktivität von Software-Ingenieuren?
  2. Verhaltensweisen des Vertrauens: Wie zeigen Nutzer Vertrauen in Gesprächs-KI-Tools während ihrer Aufgaben?

Methodologie

Teilnehmer

Wir haben 1.400 Software-Ingenieure bei Google eingeladen, an dieser Forschung teilzunehmen. Von denen haben 220 geantwortet, und 76 haben die Studie abgeschlossen, nachdem sie bestimmte Kriterien erfüllt hatten. Die Teilnehmer absolvierten eine Programmierprüfung, die aus zehn Multiple-Choice-Fragen zur Java-Programmierung bestand.

Studien-Design

Die Prüfung war in zwei Teile gegliedert: einen, in dem die Teilnehmer Bard zuerst nutzten, und einen anderen, in dem sie Bard zuletzt verwendeten. Dieses Design erlaubte es uns, die Produktivitätsniveaus beim Einsatz von Bard und traditionellen Ressourcen zu vergleichen. Die Studie beinhaltete sowohl offene Fragen, die Problemlösung erforderten, als auch einfache Fragen, die durch Nachschlagen beantwortet werden konnten.

Messung von Produktivität und Vertrauen

Um die Produktivität zu bewerten, betrachteten wir drei Aspekte:

  1. Leistung: Wie viele Fragen wurden korrekt beantwortet.
  2. Effizienz: Die insgesamt aufgebrachte Zeit für die Prüfung.
  3. Zufriedenheit: Wie zufrieden die Teilnehmer nach der Aufgabe mit ihrer Leistung waren.

Vertrauen wurde durch die Handlungen der Teilnehmer während der Nutzung von Bard und traditionellen Ressourcen sowie durch ihre selbstberichteten Gefühle zu diesen Tools bewertet.

Wichtige Ergebnisse

Produktivitätsniveaus

Insgesamt erzielten die Teilnehmer einen Durchschnitt von 4,89 von 10 in der Prüfung. Diejenigen, die Bard nutzten, benötigten tendenziell mehr Zeit für die Aufgaben, fühlten sich aber als produktiver. Das deutet auf eine Diskrepanz zwischen tatsächlicher Leistung und wahrgenommener Effizienz hin. Die Teilnehmer waren erfolgreicher bei der Beantwortung einfacher Fragen im Vergleich zu solchen, die tiefere Problemlösung erforderten.

Vertrauen in Gesprächs-KI

Die Ergebnisse zeigten, dass Ingenieure zunehmend auf Bard vertrauten, während sie die Prüfung durchführten, obwohl sie weniger Vertrauen in das Tool berichteten. Anfängern zeigten oft mehr Vertrauen in Bard im Vergleich zu Experten. Experten waren skeptischer und tendierten dazu, sich auf traditionelle Ressourcen zu verlassen.

Nutzungsmuster

Die Studie hob hervor, dass Anfänger Bard einfacher fanden, oft broad Fragen stellten. Im Gegensatz dazu zogen es Experten, die mit der traditionellen Dokumentation vertrauter waren, manchmal vor, sich darauf zu verlassen. Dieser Unterschied im Verhalten deutet darauf hin, dass Bard den Prozess für Anfänger vereinfacht, während Experten vorsichtiger und kritischer mit seinen Ergebnissen umgehen.

Kognitive Belastung und Aufwandsersetzung

Die Nutzung von Bard schien die kognitive Belastung zu reduzieren, indem sie den Nutzern erlaubte, Fragen zu stellen und sofortige Antworten zu erhalten. Die Teilnehmer berichteten von weniger geistigem Aufwand bei der Verwendung von Bard, auch wenn es länger dauerte, die Aufgaben zu erledigen. Dies wird als Aufwandsersetzung bezeichnet, bei der Nutzer erwarten, dass KI-Tools einen Teil der Arbeit übernehmen, was zu weniger kritischer Auseinandersetzung mit der Aufgabe führt.

Asymmetrische Schuldzuweisung

Wenn die Teilnehmer falsche Antworten von Bard erhielten, waren sie eher geneigt, die KI für ihre Fehler verantwortlich zu machen. Im Gegensatz dazu waren sie bei der Nutzung traditioneller Ressourcen weniger geneigt, Fehler der Dokumentation zuzuschreiben. Das deutet darauf hin, dass Nutzer unterschiedliche emotionale Reaktionen je nach Informationsquelle haben könnten.

Bestätigungsfehler

Nutzer suchten oft nach Bestätigung von Bard, anstatt die Antworten kritisch zu analysieren. Dieses Verhalten zeigt einen Bestätigungsfehler, bei dem Menschen Informationen bevorzugen, die ihre vorbestehenden Überzeugungen oder Ideen bestätigen. Wenn Nutzer eine bestätigende Antwort von Bard erhielten, waren sie eher geneigt, ihr zu vertrauen, ohne weitere Klärung zu suchen.

Implikationen für das Design von KI

Angesichts dieser Ergebnisse gibt es spezifische Empfehlungen zur Verbesserung des Designs von Gesprächs-KI-Systemen:

  1. Vertrauen angemessen aufbauen: Systeme sollten die Nutzer dazu ermutigen, die bereitgestellten Informationen zu überprüfen, anstatt blind zu vertrauen.
  2. Unsicherheit zeigen: Die Kommunikation von Unsicherheit kann den Nutzern helfen, bessere Entscheidungen zu treffen und eine Überabhängigkeit von der KI zu vermeiden.
  3. Transparenz verbessern: Die Bereitstellung klarer Zuordnungen und Quellen für die von KI generierten Informationen kann den Nutzern helfen, sich bei ihren Entscheidungen sicherer zu fühlen.

Einschränkungen und zukünftige Arbeiten

Obwohl die Erkenntnisse aus dieser Studie wertvoll sind, könnten sie auf den spezifischen Kontext von Software-Ingenieuren bei einem Unternehmen beschränkt sein. Die Erfahrungen und Einstellungen von Ingenieuren könnten sich von denen anderer Nutzer in unterschiedlichen Bereichen unterscheiden. Zukünftige Forschungen können eine breitere Palette von Aufgaben und Nutzererfahrungen untersuchen, um diese Ergebnisse zu validieren.

Fazit

Insgesamt bietet diese Studie wichtige Einblicke, wie Gesprächs-KI-Tools die Produktivität und das Vertrauen unter Software-Ingenieuren beeinflussen. Während diese Tools das Potenzial haben, die Produktivität zu steigern, ist ihre Nutzung nicht immer unkompliziert und hängt stark von der individuellen Nutzerexpertise ab. Zu verstehen, wie Nutzer mit diesen Systemen interagieren, ist entscheidend für die Gestaltung besserer KI-Tools, die die Produktivität tatsächlich steigern und angemessenes Vertrauen fördern.

Fazitpunkte

  1. Gemischte Ergebnisse in der Produktivität: Die Teilnehmer fühlten sich produktiver bei der Nutzung von Bard, obwohl sie keine messbaren Gewinne sahen.
  2. Vertrauensdynamik: Vertrauen in KI unterscheidet sich erheblich zwischen Anfängern und Experten.
  3. Verhaltensmuster: Nutzer suchen oft nach Bestätigung von KI, was zu einem Bestätigungsfehler führen kann.
  4. Gestaltungsempfehlungen: KI-Systeme sollten so gestaltet werden, dass sie kritisches Denken und Engagement fördern, anstatt Abhängigkeit.

Diese Ergebnisse zeigen, dass bei der Gestaltung von Gesprächs-KI-Systemen sorgfältig überlegt werden muss, wie man Nutzer effektiv bei ihren Aufgaben unterstützt und gleichzeitig kritisches Denken und angemessene Vertrauensniveaus sicherstellt.

Originalquelle

Titel: Take It, Leave It, or Fix It: Measuring Productivity and Trust in Human-AI Collaboration

Zusammenfassung: Although recent developments in generative AI have greatly enhanced the capabilities of conversational agents such as Google's Gemini (formerly Bard) or OpenAI's ChatGPT, it's unclear whether the usage of these agents aids users across various contexts. To better understand how access to conversational AI affects productivity and trust, we conducted a mixed-methods, task-based user study, observing 76 software engineers (N=76) as they completed a programming exam with and without access to Bard. Effects on performance, efficiency, satisfaction, and trust vary depending on user expertise, question type (open-ended "solve" vs. definitive "search" questions), and measurement type (demonstrated vs. self-reported). Our findings include evidence of automation complacency, increased reliance on the AI over the course of the task, and increased performance for novices on "solve"-type questions when using the AI. We discuss common behaviors, design recommendations, and impact considerations to improve collaborations with conversational AI.

Autoren: Crystal Qian, James Wexler

Letzte Aktualisierung: 2024-04-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2402.18498

Quell-PDF: https://arxiv.org/pdf/2402.18498

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel