Impacto de la IA conversacional en el rendimiento de la ingeniería de software
Este estudio examina cómo la IA afecta la productividad y la confianza entre los ingenieros de software.
― 6 minilectura
Tabla de contenidos
- Contexto del Estudio
- Preguntas de Investigación
- Metodología
- Participantes
- Diseño del Estudio
- Medición de Productividad y Confianza
- Hallazgos Clave
- Niveles de Productividad
- Confianza en IA Conversacional
- Patrones de Uso
- Carga Cognitiva y Sustitución de Esfuerzo
- Culpa Asimétrica
- Sesgo de confirmación
- Implicaciones para el Diseño de IA
- Limitaciones y Trabajo Futuro
- Conclusión
- Conclusiones
- Fuente original
Los recientes avances en inteligencia artificial (IA) han cambiado la forma en que la gente interactúa con la tecnología en muchas áreas, incluyendo el desarrollo de software. La IA conversacional, como Bard de Google y ChatGPT de OpenAI, se está usando ahora para ayudar a los ingenieros de software con tareas como escribir y corregir código. Sin embargo, aún no está claro cuán beneficiosas son estas herramientas en situaciones del mundo real. Este estudio investiga cómo el uso de estos agentes conversacionales afecta la Productividad y la Confianza entre los ingenieros de software.
Contexto del Estudio
El enfoque de este estudio son los ingenieros de software. El objetivo es ver cómo el acceso a IA conversacional durante un examen de programación afecta su rendimiento, eficiencia, Satisfacción y confianza. Un total de 76 ingenieros participaron, trabajando en tareas tanto con como sin el apoyo de Bard.
Preguntas de Investigación
Este estudio investiga dos preguntas principales:
- Efectos en la productividad: ¿Cómo impacta el uso de IA conversacional en la productividad de los ingenieros de software?
- Comportamientos de confianza: ¿Cómo demuestran los usuarios confianza en las herramientas de IA conversacional durante sus tareas?
Metodología
Participantes
Invitamos a 1,400 ingenieros de software en Google a participar en esta investigación. De esos, 220 respondieron y 76 completaron el estudio tras cumplir con criterios específicos. Los participantes tomaron un examen de programación que constaba de diez preguntas de opción múltiple relacionadas con la programación en Java.
Diseño del Estudio
El examen se dividió en dos partes: una donde los participantes usaron Bard primero y otra donde usaron Bard al final. Este diseño nos permitió comparar los niveles de productividad al usar Bard y recursos tradicionales. El estudio incluyó tanto preguntas abiertas que requerían resolución de problemas como preguntas sencillas que se podían responder buscando información.
Medición de Productividad y Confianza
Para evaluar la productividad, observamos tres aspectos:
- Rendimiento: Cuántas preguntas se respondieron correctamente.
- Eficiencia: La cantidad total de tiempo invertido en el examen.
- Satisfacción: Qué tan satisfechos se sintieron los participantes con su rendimiento después de la tarea.
La confianza se evaluó a través de las acciones que tomaron los participantes mientras usaban Bard y recursos tradicionales, así como a través de sus sentimientos auto-reportados sobre estas herramientas.
Hallazgos Clave
Niveles de Productividad
En general, los participantes obtuvieron un promedio de 4.89 de 10 en el examen. Aquellos que usaron Bard tendieron a gastar más tiempo en las tareas pero se percibieron como más productivos. Esto indica una desconexión entre el rendimiento real y la eficiencia percibida. Los participantes fueron más exitosos en responder preguntas sencillas en comparación con las que requerían una mayor resolución de problemas.
Confianza en IA Conversacional
Los resultados mostraron que los ingenieros confiaron cada vez más en Bard a medida que avanzaban en el examen, a pesar de reportar menos confianza en la herramienta. Los usuarios novatos a menudo mostraron más confianza en Bard en comparación con los expertos. Los expertos eran más escépticos y tendían a confiar en recursos tradicionales.
Patrones de Uso
El estudio destacó que los novatos encontraban a Bard más fácil de usar, optando a menudo por hacer preguntas amplias. En contraste, los expertos, que estaban más familiarizados con la documentación tradicional, a veces preferían confiar en ella. Esta diferencia en el comportamiento sugiere que mientras Bard simplifica el proceso para los novatos, los expertos son más cautelosos y críticos con sus resultados.
Carga Cognitiva y Sustitución de Esfuerzo
El uso de Bard pareció reducir la carga cognitiva al permitir que los usuarios hicieran preguntas y recibieran respuestas instantáneas. Los participantes reportaron sentir menos esfuerzo mental al usar Bard, incluso si les tomaba más tiempo completar las tareas. Esto se conoce como sustitución de esfuerzo, donde los usuarios esperan que las herramientas de IA manejen parte del trabajo, llevando a un compromiso menos crítico con la tarea.
Culpa Asimétrica
Cuando los participantes recibían respuestas incorrectas de Bard, eran más propensos a culpar a la IA por sus errores. En contraste, al usar recursos tradicionales, eran menos propensos a atribuir errores a la documentación. Esto implica que los usuarios pueden tener diferentes reacciones emocionales dependiendo de la fuente de la información.
Sesgo de confirmación
Los usuarios a menudo buscaban validación de Bard en lugar de analizar críticamente las respuestas. Este comportamiento demuestra sesgo de confirmación, donde la gente favorece la información que confirma sus creencias o ideas preexistentes. Si los usuarios recibían una respuesta afirmativa de Bard, eran más propensos a confiar en ella sin buscar más aclaraciones.
Implicaciones para el Diseño de IA
Dado estos hallazgos, hay recomendaciones específicas para mejorar el diseño de sistemas de IA conversacional:
- Construir para una Confianza Apropiada: Los sistemas deberían animar a los usuarios a verificar la información proporcionada en lugar de fomentar una confianza ciega.
- Mostrar Incertidumbre: Comunicar incertidumbre puede ayudar a los usuarios a tomar mejores decisiones y evitar la dependencia excesiva de la IA.
- Mejorar la Transparencia: Proporcionar atribuciones y fuentes más claras para la información generada por IA puede ayudar a los usuarios a sentirse más seguros en su toma de decisiones.
Limitaciones y Trabajo Futuro
Aunque los conocimientos obtenidos de este estudio son valiosos, pueden estar limitados al contexto específico de los ingenieros de software en una empresa. La experiencia y actitudes de los ingenieros podrían diferir de las de otros usuarios en diferentes campos. La investigación futura puede explorar una gama más amplia de tareas y experiencias de usuario para validar estos hallazgos.
Conclusión
En general, este estudio ofrece importantes perspectivas sobre cómo las herramientas de IA conversacional impactan la productividad y la confianza entre los ingenieros de software. Mientras que estas herramientas tienen el potencial de mejorar la productividad, su uso no siempre es sencillo y depende en gran medida de la experiencia individual del usuario. Entender cómo los usuarios interactúan con estos sistemas es crucial para diseñar mejores herramientas de IA que realmente mejoren la productividad y fomenten la confianza adecuada.
Conclusiones
- Resultados Mixtos en Productividad: Los participantes se sintieron más productivos al usar Bard, a pesar de no ver ganancias medibles.
- Dinámicas de Confianza: La confianza en la IA difiere significativamente entre novatos y expertos.
- Patrones Comportamentales: Los usuarios a menudo buscan validación de la IA, lo que puede llevar a un sesgo de confirmación.
- Recomendaciones de Diseño: Los sistemas de IA deben diseñarse para promover un compromiso crítico en lugar de dependencia.
Estos hallazgos destacan la necesidad de considerar cuidadosamente el diseño de sistemas de IA conversacional para apoyar efectivamente a los usuarios en sus tareas mientras aseguran el pensamiento crítico y niveles de confianza apropiados.
Título: Take It, Leave It, or Fix It: Measuring Productivity and Trust in Human-AI Collaboration
Resumen: Although recent developments in generative AI have greatly enhanced the capabilities of conversational agents such as Google's Gemini (formerly Bard) or OpenAI's ChatGPT, it's unclear whether the usage of these agents aids users across various contexts. To better understand how access to conversational AI affects productivity and trust, we conducted a mixed-methods, task-based user study, observing 76 software engineers (N=76) as they completed a programming exam with and without access to Bard. Effects on performance, efficiency, satisfaction, and trust vary depending on user expertise, question type (open-ended "solve" vs. definitive "search" questions), and measurement type (demonstrated vs. self-reported). Our findings include evidence of automation complacency, increased reliance on the AI over the course of the task, and increased performance for novices on "solve"-type questions when using the AI. We discuss common behaviors, design recommendations, and impact considerations to improve collaborations with conversational AI.
Autores: Crystal Qian, James Wexler
Última actualización: 2024-04-01 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.18498
Fuente PDF: https://arxiv.org/pdf/2402.18498
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.