Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Interacción Persona-Ordenador

Impacto de la IA conversacional en el rendimiento de la ingeniería de software

Este estudio examina cómo la IA afecta la productividad y la confianza entre los ingenieros de software.

― 6 minilectura


El papel de la IA en elEl papel de la IA en elrendimiento de laingeniería de softwareingenieros.productividad y confianza de losExaminando la influencia de la IA en la
Tabla de contenidos

Los recientes avances en inteligencia artificial (IA) han cambiado la forma en que la gente interactúa con la tecnología en muchas áreas, incluyendo el desarrollo de software. La IA conversacional, como Bard de Google y ChatGPT de OpenAI, se está usando ahora para ayudar a los ingenieros de software con tareas como escribir y corregir código. Sin embargo, aún no está claro cuán beneficiosas son estas herramientas en situaciones del mundo real. Este estudio investiga cómo el uso de estos agentes conversacionales afecta la Productividad y la Confianza entre los ingenieros de software.

Contexto del Estudio

El enfoque de este estudio son los ingenieros de software. El objetivo es ver cómo el acceso a IA conversacional durante un examen de programación afecta su rendimiento, eficiencia, Satisfacción y confianza. Un total de 76 ingenieros participaron, trabajando en tareas tanto con como sin el apoyo de Bard.

Preguntas de Investigación

Este estudio investiga dos preguntas principales:

  1. Efectos en la productividad: ¿Cómo impacta el uso de IA conversacional en la productividad de los ingenieros de software?
  2. Comportamientos de confianza: ¿Cómo demuestran los usuarios confianza en las herramientas de IA conversacional durante sus tareas?

Metodología

Participantes

Invitamos a 1,400 ingenieros de software en Google a participar en esta investigación. De esos, 220 respondieron y 76 completaron el estudio tras cumplir con criterios específicos. Los participantes tomaron un examen de programación que constaba de diez preguntas de opción múltiple relacionadas con la programación en Java.

Diseño del Estudio

El examen se dividió en dos partes: una donde los participantes usaron Bard primero y otra donde usaron Bard al final. Este diseño nos permitió comparar los niveles de productividad al usar Bard y recursos tradicionales. El estudio incluyó tanto preguntas abiertas que requerían resolución de problemas como preguntas sencillas que se podían responder buscando información.

Medición de Productividad y Confianza

Para evaluar la productividad, observamos tres aspectos:

  1. Rendimiento: Cuántas preguntas se respondieron correctamente.
  2. Eficiencia: La cantidad total de tiempo invertido en el examen.
  3. Satisfacción: Qué tan satisfechos se sintieron los participantes con su rendimiento después de la tarea.

La confianza se evaluó a través de las acciones que tomaron los participantes mientras usaban Bard y recursos tradicionales, así como a través de sus sentimientos auto-reportados sobre estas herramientas.

Hallazgos Clave

Niveles de Productividad

En general, los participantes obtuvieron un promedio de 4.89 de 10 en el examen. Aquellos que usaron Bard tendieron a gastar más tiempo en las tareas pero se percibieron como más productivos. Esto indica una desconexión entre el rendimiento real y la eficiencia percibida. Los participantes fueron más exitosos en responder preguntas sencillas en comparación con las que requerían una mayor resolución de problemas.

Confianza en IA Conversacional

Los resultados mostraron que los ingenieros confiaron cada vez más en Bard a medida que avanzaban en el examen, a pesar de reportar menos confianza en la herramienta. Los usuarios novatos a menudo mostraron más confianza en Bard en comparación con los expertos. Los expertos eran más escépticos y tendían a confiar en recursos tradicionales.

Patrones de Uso

El estudio destacó que los novatos encontraban a Bard más fácil de usar, optando a menudo por hacer preguntas amplias. En contraste, los expertos, que estaban más familiarizados con la documentación tradicional, a veces preferían confiar en ella. Esta diferencia en el comportamiento sugiere que mientras Bard simplifica el proceso para los novatos, los expertos son más cautelosos y críticos con sus resultados.

Carga Cognitiva y Sustitución de Esfuerzo

El uso de Bard pareció reducir la carga cognitiva al permitir que los usuarios hicieran preguntas y recibieran respuestas instantáneas. Los participantes reportaron sentir menos esfuerzo mental al usar Bard, incluso si les tomaba más tiempo completar las tareas. Esto se conoce como sustitución de esfuerzo, donde los usuarios esperan que las herramientas de IA manejen parte del trabajo, llevando a un compromiso menos crítico con la tarea.

Culpa Asimétrica

Cuando los participantes recibían respuestas incorrectas de Bard, eran más propensos a culpar a la IA por sus errores. En contraste, al usar recursos tradicionales, eran menos propensos a atribuir errores a la documentación. Esto implica que los usuarios pueden tener diferentes reacciones emocionales dependiendo de la fuente de la información.

Sesgo de confirmación

Los usuarios a menudo buscaban validación de Bard en lugar de analizar críticamente las respuestas. Este comportamiento demuestra sesgo de confirmación, donde la gente favorece la información que confirma sus creencias o ideas preexistentes. Si los usuarios recibían una respuesta afirmativa de Bard, eran más propensos a confiar en ella sin buscar más aclaraciones.

Implicaciones para el Diseño de IA

Dado estos hallazgos, hay recomendaciones específicas para mejorar el diseño de sistemas de IA conversacional:

  1. Construir para una Confianza Apropiada: Los sistemas deberían animar a los usuarios a verificar la información proporcionada en lugar de fomentar una confianza ciega.
  2. Mostrar Incertidumbre: Comunicar incertidumbre puede ayudar a los usuarios a tomar mejores decisiones y evitar la dependencia excesiva de la IA.
  3. Mejorar la Transparencia: Proporcionar atribuciones y fuentes más claras para la información generada por IA puede ayudar a los usuarios a sentirse más seguros en su toma de decisiones.

Limitaciones y Trabajo Futuro

Aunque los conocimientos obtenidos de este estudio son valiosos, pueden estar limitados al contexto específico de los ingenieros de software en una empresa. La experiencia y actitudes de los ingenieros podrían diferir de las de otros usuarios en diferentes campos. La investigación futura puede explorar una gama más amplia de tareas y experiencias de usuario para validar estos hallazgos.

Conclusión

En general, este estudio ofrece importantes perspectivas sobre cómo las herramientas de IA conversacional impactan la productividad y la confianza entre los ingenieros de software. Mientras que estas herramientas tienen el potencial de mejorar la productividad, su uso no siempre es sencillo y depende en gran medida de la experiencia individual del usuario. Entender cómo los usuarios interactúan con estos sistemas es crucial para diseñar mejores herramientas de IA que realmente mejoren la productividad y fomenten la confianza adecuada.

Conclusiones

  1. Resultados Mixtos en Productividad: Los participantes se sintieron más productivos al usar Bard, a pesar de no ver ganancias medibles.
  2. Dinámicas de Confianza: La confianza en la IA difiere significativamente entre novatos y expertos.
  3. Patrones Comportamentales: Los usuarios a menudo buscan validación de la IA, lo que puede llevar a un sesgo de confirmación.
  4. Recomendaciones de Diseño: Los sistemas de IA deben diseñarse para promover un compromiso crítico en lugar de dependencia.

Estos hallazgos destacan la necesidad de considerar cuidadosamente el diseño de sistemas de IA conversacional para apoyar efectivamente a los usuarios en sus tareas mientras aseguran el pensamiento crítico y niveles de confianza apropiados.

Fuente original

Título: Take It, Leave It, or Fix It: Measuring Productivity and Trust in Human-AI Collaboration

Resumen: Although recent developments in generative AI have greatly enhanced the capabilities of conversational agents such as Google's Gemini (formerly Bard) or OpenAI's ChatGPT, it's unclear whether the usage of these agents aids users across various contexts. To better understand how access to conversational AI affects productivity and trust, we conducted a mixed-methods, task-based user study, observing 76 software engineers (N=76) as they completed a programming exam with and without access to Bard. Effects on performance, efficiency, satisfaction, and trust vary depending on user expertise, question type (open-ended "solve" vs. definitive "search" questions), and measurement type (demonstrated vs. self-reported). Our findings include evidence of automation complacency, increased reliance on the AI over the course of the task, and increased performance for novices on "solve"-type questions when using the AI. We discuss common behaviors, design recommendations, and impact considerations to improve collaborations with conversational AI.

Autores: Crystal Qian, James Wexler

Última actualización: 2024-04-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.18498

Fuente PDF: https://arxiv.org/pdf/2402.18498

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares