Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Interacción Persona-Ordenador# Inteligencia artificial

Empoderando a las comunidades para evaluar herramientas de IA

Wikibench permite conjuntos de datos impulsados por la comunidad para una mejor evaluación de IA en Wikipedia.

― 11 minilectura


Control Comunitario en laControl Comunitario en laEvaluación de IApara una mejor evaluación de IA.Wikibench empodera a las comunidades
Tabla de contenidos

Las herramientas de IA se están usando cada vez más en las comunidades. Sin embargo, los datos utilizados para probar estas herramientas a menudo provienen de personas que no pertenecen a esas comunidades. Esto puede llevar a conclusiones incorrectas sobre qué tan bien funcionan estas herramientas. Es importante permitir que las comunidades creen y gestionen sus propios conjuntos de datos de evaluación para asegurar que las herramientas satisfacen sus necesidades. En este artículo, hablamos de un sistema llamado Wikibench, que ayuda a las comunidades en Wikipedia a trabajar juntas para curar sus propios conjuntos de datos para la evaluación de IA.

La Necesidad de la Curaduría de Datos Impulsada por la Comunidad

Al usar herramientas de IA, especialmente para la moderación de contenido en plataformas como Wikipedia, el rendimiento de la IA a menudo se evalúa utilizando conjuntos de datos hechos por desarrolladores externos. Esto puede causar problemas porque lo que funciona bien para una comunidad puede no servir para otra debido a diferentes necesidades y valores. Las herramientas de IA mal diseñadas pueden crear malas experiencias para los usuarios o perjudicar a personas vulnerables.

Por ejemplo, los datos han mostrado que los sistemas de IA a menudo etiquetan incorrectamente frases de ciertos dialectos o comunidades como problemáticas. Si esta desinformación se usa para juzgar qué tan bien funciona una herramienta de moderación de IA, puede subestimar gravemente los problemas reales de la herramienta. Cada comunidad tiene su propia perspectiva de lo que constituye un buen rendimiento, así que tiene sentido que tengan voz en cómo se curan los datos.

El Papel de Wikibench

Wikibench se desarrolló como respuesta a la necesidad de participación comunitaria en la evaluación de IA. Está diseñado para facilitar que los miembros de la comunidad trabajen juntos en la selección, etiquetado y discusión de los datos que se usarán para evaluar herramientas de IA.

El sistema permite a los usuarios elegir qué puntos de datos incluir, etiquetarlos según sus propias opiniones y luego reunirse para llegar a un consenso sobre las etiquetas finales. Este proceso fomenta discusiones productivas, ayuda a aclarar Desacuerdos y asegura que se represente una variedad de perspectivas.

Cómo Funciona Wikibench

Wikibench funciona dentro de Wikipedia para apoyar tres acciones principales: seleccionar puntos de datos, etiquetarlos y discutir sus etiquetas. Al integrarse en el flujo de trabajo existente de Wikipedia, permite a los usuarios trabajar con datos mientras ya están revisando ediciones.

Seleccionando Puntos de Datos

Los miembros de la comunidad pueden elegir qué ediciones o puntos de datos incluir en los conjuntos de datos. Esta selección puede ocurrir durante sus actividades regulares, como ver las ediciones realizadas en los artículos. Esto facilita que contribuyan sin requerir un esfuerzo extra.

Etiquetando Puntos de Datos

Una vez que los miembros de la comunidad han seleccionado los puntos de datos, pueden etiquetarlos. Cada miembro puede proporcionar su etiqueta basada en su propia opinión. Esto crea una colección de perspectivas individuales sobre cada punto de dato.

Discutiendo Etiquetas

Cuando las personas tienen diferentes etiquetas para el mismo punto de datos, Wikibench fomenta la discusión. Los miembros pueden hablar sobre sus perspectivas y llegar a un acuerdo sobre una etiqueta principal que represente la opinión de la comunidad. Este esfuerzo colaborativo construye una comprensión más profunda de los datos y sus implicaciones.

Desafíos de la Curaduría de Datos Impulsada por la Comunidad

Si bien la curaduría de datos impulsada por la comunidad es valiosa, trae consigo desafíos. Los individuos pueden tener diferentes opiniones sobre cómo deberían etiquetarse puntos de datos específicos. Pueden surgir desacuerdos por diferencias genuinas en la perspectiva o malentendidos.

Tradicionalmente, la mayoría de los sistemas manejan estos desacuerdos después de que ocurren. Pueden tomar la opinión mayoritaria o trabajar para entender sesgos individuales después de que se ha etiquetado. Sin embargo, un enfoque más efectivo involucraría a los miembros de la comunidad discutiendo sus desacuerdos abiertamente mientras etiquetan datos.

La Importancia de las Normas Comunitarias

Para que cualquier sistema sea efectivo en apoyar la curaduría de datos impulsada por la comunidad, debe alinearse con las normas y prácticas establecidas de la comunidad. Wikipedia tiene una larga historia de colaboración, y Wikibench se basa en eso al permitir que los usuarios utilicen procesos familiares para llegar a un consenso y compartir sus opiniones.

Al adherirse a las creencias comunitarias sobre la curaduría de datos, Wikibench ayuda a crear un sentido de propiedad entre los miembros de la comunidad sobre los conjuntos de datos creados.

Investigación Formativa sobre Wikibench

Para diseñar Wikibench de manera efectiva, el equipo de investigación primero realizó entrevistas con usuarios de Wikipedia y desarrolladores de IA. Estas entrevistas ayudaron a identificar las necesidades y deseos de los miembros de la comunidad respecto a la curaduría de datos.

De estas conversaciones, surgieron varios requisitos clave de diseño:

  1. Liderazgo Comunitario: El proceso de curaduría de datos debe ser liderado por la comunidad. El diseño del sistema debe adaptarse a las diversas normas de las diferentes comunidades de idioma en Wikipedia.

  2. Fomento de la Discusión: El proceso de curaduría debe promover el diálogo para sacar a la luz desacuerdos y trabajar hacia un consenso.

  3. Integración en el Flujo de Trabajo: El proceso de curaduría de datos debe encajar perfectamente en los flujos de trabajo existentes de Wikipedia para evitar interrumpir las actividades actuales de los usuarios.

  4. Transparencia: El proceso debe ser abierto a todos los miembros de la comunidad, permitiéndoles ver y entender los esfuerzos de curaduría de datos.

Desarrollo del Sistema Wikibench

Usando los conocimientos de la investigación formativa, el equipo creó Wikibench. El sistema permite a los miembros de la comunidad seleccionar, etiquetar y discutir datos de manera colaborativa.

Función de Complemento

Wikibench incluye un complemento que se integra con la interfaz existente de Wikipedia. Este complemento aparece en las páginas de revisión de ediciones, permitiendo a los miembros de la comunidad etiquetar ediciones mientras realizan sus tareas habituales. Al proporcionar la posibilidad de etiquetar directamente en la página en la que están trabajando, fomenta la participación.

Página de Entidad

Cada edición también tiene una página de entidad asociada. Esta página compila todas las etiquetas individuales para una edición y permite a los usuarios ver cómo otros han etiquetado la misma edición. Esta función permite a los miembros de la comunidad comprender rápidamente el nivel de desacuerdo y facilita las discusiones sobre las etiquetas.

Página de Campaña

Una página de campaña alberga el conjunto de datos general y rastrea el progreso de la curaduría de datos. Esta página destaca ediciones que necesitan más atención, permitiendo a los miembros de la comunidad concentrarse en áreas críticas. Aquí, los usuarios pueden filtrar ediciones que necesitan más etiquetas o discusiones.

Evaluación de Wikibench

Para evaluar qué tan bien funcionó Wikibench, los investigadores realizaron un estudio en dos partes en Wikipedia en inglés. En la primera parte, observaron a los miembros de la comunidad mientras usaban el sistema. En la segunda parte, validaron si las etiquetas generadas a través de Wikibench reflejaban mejor las opiniones de la comunidad que las creadas mediante sistemas anteriores.

Estudio de Campo

Durante el estudio de campo, los participantes usaron Wikibench durante una semana. Se les pidió etiquetar un número mínimo de ediciones y participar en discusiones. Al final del estudio, los participantes ofrecieron comentarios sobre sus experiencias, lo que proporcionó información sobre la efectividad del sistema.

Los participantes apreciaron la facilidad con la que podían integrar la etiquetación en sus actividades regulares. En general, la respuesta a Wikibench fue positiva, con muchos expresando que el sistema mejoró sus esfuerzos de curaduría de datos.

Estudio de Validación

En el estudio de validación, un grupo diferente de wikipedistas etiquetó las mismas ediciones que habían etiquetado anteriormente usando Wikilabels y Wikibench. Los investigadores querían ver si las etiquetas principales de Wikibench se alineaban más estrechamente con el consenso comunitario en comparación con Wikilabels.

Los resultados mostraron que el enfoque de Wikibench para la curaduría de datos produjo etiquetas que reflejaban mejor la perspectiva de la comunidad. Los participantes señalaron que el enfoque colaborativo permitió representar más puntos de vista diversos.

Hallazgos e Insights

Los resultados de Wikibench revelan varios hallazgos clave sobre la curaduría de datos impulsada por la comunidad y la evaluación de IA:

Calidad de las Etiquetas

Las etiquetas generadas a través de Wikibench reflejaron en gran medida un consenso entre los miembros de la comunidad. Los participantes sintieron que las conversaciones en torno a los desacuerdos ayudaron a construir una mejor comprensión de los datos y permitieron un consenso más claro.

Desacuerdos e Incertidumbre

Wikibench capturó eficazmente los desacuerdos y la incertidumbre expresados por los miembros de la comunidad. Los participantes apreciaron que las discusiones sobre puntos de vista en conflicto contribuyeron a una comprensión más rica y llevaron a decisiones más informadas.

Etiquetado Colaborativo

La naturaleza colaborativa del proceso de etiquetado aseguró que la mayoría de los puntos de datos fueran Etiquetados por múltiples miembros de la comunidad. Esta diversidad de aportes resultó en conjuntos de datos de mayor calidad al incorporar una gama más amplia de perspectivas.

Potencial para Usarse en la Evaluación de IA

Los conjuntos de datos creados a través de Wikibench pueden usarse para evaluar qué tan bien las herramientas de IA se alinean con los valores de la comunidad. Los participantes encontraron que comparar el rendimiento de diferentes modelos de IA con los conjuntos de datos curados a través de Wikibench proporcionó información valiosa.

Apoyando la Curaduría de Datos Impulsada por la Comunidad Más Allá de Wikipedia

Las lecciones aprendidas de Wikibench pueden aplicarse para apoyar la curaduría de datos impulsada por la comunidad en otros contextos también. Diferentes comunidades, como las de plataformas de redes sociales, pueden adoptar enfoques similares para empoderar a sus miembros para crear y gestionar sus propios datos.

Adaptándose a las Normas Comunitarias

Si bien los principios de diseño detrás de Wikibench son valiosos, deben adaptarse para ajustarse a las normas únicas de cada comunidad. Por ejemplo, una plataforma como Reddit puede tener diferentes expectativas respecto a la curaduría de datos en comparación con Wikipedia.

Equilibrando Costos y Beneficios

A medida que se desarrollan más sistemas como Wikibench, es importante encontrar el equilibrio adecuado entre la participación comunitaria y la eficiencia del proceso de curaduría.

Apoyar a las comunidades en la curaduría de datos puede, a veces, llevar a una carga de recursos. La investigación futura debería centrarse en cómo optimizar el tiempo y el esfuerzo mientras se asegura que se escuchen las voces de la comunidad.

Conclusión

La curaduría de datos de evaluación de IA impulsada por la comunidad es esencial para asegurar que las herramientas de IA satisfagan las necesidades de diversos grupos de usuarios. Wikibench demuestra el potencial de la curaduría de datos colaborativa en Wikipedia, destacando cómo los miembros de la comunidad pueden participar de manera efectiva en la configuración de los conjuntos de datos que se utilizarán para evaluar herramientas de IA.

Los conocimientos obtenidos de Wikibench pueden informar el diseño de sistemas similares en otros contextos. Asegurar que las voces de la comunidad se incluyan en el proceso de curaduría de datos es crucial para el futuro de la evaluación de IA.

Al explorar y refinar herramientas como Wikibench, los investigadores y desarrolladores pueden empoderar mejor a las comunidades para participar activamente en la evaluación y curaduría de sistemas de IA que impactan sus vidas.

Fuente original

Título: Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia

Resumen: AI tools are increasingly deployed in community contexts. However, datasets used to evaluate AI are typically created by developers and annotators outside a given community, which can yield misleading conclusions about AI performance. How might we empower communities to drive the intentional design and curation of evaluation datasets for AI that impacts them? We investigate this question on Wikipedia, an online community with multiple AI-based content moderation tools deployed. We introduce Wikibench, a system that enables communities to collaboratively curate AI evaluation datasets, while navigating ambiguities and differences in perspective through discussion. A field study on Wikipedia shows that datasets curated using Wikibench can effectively capture community consensus, disagreement, and uncertainty. Furthermore, study participants used Wikibench to shape the overall data curation process, including refining label definitions, determining data inclusion criteria, and authoring data statements. Based on our findings, we propose future directions for systems that support community-driven data curation.

Autores: Tzu-Sheng Kuo, Aaron Halfaker, Zirui Cheng, Jiwoo Kim, Meng-Hsin Wu, Tongshuang Wu, Kenneth Holstein, Haiyi Zhu

Última actualización: 2024-02-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.14147

Fuente PDF: https://arxiv.org/pdf/2402.14147

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares