Simple Science

Ciência de ponta explicada de forma simples

# Informática# Interação Homem-Computador# Inteligência Artificial

Capacitando Comunidades a Avaliar Ferramentas de IA

O Wikibench permite conjuntos de dados criados pela comunidade pra melhorar a avaliação de IA na Wikipedia.

― 10 min ler


Controle Comunitário naControle Comunitário naAvaliação de IAmelhor avaliação de IA.Wikibench fortalece comunidades pra uma
Índice

Ferramentas de IA estão sendo cada vez mais usadas em comunidades. Mas, os dados usados para testar essas ferramentas geralmente vêm de pessoas que não pertencem a essas comunidades. Isso pode levar a conclusões erradas sobre o quão bem essas ferramentas funcionam. É importante deixar as comunidades criarem e gerenciarem seus próprios conjuntos de dados para avaliação, pra garantir que as ferramentas atendam suas necessidades. Neste artigo, falamos sobre um sistema chamado Wikibench, que ajuda as comunidades na Wikipedia a trabalharem juntas para organizar seus próprios conjuntos de dados para avaliação de IA.

A Necessidade de Curadoria de Dados Liderada pela Comunidade

Quando se usam ferramentas de IA, especialmente para moderação de conteúdo em plataformas como a Wikipedia, o desempenho da IA é muitas vezes julgado usando conjuntos de dados feitos por desenvolvedores externos. Isso pode causar problemas, porque o que funciona bem para uma comunidade pode não funcionar para outra, devido a necessidades e valores diferentes. Ferramentas de IA mal projetadas podem criar experiências ruins para os usuários ou prejudicar pessoas vulneráveis.

Por exemplo, dados mostraram que sistemas de IA costumam rotular erroneamente frases de certos dialetos ou comunidades como problemáticas. Se essa desinformação for usada para julgar quão bem uma ferramenta de moderação de IA funciona, pode subestimar gravemente os problemas reais da ferramenta. Cada comunidade tem sua própria visão sobre o que é um bom desempenho, então faz sentido que elas tenham voz na curadoria dos dados.

O Papel do Wikibench

O Wikibench foi desenvolvido como uma resposta à necessidade de envolvimento da comunidade na avaliação da IA. Ele é projetado para facilitar a colaboração entre os membros da comunidade na seleção, rotulação e discussão dos dados que serão usados para avaliar ferramentas de IA.

O sistema permite que os usuários escolham quais pontos de dados incluir, rotulem com base em suas próprias visões e, em seguida, se reúnam para chegar a um consenso sobre as rotulações finais. Esse processo incentiva discussões produtivas, ajuda a esclarecer desentendimentos e garante que uma variedade de perspectivas seja representada.

Como o Wikibench Funciona

O Wikibench funciona dentro da Wikipedia para apoiar três ações principais: selecionar pontos de dados, rotulá-los e discutir suas rotulações. Ao se integrar ao fluxo de trabalho existente da Wikipedia, permite que os usuários trabalhem com dados enquanto já estão revisando edições.

Selecionando Pontos de Dados

Os membros da comunidade podem escolher quais edições ou pontos de dados incluir nos conjuntos de dados. Essa seleção pode ocorrer durante suas atividades regulares, como analisando edições feitas em artigos. Isso facilita a contribuição deles sem exigir um esforço extra.

Rotulando Pontos de Dados

Depois que os membros da comunidade selecionam os pontos de dados, eles podem rotulá-los. Cada membro pode fornecer seu rótulo com base em sua própria opinião. Isso cria uma coleção de perspectivas individuais sobre cada ponto de dado.

Discutindo Rótulos

Quando indivíduos têm rótulos diferentes para o mesmo ponto de dado, o Wikibench incentiva a discussão. Os membros podem falar sobre suas perspectivas e chegar a um acordo sobre um rótulo principal que represente a visão da comunidade. Esse esforço colaborativo constrói uma compreensão mais profunda dos dados e suas implicações.

Desafios da Curadoria de Dados Liderada pela Comunidade

Embora a curadoria de dados liderada pela comunidade seja valiosa, ela traz desafios. As pessoas podem ter opiniões diferentes sobre como pontos de dados específicos devem ser rotulados. Desentendimentos podem surgir de verdadeiras diferenças de perspectiva ou mal-entendidos.

Tradicionalmente, a maioria dos sistemas lida com esses desentendimentos depois que acontecem. Eles podem seguir a opinião da maioria ou tentar entender preconceitos individuais após a rotulação ter ocorrido. Entretanto, uma abordagem mais eficaz seria fazer com que os membros da comunidade discutissem abertamente seus desentendimentos enquanto rotulam os dados.

A Importância das Normas da Comunidade

Para que qualquer sistema seja eficaz em apoiar a curadoria de dados liderada pela comunidade, ele deve alinhar-se com as normas e práticas estabelecidas da comunidade. A Wikipedia tem uma longa história de colaboração, e o Wikibench se baseia nisso ao permitir que os usuários utilizem processos familiares para chegar a consenso e compartilhar suas visões.

Ao aderir às crenças da comunidade sobre a curadoria de dados, o Wikibench ajuda a criar um senso de propriedade entre os membros da comunidade sobre os conjuntos de dados criados.

Pesquisa Formativa sobre o Wikibench

Para projetar o Wikibench de forma eficaz, a equipe de pesquisa primeiro conduziu entrevistas com usuários da Wikipedia e desenvolvedores de IA. Essas entrevistas ajudaram a identificar as necessidades e desejos dos membros da comunidade em relação à curadoria de dados.

A partir dessas conversas, surgiram vários requisitos-chave de design:

  1. Liderança Comunitária: O processo de curadoria de dados deve ser liderado pela comunidade. O design do sistema deve se adaptar às várias normas das diferentes comunidades linguísticas da Wikipedia.

  2. Incentivar a Discussão: O processo de curadoria deve promover o diálogo para levantar desentendimentos e buscar consenso.

  3. Integração ao Fluxo de Trabalho: O processo de curadoria de dados deve se encaixar perfeitamente nos fluxos de trabalho existentes da Wikipedia, para evitar interromper as atividades atuais dos usuários.

  4. Transparência: O processo deve ser aberto a todos os membros da comunidade, permitindo que eles vejam e entendam os esforços de curadoria de dados.

Desenvolvendo o Sistema Wikibench

Usando as percepções da pesquisa formativa, a equipe criou o Wikibench. O sistema permite que os membros da comunidade selecionem, rotulem e discutam dados de forma colaborativa.

Funcionamento do Plug-In

O Wikibench inclui um plug-in que se integra com a interface existente da Wikipedia. Esse plug-in aparece nas páginas de revisão de edições, permitindo que os membros da comunidade rotulem edições enquanto realizam suas tarefas habituais. Ao fornecer a capacidade de rotular diretamente na página em que estão trabalhando, ele incentiva a participação.

Página de Entidade

Cada edição também tem uma página de entidade associada. Essa página compila todos os rótulos individuais para uma edição e permite que os usuários vejam como outras pessoas rotularam a mesma edição. Esse recurso permite que os membros da comunidade entendam rapidamente o nível de desentendimento e facilita discussões em torno dos rótulos.

Página de Campanha

Uma página de campanha hospeda o conjunto de dados geral e acompanha o progresso da curadoria de dados. Esta página destaca edições que precisam de mais atenção, permitindo que os membros da comunidade se concentrem em áreas críticas. Aqui, os usuários podem filtrar edições que precisam de mais rótulos ou discussões.

Avaliação do Wikibench

Para avaliar quão bem o Wikibench funcionou, os pesquisadores conduziram um estudo em duas partes na Wikipedia em inglês. Na primeira parte, observaram os membros da comunidade enquanto usavam o sistema. Na segunda parte, validaram se os rótulos gerados através do Wikibench refletiram melhor as visões da comunidade do que aqueles criados por sistemas anteriores.

Estudo de Campo

Durante o estudo de campo, os participantes usaram o Wikibench por uma semana. Eles foram convidados a rotular um número mínimo de edições e participar de discussões. No final do estudo, os participantes ofereceram feedback sobre suas experiências, o que forneceu insights sobre a eficácia do sistema.

Os participantes apreciaram a facilidade com que podiam incorporar a rotulação em suas atividades regulares. No geral, a resposta ao Wikibench foi positiva, com muitos expressando que o sistema melhorou seus esforços de curadoria de dados.

Estudo de Validação

No estudo de validação, um grupo diferente de wikipedistas rotulou as mesmas edições que haviam rotulado anteriormente usando o Wikilabels e o Wikibench. Os pesquisadores queriam ver se os rótulos principais do Wikibench se alinhavam mais de perto com o consenso da comunidade em comparação com os do Wikilabels.

Os resultados mostraram que a abordagem do Wikibench à curadoria de dados gerou rótulos que refletiam melhor a perspectiva da comunidade. Os participantes notaram que a abordagem colaborativa permitiu que mais pontos de vista diversos fossem representados.

Descobertas e Insights

Os resultados do Wikibench revelam várias descobertas chave sobre a curadoria de dados liderada pela comunidade e a avaliação de IA:

Qualidade dos Rótulos

Os rótulos gerados através do Wikibench refletiram amplamente um consenso entre os membros da comunidade. Os participantes sentiram que as conversas em torno dos desentendimentos ajudaram a construir uma melhor compreensão dos dados e permitiram um consenso mais claro.

Desentendimento e Incerteza

O Wikibench capturou efetivamente os desentendimentos e incertezas expressos pelos membros da comunidade. Os participantes apreciaram que as discussões sobre pontos de vista conflitantes contribuíram para uma compreensão mais rica e levaram a decisões mais informadas.

Rotulação Colaborativa

A natureza colaborativa do processo de rotulação garantiu que a maioria dos pontos de dados fosse rotulada por múltiplos membros da comunidade. Essa entrada diversificada resultou em conjuntos de dados de maior qualidade, trazendo uma gama mais ampla de perspectivas.

Potencial para Uso na Avaliação de IA

Os conjuntos de dados criados através do Wikibench podem ser usados para avaliar quão bem as ferramentas de IA se alinham com os valores da comunidade. Os participantes acharam que comparar o desempenho de diferentes modelos de IA com os conjuntos de dados organizados pelo Wikibench forneceu insights valiosos.

Apoio à Curadoria de Dados Liderada pela Comunidade Além da Wikipedia

As lições aprendidas com o Wikibench podem ser aplicadas para apoiar a curadoria de dados liderada pela comunidade em outros contextos também. Comunidades diferentes, como aquelas em plataformas de mídia social, podem adotar abordagens semelhantes para capacitar seus membros a criar e gerenciar seus próprios dados.

Adaptação às Normas da Comunidade

Embora os princípios de design por trás do Wikibench sejam valiosos, eles devem ser adaptados para se encaixar nas normas únicas de cada comunidade. Por exemplo, uma plataforma como o Reddit pode ter expectativas diferentes em relação à curadoria de dados em comparação com a Wikipedia.

Equilibrando Custos e Benefícios

À medida que mais sistemas como o Wikibench são desenvolvidos, é importante encontrar o equilíbrio certo entre o envolvimento da comunidade e a eficiência do processo de curadoria.

Apoiar as comunidades na curadoria de dados pode, às vezes, levar a um desgaste de recursos. Pesquisas futuras devem se concentrar em como otimizar tempo e esforço, enquanto garantem que as vozes da comunidade sejam ouvidas.

Conclusão

A curadoria liderada pela comunidade de conjuntos de dados para avaliação de IA é essencial para garantir que as ferramentas de IA atendam às necessidades de grupos de usuários diversos. O Wikibench demonstra o potencial da curadoria colaborativa de dados na Wikipedia, destacando como os membros da comunidade podem participar efetivamente na formação dos conjuntos de dados que serão usados para avaliar ferramentas de IA.

As percepções obtidas com o Wikibench podem informar o design de sistemas semelhantes em outros contextos. Garantir que as vozes da comunidade sejam incluídas no processo de curadoria de dados é crucial para o futuro da avaliação de IA.

Ao explorar e refinar ferramentas como o Wikibench, pesquisadores e desenvolvedores podem empoderar melhor as comunidades a participar ativamente da avaliação e curadoria de sistemas de IA que impactam suas vidas.

Fonte original

Título: Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia

Resumo: AI tools are increasingly deployed in community contexts. However, datasets used to evaluate AI are typically created by developers and annotators outside a given community, which can yield misleading conclusions about AI performance. How might we empower communities to drive the intentional design and curation of evaluation datasets for AI that impacts them? We investigate this question on Wikipedia, an online community with multiple AI-based content moderation tools deployed. We introduce Wikibench, a system that enables communities to collaboratively curate AI evaluation datasets, while navigating ambiguities and differences in perspective through discussion. A field study on Wikipedia shows that datasets curated using Wikibench can effectively capture community consensus, disagreement, and uncertainty. Furthermore, study participants used Wikibench to shape the overall data curation process, including refining label definitions, determining data inclusion criteria, and authoring data statements. Based on our findings, we propose future directions for systems that support community-driven data curation.

Autores: Tzu-Sheng Kuo, Aaron Halfaker, Zirui Cheng, Jiwoo Kim, Meng-Hsin Wu, Tongshuang Wu, Kenneth Holstein, Haiyi Zhu

Última atualização: 2024-02-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.14147

Fonte PDF: https://arxiv.org/pdf/2402.14147

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes