Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Interazione uomo-macchina# Intelligenza artificiale

Potenziare le comunità per valutare gli strumenti di intelligenza artificiale

Wikibench permette dataset guidati dalla comunità per una migliore valutazione dell'IA su Wikipedia.

― 9 leggere min


Controllo della comunitàControllo della comunitànella valutazione dell'IAuna valutazione migliore dell'IA.Wikibench dà potere alle comunità per
Indice

Gli strumenti di AI sono sempre più utilizzati nelle comunità. Tuttavia, i dati usati per testare questi strumenti spesso provengono da persone che non fanno parte di quelle comunità. Questo può portare a conclusioni sbagliate su quanto bene funzionano questi strumenti. È importante permettere alle comunità di creare e gestire i propri dataset di valutazione per garantire che gli strumenti rispondano alle loro esigenze. In questo articolo, parliamo di un sistema chiamato Wikibench, che aiuta le comunità su Wikipedia a lavorare insieme per curare i propri dataset per la valutazione dell'AI.

La necessità di una curatela dei dati guidata dalla comunità

Nell'uso degli strumenti di AI, specialmente per la moderazione dei contenuti su piattaforme come Wikipedia, le prestazioni dell'AI vengono spesso giudicate usando dataset creati da sviluppatori esterni. Questo può causare problemi perché ciò che funziona bene per una comunità potrebbe non funzionare per un'altra a causa di esigenze e valori diversi. Strumenti di AI mal progettati possono creare esperienze negative per gli utenti o danneggiare persone vulnerabili.

Ad esempio, i dati hanno mostrato che i sistemi di AI spesso etichettano erroneamente frasi provenienti da determinati dialetti o comunità come problematiche. Se questa disinformazione viene utilizzata per giudicare quanto bene funziona uno strumento di moderazione AI, può sottovalutare gravemente i problemi reali dello strumento. Ogni comunità ha la propria visione di cosa costituisce una buona prestazione, quindi ha senso che possano avere voce in capitolo su come vengono curati i dati.

Il ruolo di Wikibench

Wikibench è stato sviluppato come risposta alla necessità di coinvolgere la comunità nella valutazione dell'AI. È progettato per rendere più facile ai membri della comunità lavorare insieme nella selezione, Etichettatura e discussione dei dati che saranno utilizzati per valutare gli strumenti di AI.

Il sistema consente agli utenti di scegliere quali punti dati includere, etichettarli in base alle loro opinioni individuali e poi unirsi per raggiungere un consenso sulle etichette finali. Questo processo incoraggia discussioni produttive, aiuta a chiarire disaccordi e garantisce che venga rappresentata una gamma di prospettive.

Come funziona Wikibench

Wikibench funziona all'interno di Wikipedia per supportare tre azioni principali: selezionare punti dati, etichettarli e discutere le loro etichette. Integrandosi nel flusso di lavoro esistente di Wikipedia, consente agli utenti di lavorare con i dati mentre stanno già rivedendo le modifiche.

Selezionare i punti dati

I membri della comunità possono scegliere quali modifiche o punti dati includere nei dataset. Questa selezione può avvenire durante le loro attività regolari, come guardare le modifiche apportate agli articoli. Questo rende più facile per loro contribuire senza richiedere uno sforzo aggiuntivo.

Etichettare i punti dati

Una volta che i membri della comunità hanno selezionato i punti dati, possono etichettarli. Ogni membro può fornire la propria etichetta basata sulla propria opinione. Questo crea una raccolta di prospettive individuali su ciascun punto dati.

Discutere le etichette

Quando le persone hanno etichette diverse per lo stesso punto dati, Wikibench incoraggia la discussione. I membri possono parlare delle loro prospettive e arrivare a un accordo su un'etichetta principale che rappresenti il punto di vista della comunità. Questo sforzo collaborativo costruisce una comprensione più profonda dei dati e delle loro implicazioni.

Sfide della curatela dei dati guidata dalla comunità

Anche se la curatela dei dati guidata dalla comunità è preziosa, comporta anche delle sfide. Gli individui possono avere opinioni diverse su come specifici punti dati debbano essere etichettati. I disaccordi possono sorgere da genuine differenze di prospettiva o da fraintendimenti.

Tradizionalmente, la maggior parte dei sistemi gestisce questi disaccordi dopo il fatto. Possono adottare l'opinione della maggioranza o cercare di comprendere i bias individuali dopo che l'etichettatura è avvenuta. Tuttavia, un approccio più efficace comporterebbe che i membri della comunità discutano i propri disaccordi apertamente mentre etichettano i dati.

L'importanza delle Norme della comunità

Perché qualsiasi sistema sia efficace nel supportare la curatela dei dati guidata dalla comunità, deve allinearsi con le norme e le pratiche stabilite dalla comunità. Wikipedia ha una lunga storia di collaborazione, e Wikibench si basa su questo permettendo agli utenti di utilizzare processi familiari per raggiungere un consenso e condividere le loro opinioni.

Adottando le convinzioni della comunità sulla curatela dei dati, Wikibench aiuta a creare un senso di proprietà tra i membri della comunità sui dataset creati.

Ricerca formativa su Wikibench

Per progettare efficacemente Wikibench, il team di ricerca ha inizialmente condotto interviste con utenti di Wikipedia e sviluppatori di AI. Queste interviste hanno aiutato a identificare le necessità e i desideri dei membri della comunità riguardo alla curatela dei dati.

Da queste conversazioni, sono emersi diversi requisiti chiave di progettazione:

  1. Leadership della comunità: Il processo di curatela dei dati dovrebbe essere guidato dalla comunità. La progettazione del sistema deve adattarsi alle varie norme delle diverse comunità linguistiche di Wikipedia.

  2. Incoraggiare la discussione: Il processo di curatela dovrebbe promuovere il dialogo per far emergere disaccordi e lavorare verso il consenso.

  3. Integrazione nel flusso di lavoro: Il processo di curatela dei dati dovrebbe adattarsi senza soluzione di continuità ai flussi di lavoro esistenti di Wikipedia per evitare di interrompere le attività attuali degli utenti.

  4. Trasparenza: Il processo dovrebbe essere aperto a tutti i membri della comunità, consentendo loro di visualizzare e comprendere gli sforzi di curatela dei dati.

Sviluppo del sistema Wikibench

Utilizzando le intuizioni della ricerca formativa, il team ha creato Wikibench. Il sistema consente ai membri della comunità di selezionare, etichettare e discutere i dati in modo collaborativo.

Funzione Plug-In

Wikibench include un plug-in che si integra con l'interfaccia attuale di Wikipedia. Questo plug-in appare sulle pagine di revisione delle modifiche, permettendo ai membri della comunità di etichettare le modifiche mentre svolgono i loro compiti abituali. Offrendo la possibilità di etichettare direttamente sulla pagina su cui stanno lavorando, incoraggia la partecipazione.

Pagina dell'entità

Ogni modifica ha anche una pagina di entità associata. Questa pagina raccoglie tutte le etichette individuali per una modifica e consente agli utenti di vedere come altri hanno etichettato la stessa modifica. Questa funzione consente ai membri della comunità di comprendere rapidamente il livello di Disaccordo e facilita le discussioni intorno alle etichette.

Pagina della campagna

Una pagina della campagna ospita l'intero dataset e tiene traccia del progresso della curatela dei dati. Questa pagina evidenzia le modifiche che necessitano di maggior attenzione, permettendo ai membri della comunità di concentrarsi su aree critiche. Qui, gli utenti possono ordinare le modifiche che necessitano di ulteriori etichette o discussioni.

Valutazione di Wikibench

Per valutare quanto bene funzionasse Wikibench, i ricercatori hanno condotto uno studio in due parti su Wikipedia in inglese. Nella prima parte, hanno osservato i membri della comunità mentre usavano il sistema. Nella seconda parte, hanno convalidato se le etichette generate tramite Wikibench riflettevano meglio le opinioni della comunità rispetto a quelle create tramite sistemi precedenti.

Studio sul campo

Durante lo studio sul campo, i partecipanti hanno utilizzato Wikibench per una settimana. Sono stati invitati a etichettare un numero minimo di modifiche e a partecipare a discussioni. Alla fine dello studio, i partecipanti hanno fornito feedback sulle loro esperienze, che hanno offerto spunti sull'efficacia del sistema.

I partecipanti hanno apprezzato la facilità con cui potevano integrare l'etichettatura nelle loro attività regolari. Nel complesso, la risposta a Wikibench è stata positiva, con molti che hanno espresso che il sistema ha migliorato i loro sforzi di curatela dei dati.

Studio di convalida

Nello studio di convalida, un gruppo diverso di Wikipediani ha etichettato le stesse modifiche che avevano precedentemente etichettato utilizzando Wikilabels e Wikibench. I ricercatori volevano vedere se le etichette principali di Wikibench si allineavano più da vicino al consenso della comunità rispetto a Wikilabels.

I risultati hanno mostrato che l'approccio di Wikibench alla curatela dei dati ha prodotto etichette che riflettevano meglio la prospettiva della comunità. I partecipanti hanno notato che l'approccio collaborativo ha permesso di rappresentare punti di vista più diversificati.

Risultati e intuizioni

I risultati di Wikibench rivelano diverse scoperte chiave riguardanti la curatela dei dati guidata dalla comunità e la valutazione dell'AI:

Qualità delle etichette

Le etichette generate tramite Wikibench riflettevano in gran parte un consenso tra i membri della comunità. I partecipanti ritenevano che le conversazioni sui disaccordi avessero contribuito a costruire una migliore comprensione dei dati e avessero permesso di raggiungere un consenso più chiaro.

Disaccordo e incertezza

Wikibench ha catturato efficacemente i disaccordi e le incertezze espresse dai membri della comunità. I partecipanti hanno apprezzato che le discussioni sui punti di vista conflittuali contribuissero a una comprensione più ricca e portassero a decisioni più informate.

Etichettatura collaborativa

La natura collaborativa del processo di etichettatura ha garantito che la maggior parte dei punti dati fosse etichettata da più membri della comunità. Questo input diversificato ha portato a dataset di qualità superiore portando in gioco una gamma più ampia di prospettive.

Potenziale utilizzo nella valutazione dell'AI

I dataset creati tramite Wikibench possono essere usati per valutare quanto bene gli strumenti di AI si allineano con i valori della comunità. I partecipanti hanno trovato che confrontare le prestazioni di diversi modelli AI rispetto ai dataset curati tramite Wikibench forniva spunti preziosi.

Supportare la curatela dei dati guidata dalla comunità oltre Wikipedia

Le lezioni apprese da Wikibench possono essere applicate per supportare la curatela dei dati guidata dalla comunità in altri contesti. Diverse comunità, come quelle su piattaforme di social media, possono adottare approcci simili per dare potere ai loro membri di creare e gestire i propri dati.

Adattarsi alle norme della comunità

Anche se i principi di progettazione alla base di Wikibench sono preziosi, devono essere adattati per soddisfare le norme uniche di ciascuna comunità. Ad esempio, una piattaforma come Reddit potrebbe avere aspettative diverse riguardo alla curatela dei dati rispetto a Wikipedia.

Bilanciare costi e benefici

Man mano che vengono sviluppati più sistemi come Wikibench, è importante trovare il giusto equilibrio tra coinvolgimento della comunità ed efficienza del processo di curatela.

Supportare le comunità nella curatela dei dati può a volte portare a strain di risorse. La ricerca futura dovrebbe concentrarsi su come ottimizzare tempo e sforzi mentre si assicura che le voci della comunità siano ascoltate.

Conclusione

La curatela guidata dalla comunità dei dataset di valutazione dell'AI è essenziale per garantire che gli strumenti di AI soddisfino le esigenze di diversi gruppi di utenti. Wikibench dimostra il potenziale della curatela collaborativa dei dati in Wikipedia, evidenziando come i membri della comunità possano partecipare efficacemente alla definizione dei dataset che saranno utilizzati per valutare gli strumenti di AI.

Le intuizioni ottenute da Wikibench possono informare la progettazione di sistemi simili in altri contesti. Assicurare che le voci della comunità siano incluse nel processo di curatela dei dati è cruciale per il futuro della valutazione dell'AI.

Esplorando e raffinando strumenti come Wikibench, i ricercatori e gli sviluppatori possono meglio dare potere alle comunità per partecipare attivamente alla valutazione e curatela dei sistemi di AI che influenzano le loro vite.

Fonte originale

Titolo: Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia

Estratto: AI tools are increasingly deployed in community contexts. However, datasets used to evaluate AI are typically created by developers and annotators outside a given community, which can yield misleading conclusions about AI performance. How might we empower communities to drive the intentional design and curation of evaluation datasets for AI that impacts them? We investigate this question on Wikipedia, an online community with multiple AI-based content moderation tools deployed. We introduce Wikibench, a system that enables communities to collaboratively curate AI evaluation datasets, while navigating ambiguities and differences in perspective through discussion. A field study on Wikipedia shows that datasets curated using Wikibench can effectively capture community consensus, disagreement, and uncertainty. Furthermore, study participants used Wikibench to shape the overall data curation process, including refining label definitions, determining data inclusion criteria, and authoring data statements. Based on our findings, we propose future directions for systems that support community-driven data curation.

Autori: Tzu-Sheng Kuo, Aaron Halfaker, Zirui Cheng, Jiwoo Kim, Meng-Hsin Wu, Tongshuang Wu, Kenneth Holstein, Haiyi Zhu

Ultimo aggiornamento: 2024-02-21 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2402.14147

Fonte PDF: https://arxiv.org/pdf/2402.14147

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili