Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Computer e società

I rischi di scalare i dataset per l'IA

Esaminando come la grandezza del dataset influisce sui contenuti dannosi nei modelli di intelligenza artificiale.

― 6 leggere min


Ridimensionare i Dataset:Ridimensionare i Dataset:Una Tendenza Pericolosapregiudizi dannosi nell'IA.Dataset più grandi possono alimentare
Indice

Nel mondo dell'intelligenza artificiale (IA), specialmente nell'IA generativa, c'è una forte attenzione a rendere i modelli più grandi e migliori. Questa tendenza porta spesso all'idea di scalare: rendere i modelli più grandi e i Set di dati più ricchi per migliorare le prestazioni. Tuttavia, mentre abbiamo molte ricerche sulla scalabilità dei modelli, c'è meno attenzione rivolta alla scalabilità dei dati e a come questo possa influenzare i contenuti prodotti, in particolare quelli dannosi o d'odio.

Il Ruolo dei Dataset

I dataset sono collezioni di informazioni che i modelli di IA usano per imparare e generare nuovi contenuti. Una delle fonti principali di dati è internet, con enormi dataset come CommonCrawl che vengono spesso utilizzati per alimentare modelli generativi. Nonostante le loro dimensioni enormi, questi dataset presentano spesso notevoli carenze, inclusa la presenza di contenuti problematici.

Due dataset notevoli in questo contesto sono LAION-400M e LAION-2B-en. Il primo ha circa 400 milioni di campioni, mentre il secondo ne ha circa 2 miliardi. Esaminando questi dataset, possiamo capire come l'aumento della quantità di dati possa portare a più casi di contenuti d'odio.

Scoperte sui Contenuti d'Odio

Le nostre indagini rivelano una tendenza preoccupante: man mano che i dataset diventano più grandi, tendono a contenere più contenuti d'odio. Questo è stato misurato usando un punteggio specifico chiamato Hate Content Rate (HCR). In entrambi i dataset, quando abbiamo misurato il linguaggio d'odio e aggressivo presente nelle descrizioni testuali, abbiamo scoperto che man mano che i dati passavano da LAION-400M a LAION-2B-en, la presenza di contenuti d'odio aumentava notevolmente.

Pregiudizio nei Modelli di IA

Oltre ai dati, abbiamo anche esaminato come questi dataset influenzassero i modelli di IA addestrati su di essi. Ci siamo concentrati sul pregiudizio razziale, usando un dataset chiamato Chicago Face Dataset (CFD) per valutare quanto bene i modelli classificassero i volti umani. I risultati sono stati preoccupanti. I modelli addestrati su dataset più grandi (LAION-2B-en) tendevano a associare i volti neri a stereotipi negativi, come essere etichettati come criminali, rispetto a quelli addestrati sul dataset più piccolo (LAION-400M).

L'Impatto della Scala

Quando diciamo che la scala ha conseguenze, intendiamo che rendere i dataset più grandi non li rende semplicemente migliori. Ad esempio, man mano che le dimensioni dei dataset aumentavano, i modelli diventavano meno accurati nel riconoscere i volti umani come “esseri umani”. Invece, erano più propensi a categorizzare questi volti come appartenenti a classi negative.

Le conseguenze erano particolarmente pronunciate per uomini e donne nere. La probabilità di essere associati a classificazioni criminali raddopiava per i volti femminili neri e anche di più per i volti maschili neri man mano che passavamo dal dataset più piccolo a quello più grande.

Il Problema con gli Approcci Attuali

Attualmente, la convinzione dominante nell'industria tecnologica è che "più dati significano modelli migliori." Questo concetto è pervasivo nel campo dell'IA, con l'idea che aumentare i dataset possa risolvere problemi legati alla Qualità. Tuttavia, i nostri risultati sfidano questa visione, dimostrando che semplicemente aumentare la dimensione del dataset può portare a più pregiudizi e stereotipi dannosi codificati nei modelli.

Qualità e Curazione dei Dataset

La qualità dei dataset è fondamentale. Tuttavia, c'è una tendenza nell'industria a dare priorità alla quantità rispetto alla qualità. Questo porta a dataset pieni di duplicati, campioni di bassa qualità e contenuti dannosi. Il processo di curazione dei dataset dovrebbe coinvolgere considerazioni attente, assicurandosi che contenuti dannosi o d'odio vengano filtrati prima di essere usati per addestrare i modelli.

La Cultura del "Raccogli Prima, Domanda Dopo"

C'è una cultura prevalente nello sviluppo dell'IA che spinge a raccogliere dati in fretta, spesso senza una scrupolosa revisione. Questo approccio, noto come "raccogli prima, fai domande dopo," porta alla creazione di ampi dataset che possono avere gravi implicazioni etiche. Molti di questi dataset possono contenere materiale protetto da copyright, immagini offensive e altri contenuti problematici che possono perpetuare stereotipi negativi.

Raccomandazioni per la Curazione dei Dataset

Date le nostre scoperte, emergono diverse raccomandazioni per creare e usare i dataset responsabilmente nell'IA:

  1. Qualità sopra Quantità: Concentrati sull'assicurarti che i dataset siano puliti e verificati per contenuti dannosi piuttosto che aumentare solo la loro dimensione.
  2. Audit Regolari: Implementa controlli e audit regolari dei dataset per monitorare la presenza di contenuti d'odio e pregiudizi.
  3. Trasparenza nelle Fonti dei Dati: Assicurati che le fonti dei dati siano chiare e accessibili per la revisione, consentendo ai ricercatori indipendenti di valutare i dataset.
  4. Coinvolgimento con le Comunità: Collabora con comunità emarginate durante il processo di creazione del dataset per comprendere l'impatto dei dati su coloro che sono colpiti dai sistemi di IA.

Conclusione

La scalabilità dei dataset nell'IA non è solo un'impresa tecnica; porta con sé significative responsabilità etiche. Man mano che avanziamo in questo campo, è cruciale riconoscere che dataset più grandi possono comportare un maggiore rischio di amplificare pregiudizi dannosi. Ponendo maggiore enfasi sulla curazione e valutazione responsabile dei dati, possiamo lavorare per creare sistemi di IA che siano equi e giusti, beneficiando infine la società nel suo insieme.

Il Contesto Storico della Disumanizzazione

È essenziale riconoscere che i pregiudizi trovati nei modelli di IA attuali non sono nuovi. Derivano da una lunga storia di disumanizzazione razziale che è persistita in varie forme. Questo schema può essere fatto risalire a secoli fa, quando le persone di origine africana venivano spesso rappresentate in modi che riducevano la loro umanità.

Le narrazioni storiche hanno plasmato le percezioni che posizionavano gli individui neri più vicini a entità non umane. Tali visioni hanno giustificato innumerevoli ingiustizie, inclusi schiavitù e colonialismo. Nell'IA, questi stessi stereotipi possono riemergere attraverso i dati che utilizziamo.

La Strada da Percorrere

Andando avanti, dobbiamo esaminare criticamente i dataset che alimentano l'IA. Questo significa non solo migliorare la trasparenza, ma anche lavorare attivamente per smantellare stereotipi dannosi codificati nei modelli. La sfida non sta solo nello sviluppare tecnologie migliori, ma nel promuovere una cultura dell'IA che valorizzi considerazioni etiche e responsabilità sociale tanto quanto i progressi tecnologici.

Adottando una comprensione più sfumata di come la scala dei dati influisce sull'odio e sul pregiudizio, possiamo creare sistemi di IA che promuovano inclusività, rispetto e riflettano genuinamente la diversità dell'esperienza umana. Così facendo, contribuiamo a un futuro in cui l'IA è uno strumento per il bene piuttosto che un mezzo per perpetuare le ingiustizie del passato.

Fonte originale

Titolo: On Hate Scaling Laws For Data-Swamps

Estratto: `Scale the model, scale the data, scale the GPU-farms' is the reigning sentiment in the world of generative AI today. While model scaling has been extensively studied, data scaling and its downstream impacts remain under explored. This is especially of critical importance in the context of visio-linguistic datasets whose main source is the World Wide Web, condensed and packaged as the CommonCrawl dump. This large scale data-dump, which is known to have numerous drawbacks, is repeatedly mined and serves as the data-motherlode for large generative models. In this paper, we: 1) investigate the effect of scaling datasets on hateful content through a comparative audit of the LAION-400M and LAION-2B-en, containing 400 million and 2 billion samples respectively, and 2) evaluate the downstream impact of scale on visio-linguistic models trained on these dataset variants by measuring racial bias of the models trained on them using the Chicago Face Dataset (CFD) as a probe. Our results show that 1) the presence of hateful content in datasets, when measured with a Hate Content Rate (HCR) metric on the inferences of the Pysentimiento hate-detection Natural Language Processing (NLP) model, increased by nearly $12\%$ and 2) societal biases and negative stereotypes were also exacerbated with scale on the models we evaluated. As scale increased, the tendency of the model to associate images of human faces with the `human being' class over 7 other offensive classes reduced by half. Furthermore, for the Black female category, the tendency of the model to associate their faces with the `criminal' class doubled, while quintupling for Black male faces. We present a qualitative and historical analysis of the model audit results, reflect on our findings and its implications for dataset curation practice, and close with a summary of our findings and potential future work to be done in this area.

Autori: Abeba Birhane, Vinay Prabhu, Sang Han, Vishnu Naresh Boddeti

Ultimo aggiornamento: 2023-06-28 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.13141

Fonte PDF: https://arxiv.org/pdf/2306.13141

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili