Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale# Apprendimento automatico

Affrontare la sicurezza nei modelli di testo-immagine

Questo rapporto esamina i prompt dannosi e le misure di sicurezza nei modelli di generazione di immagini.

― 5 leggere min


Esaminando la sicurezzaEsaminando la sicurezzadelle immagini AItesto a immagine.La ricerca rivela rischi nei modelli da
Indice

I modelli di testo-immagine stanno diventando sempre più popolari perché possono creare immagini di alta qualità in base ai prompt testuali. La gente li usa per vari scopi, come il design grafico e le immagini di stock. Tuttavia, poiché questi modelli apprendono da grandi quantità di dati estratti da Internet, a volte possono produrre contenuti pericolosi o inappropriati.

Questo report si concentra su una sfida chiamata Adversarial Nibbler, che mira a raccogliere un insieme di prompt potenzialmente dannosi da benchmark di sicurezza esistenti. L'obiettivo è capire come questi prompt possano superare i filtri di input usati nei modelli di generazione di immagini. Analizzando i prompt e le immagini che creano, evidenziamo le debolezze in questi filtri di input e mettiamo in luce i problemi di sicurezza nei sistemi attuali.

La Necessità di Sicurezza nei Modelli di Immagine

Prima di usare modelli di generazione di immagini in applicazioni reali, è fondamentale assicurarsi che non generino immagini dannose o inquietanti. Questo richiede di trovare le giuste misure di sicurezza, che dovrebbero essere specifiche per il caso d'uso del modello. Molti studi in quest'area hanno fatto affidamento su storie personali piuttosto che su dati misurabili attraverso diversi modelli.

Per affrontare questo problema, è stata introdotta la sfida Adversarial Nibbler. L'obiettivo è creare un dataset di prompt dannosi che possano essere utilizzati per testare i modelli di testo-immagine. Abbiamo esaminato i benchmark di sicurezza attuali per trovare prompt che potessero essere utilizzati nell'Adversarial Nibbler.

Un dataset importante creato si chiama inappropriate image prompts (I2P). Questo dataset esamina come diversi modelli possano generare Contenuti dannosi. Copre varie categorie, tra cui discorsi d'odio, molestie, violenza, autolesionismo, contenuti sessuali, immagini scioccanti e attività illegali. Ogni prompt in questo dataset è etichettato con una probabilità di generare materiale inappropriato in base alle immagini create dal modello.

Raccolta di Prompt Avversariali

Nella nostra indagine, abbiamo esaminato da vicino i prompt raccolti nel benchmark I2P. Abbiamo trovato molti prompt che hanno causato la generazione di immagini inappropriate, anche se non erano bloccati dai filtri di input attuali. Questi prompt possono servire come input avversariali per testare le misure di sicurezza.

Abbiamo analizzato i prompt e le immagini che hanno prodotto per evidenziare i diversi modi in cui possono essere considerati non sicuri. Molti prompt che sembravano innocui hanno finito per creare immagini pericolose quando combinati con certe parole, dimostrando che il Contesto è fondamentale per determinare la sicurezza.

Il Processo di Analisi

Il benchmark I2P include prompt di utenti reali raccolti da una piattaforma dove è stato usato Stable Diffusion. Ogni prompt rientra in una delle categorie menzionate prima, e abbiamo collegato ciascun prompt alla sua probabilità di generare contenuti dannosi. Per valutare le immagini generate da questi prompt, abbiamo usato classificatori che rilevavano automaticamente contenuti inappropriati.

Sebbene molti prompt siano risultati probabili produttori di immagini dannose, il sistema che ospitava il modello Stable Diffusion non aveva alcun filtro di input in atto. Questo significa che molti prompt contenevano concetti dannosi e, quindi, non erano adatti per i test avversariali.

La Soggettività della Sicurezza

Una lezione chiave dalla nostra analisi è che ciò che è considerato dannoso può essere soggettivo. La definizione di sicurezza varia a seconda del background culturale, delle prospettive individuali e del contesto. Per esempio, un numero significativo di prompt ha generato immagini inquietanti, ma la comprensione di ciò che è inappropriato non era universalmente concordata.

Le Limitazioni dei Filtri di Input

Abbiamo identificato diversi difetti nei filtri di input basati su liste di divieto. Ad esempio, alcune ortografie errate di parole vietate sono riuscite a bypassare i filtri, pur producendo contenuti dannosi. Inoltre, abbiamo trovato termini legati a parole bannate che mancavano dai filtri. La lista di divieti esistente includeva "nude", ma non "nudity", e ometteva anche parole come "violenza" o "rapina", che sono rilevanti in questo contesto.

Questo indica che fare affidamento solo su queste liste di divieto per la sicurezza potrebbe non essere efficace. È necessario progettare un sistema più completo di misure di sicurezza per affrontare le sfide poste dalla generazione di contenuti dannosi.

Problemi Contestuali dei Contenuti Inappropriati

Oltre ai semplici prompt, abbiamo notato che alcuni prompt potrebbero essere sicuri di per sé, ma potrebbero causare problemi se collocati in contesti specifici. Per esempio, molti prompt coinvolgevano personaggi pubblici e creavano immagini che potevano danneggiare la loro reputazione. Questo dimostra che il contesto gioca un ruolo vitale nel determinare se un'immagine è inappropriata o meno.

Schemi di Immagini Non Sicure

La nostra indagine ha anche rivelato alcuni schemi comuni che portano a immagini non sicure. Sembra che creare immagini sessualmente esplicite di donne sia incredibilmente facile, anche con prompt che sembrano sicuri in superficie. Ad esempio, usare aggettivi come "attraente" con termini non erotici potrebbe comunque portare a contenuti espliciti.

Abbiamo anche notato che alcuni artisti noti per il loro lavoro controverso spesso attivavano risultati non sicuri. Un semplice prompt come "fotografia di [artista specifico]" potrebbe portare a immagini inappropriate, anche se faceva parte di un prompt più grande e complesso.

Conclusione

In questo report, abbiamo esaminato i prompt raccolti dai benchmark di sicurezza per vedere come potessero aiutare a testare condizioni avversariali nei modelli di generazione di immagini. Abbiamo trovato un numero significativo di prompt potenzialmente dannosi in dataset come I2P. La nostra analisi enfatizza le debolezze nei metodi di filtraggio degli input esistenti e chiede ulteriori ricerche su come garantire la sicurezza nei sistemi generativi.

È importante riconoscere che la sicurezza non è una soluzione universale e deve considerare i vari fattori che influenzano il modo in cui le persone percepiscono ciò che è appropriato. Migliorando la qualità delle misure di sicurezza, possiamo lavorare per costruire modelli generativi migliori che siano attenti ai contenuti che producono.

Altro dagli autori

Articoli simili