Empowerare i Ricercatori: L'Importanza di Spazi Sicuri nella Valutazione dell'IA
Le aziende di AI devono supportare la ricerca indipendente per sistemi più sicuri.
― 7 leggere min
Indice
Valutare i sistemi di intelligenza artificiale è super importante. Aiuta a trovare rischi e problemi che l'IA potrebbe causare. Però, tante persone che vogliono studiare questi sistemi sono preoccupate. Hanno paura che le aziende le puniscano per fare ricerche valide. Questa paura può fermare i Ricercatori dal controllare i sistemi IA per Sicurezza e fiducia.
Le aziende di IA hanno delle regole pensate per prevenire l'uso scorretto dei loro modelli. Purtroppo, queste regole possono anche rendere difficile il lavoro ai ricercatori onesti. Alcuni ricercatori temono di perdere l'Accesso ai loro account o addirittura di avere problemi legali solo per aver cercato di studiare l'IA. Anche se alcune aziende permettono certi tipi di ricerca, questi programmi di solito non sono aperti a tutti. Spesso lasciano fuori molte voci importanti e non offrono abbastanza supporto.
Per aiutare a risolvere questo problema, pensiamo che le grandi aziende di IA dovrebbero creare un ambiente più sicuro per i ricercatori. Questo significa proteggere i ricercatori che cercano di aiutare il pubblico e permettere loro di fare il loro lavoro senza paura di punizioni. Le aziende dovrebbero fornire sia protezioni legali che tecniche per i ricercatori che lavorano per il bene pubblico.
La Necessità di una Valutazione Indipendente
I sistemi di IA sono diventati molto popolari e vengono usati da milioni di persone ogni giorno. Ma con la loro crescita, ci sono anche preoccupazioni crescenti. Queste preoccupazioni includono problemi come contenuti dannosi, violazioni della privacy e diffusione di informazioni false. Con così tanti utenti, è cruciale che questi sistemi vengano controllati regolarmente da ricercatori indipendenti.
Attualmente, molte aziende di IA consentono solo accesso limitato ai loro sistemi per la ricerca. Studi recenti mostrano che solo un quarto delle politiche per controllare i sistemi IA è chiaro ed efficace. Inoltre, i ricercatori spesso trovano difficile comprendere come le aziende di IA applicano le loro regole. C'è una mancanza di trasparenza che può portare a dubbi e paure nella comunità di ricerca.
Un problema principale è rappresentato dai termini di servizio imposti dalle aziende di IA. Questi termini spesso limitano la capacità dei ricercatori di indagare su aspetti sensibili dei modelli di IA. Anche se queste regole possono proteggere dall'uso malevolo, possono anche ostacolare ricerche significative mirate a rendere l'IA più sicura.
Le Sfide Affrontate dai Ricercatori
Molti ricercatori hanno subito sospensioni degli account quando hanno cercato di condurre i loro studi. Questo può succedere senza preavviso né motivi chiari. Alcuni ricercatori hanno anche affrontato cause legali per aver cercato di verificare la sicurezza dei modelli di IA, portando a un effetto paralizzante sulle future ricerche. Questa situazione crea una barriera significativa per chi vuole esplorare e valutare l'IA in modo responsabile.
La mancanza di linee guida chiare rende rischioso per i ricercatori interagire con i modelli di IA. Molti sono riluttanti a svolgere studi o condividere i risultati per paura di ritorsioni. Anche quando alcune aziende creano programmi per i ricercatori, potrebbero non fornire abbastanza supporto o una rappresentanza adeguata della comunità di ricerca.
Inoltre, le aziende di IA spesso ricevono critiche su come gestiscono l'accesso ai loro sistemi, il che può rispecchiare problemi visti con le piattaforme di social media. La necessità di valutazioni indipendenti per tenere le aziende di IA responsabili sta diventando sempre più critica, specialmente mentre questi sistemi si integrano nella vita quotidiana.
La Proposta di Porti Sicuri
Per affrontare questi problemi, suggeriamo che le aziende di IA implementino due tipi di porti sicuri per i ricercatori indipendenti. Il primo è un porto sicuro legale. Questo proteggerebbe i ricercatori da conseguenze legali fintanto che seguono linee guida stabilite per una ricerca responsabile. Questo significa che possono studiare i sistemi senza paura di essere portati in tribunale.
Il secondo è un porto sicuro tecnico. Questo impedirebbe ai ricercatori di perdere l'accesso ai loro account mentre conducono ricerche mirate alla sicurezza e alla fiducia. Questi cambiamenti creerebbero un ambiente più positivo per le valutazioni dei sistemi di IA.
Il Porto Sicuro Legale
Un porto sicuro legale aiuterebbe a garantire che i ricercatori possano lavorare sui problemi legati all'IA senza paura di essere citati in giudizio. Le leggi attuali possono a volte essere usate contro i ricercatori che stanno semplicemente cercando di investigare sui sistemi di IA. Un quadro giuridico più definito potrebbe proteggerli da cause legali mentre esplorano aree come il bias e la sicurezza. La chiave qui è permettere ai ricercatori di agire in buona fede.
Tuttavia, le aziende non devono avere il potere esclusivo di decidere cosa significhi buona fede. Questo potrebbe portare a trattamenti ingiusti per i ricercatori. Invece, dovrebbe essere adottato un approccio più collaborativo, assicurando che i ricercatori possano operare in modo trasparente rispettando comunque la legge.
Il Porto Sicuro Tecnico
Il lato tecnico di questa proposta renderebbe più facile per i ricercatori accedere ai sistemi di IA senza la costante minaccia di essere penalizzati. Molti ricercatori affrontano problemi quando i loro account vengono sospesi o chiusi a causa delle loro attività di studio sull'IA. È importante che questi ricercatori abbiano una via chiara per continuare il loro lavoro senza interruzioni.
Creare un metodo trasparente e affidabile per i ricercatori per accedere ai modelli di IA aiuterebbe molto. Le aziende di IA potrebbero delegare alcune Responsabilità a organizzazioni indipendenti fidate, come le università, per gestire chi ottiene accesso. Questo potrebbe ridurre il favoritismo e aumentare l'equità nel processo.
L'Importanza di un Accesso Equo
Una delle maggiori sfide nella valutazione dell'IA è raggiungere un accesso equo. Molti sistemi di IA sono ben protetti, il che limita la capacità dei ricercatori indipendenti di esaminarli a fondo. Implementando i porti sicuri proposti, le aziende di IA possono promuovere una maggiore partecipazione della comunità di ricerca.
Insieme a questi cambiamenti, i ricercatori dovrebbero essere autorizzati ad accedere a strumenti e dataset rilevanti per consentire loro di lavorare in modo efficace. Questo significa fornire loro le risorse necessarie per valutare i sistemi di IA in modo approfondito. I benefici di queste proposte si estenderebbero anche alle aziende di IA stesse, poiché la ricerca indipendente può aiutare a identificare problemi nei loro modelli prima che diventino problemi maggiori.
Trasparenza e Responsabilità
Creare una relazione più trasparente tra le aziende di IA e i ricercatori può costruire fiducia. Quando i ricercatori sanno di poter contare su linee guida chiare e protezioni, potrebbero sentirsi più inclini a interagire con i sistemi di IA. Le aziende dovrebbero anche fornire giustificazioni per le decisioni di accesso per aiutare i ricercatori a capire i motivi dietro a eventuali restrizioni.
Inoltre, un processo di appello per i ricercatori ai cui accessi è stato negato creerebbe un sistema equo. Questo processo potrebbe consentire ai ricercatori di contestare le decisioni prese dalle aziende, assicurando che il loro lavoro non venga ostacolato ingiustamente. La responsabilità in questi processi aiuterà a stabilire una relazione più forte tra gli sviluppatori di IA e la comunità di ricerca.
Dare Priorità alla Ricerca Indipendente
I ricercatori indipendenti hanno un ruolo vitale nella valutazione dei sistemi di IA. Forniscono valutazioni imparziali che le aziende potrebbero non essere in grado di ottenere internamente. Con la rapida crescita dei sistemi di IA e dei loro impatti sulla società, è più cruciale che mai dare priorità alla valutazione indipendente dell'IA.
Permettendo ai ricercatori indipendenti di avere voce nel processo di valutazione, possiamo affrontare meglio i rischi e le preoccupazioni associati all'IA generativa. I porti sicuri proposti sono chiave per consentire un ambiente di ricerca più collaborativo ed efficace.
Conclusione
Mentre l'IA continua a evolversi e influenzare la società, la necessità di una valutazione indipendente non può essere sottovalutata. Creando porti sicuri legali e tecnici per i ricercatori, le aziende di IA possono promuovere una cultura di trasparenza, responsabilità e collaborazione. Questo non solo proteggerà i ricercatori, ma garantirà anche che i sistemi di IA siano sicuri, affidabili e vantaggiosi per tutti.
I cambiamenti proposti sono passi necessari verso il miglioramento della relazione tra gli sviluppatori di IA e la comunità di ricerca. Con queste modifiche, possiamo lavorare insieme per mitigare i rischi, promuovere la sicurezza e garantire che l'IA serva il bene pubblico. In generale, l'istituzione di questi porti sicuri aprirebbe la strada a un approccio più responsabile e inclusivo alla valutazione dell'IA.
Titolo: A Safe Harbor for AI Evaluation and Red Teaming
Estratto: Independent evaluation and red teaming are critical for identifying the risks posed by generative AI systems. However, the terms of service and enforcement strategies used by prominent AI companies to deter model misuse have disincentives on good faith safety evaluations. This causes some researchers to fear that conducting such research or releasing their findings will result in account suspensions or legal reprisal. Although some companies offer researcher access programs, they are an inadequate substitute for independent research access, as they have limited community representation, receive inadequate funding, and lack independence from corporate incentives. We propose that major AI developers commit to providing a legal and technical safe harbor, indemnifying public interest safety research and protecting it from the threat of account suspensions or legal reprisal. These proposals emerged from our collective experience conducting safety, privacy, and trustworthiness research on generative AI systems, where norms and incentives could be better aligned with public interests, without exacerbating model misuse. We believe these commitments are a necessary step towards more inclusive and unimpeded community efforts to tackle the risks of generative AI.
Autori: Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi Bommasani, Borhane Blili-Hamelin, Yangsibo Huang, Aviya Skowron, Zheng-Xin Yong, Suhas Kotha, Yi Zeng, Weiyan Shi, Xianjun Yang, Reid Southen, Alexander Robey, Patrick Chao, Diyi Yang, Ruoxi Jia, Daniel Kang, Sandy Pentland, Arvind Narayanan, Percy Liang, Peter Henderson
Ultimo aggiornamento: 2024-03-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.04893
Fonte PDF: https://arxiv.org/pdf/2403.04893
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://console.anthropic.com/legal/aup
- https://csrc.nist.gov/glossary/term/red_team
- https://csrc.nist.gov/glossary/term/penetration_testing
- https://chat.openai.com
- https://ai.google.dev/
- https://support.anthropic.com/en/articles/8114521-how-can-i-access-the-claude-api
- https://openai.com/form/researcher-access-program
- https://www.anthropic.com/earlyaccess
- https://ai.meta.com/resources/models-and-libraries/llama-downloads/
- https://bugcrowd.com/openai
- https://security.googleblog.com/2023/10/googles-reward-criteria-for-reporting.html
- https://www.facebook.com/whitehat/info/
- https://www.anthropic.com/responsible-disclosure-policy
- https://cdn.openai.com/papers/gpt-4-system-card.pdf
- https://github.com/stanford-crfm/fmti/blob/main/scoring/Google%202023%20FMTI%20Scores.pdf
- https://github.com/stanford-crfm/fmti/blob/main/scoring/Inflection%202023%20FMTI%20Scores.pdf
- https://github.com/stanford-crfm/fmti/blob/main/scoring/Meta%202023%20FMTI%20Scores.pdf
- https://docs.midjourney.com/docs/terms-of-service
- https://github.com/stanford-crfm/fmti/blob/main/scoring/OpenAI%202023%20FMTI%20Scores.pdf
- https://ai.google.dev/docs/safety_setting_gemini
- https://github.com/stanford-crfm/fmti/blob/main/scoring/Anthropic%202023%20FMTI%20Scores.pdf
- https://heypisupport.zendesk.com/hc/en-us/articles/17791183959437-Understanding-Account-Suspension-Why-was-my-account-suspended-
- https://web.archive.org/web/20230914081031/
- https://docs.google.com/forms/d/e/1FAIpQLScv5_-e6HjkvnqRBrpx8OG65PSAkX9XLXVMnE5eTpOdZQxF3Q/viewform
- https://openai.com/policies/usage-policies
- https://platform.openai.com/docs/introduction
- https://arxiv.org/abs/2303.08774
- https://web.archive.org/web/20230914001155/
- https://policies.google.com/terms/generative-ai/use-policy
- https://bughunters.google.com/about/rules/6625378258649088/google-and-alphabet-vulnerability-reward-program-vrp-rules
- https://pi.ai/profile/terms
- https://ai.meta.com/llama/use-policy/
- https://llama.meta.com/
- https://docs.cohere.com/docs/usage-guidelines
- https://txt.cohere.com/c4ai-research-grants/
- https://github.com/stanford-crfm/fmti/blob/main/scoring/Cohere%202023%20FMTI%20Scores.pdf
- https://twitter.com/Rahll/status/1739155446726791470
- https://ai.meta.com/llama/license/
- https://www.frontiermodelforum.org/
- https://arxiv.org/abs/2311.03348
- https://arxiv.org/abs/2402.06664
- https://arxiv.org/abs/2310.13548
- https://arxiv.org/abs/2303.17548
- https://arxiv.org/abs/2202.03629
- https://arxiv.org/abs/2305.13534
- https://arxiv.org/abs/2305.13873
- https://arxiv.org/abs/2210.04610