Le besoin d'une sécurité affirmative dans le développement de l'IA
Les développeurs doivent prouver que les systèmes d'IA sont sûrs pour gérer les risques efficacement.
― 7 min lire
Table des matières
Alors que l'intelligence artificielle (IA) continue à se développer rapidement, elle apporte avec elle des opportunités et des risques. Beaucoup d'experts s'inquiètent du fait que des systèmes d'IA avancés pourraient représenter de graves menaces pour la sécurité mondiale. Cette inquiétude a conduit à l'idée que les développeurs d'IA à haut risque doivent prouver que leurs systèmes sont sûrs avant de pouvoir être utilisés. Pour y remédier, nous proposons un concept appelé "sécurité affirmative", qui exige que les développeurs montrent qu'ils gèrent les risques de manière efficace.
Comprendre les risques liés à l'IA
Les systèmes d'IA peuvent créer des risques pouvant conduire à des conséquences désastreuses pour la société. Les experts ont averti que ces risques sont similaires à ceux associés aux pandémies et aux menaces nucléaires. Il y a des voix dans l'industrie plaidant pour une action urgente afin de réduire les dangers potentiels que l'IA pourrait causer. Les dirigeants mondiaux reconnaissent également ces risques et leur responsabilité de réguler correctement le développement de l'IA.
Gestion des risques dans des domaines à haut risque
Pour comprendre comment gérer les risques liés à l'IA, nous pouvons examiner d'autres industries qui traitent des risques élevés, comme l'énergie nucléaire et l'aviation. Dans ces domaines, il est essentiel que les développeurs démontrent que leurs systèmes sont sûrs. Par exemple, les centrales nucléaires doivent prouver qu'elles maintiennent les risques d'accidents en dessous de limites acceptables. Cette approche garantit que les dangers potentiels sont identifiés et minimisés.
Dans le domaine de l'IA avancée, des principes similaires pourraient être appliqués. Les développeurs devraient fournir des preuves qu'ils maintiennent les risques dans des plages sûres. En faisant cela, les régulateurs peuvent surveiller et s'assurer que des mesures de sécurité sont en place.
Le concept de sécurité affirmative
La sécurité affirmative signifie que les développeurs doivent présenter des preuves claires montrant que leurs systèmes d'IA sont sûrs. Ils ne peuvent pas juste supposer l'absence de risques ; ils doivent démontrer activement la gestion des risques. Cela pourrait impliquer de fournir des données techniques sur le fonctionnement de leurs systèmes, ainsi que de décrire les pratiques et la culture au sein de leurs organisations qui contribuent à la sécurité.
Catégories de risques
Pour gérer les risques de manière efficace, nous pouvons créer des catégories de risques associés aux systèmes d'IA. Ces catégories aident les régulateurs à évaluer quels risques sont les plus urgents et comment fixer des limites acceptables. Par exemple :
Armes biologiques : L'IA pourrait permettre la création d'armes biologiques, entraînant des risques mondiaux graves. Les développeurs doivent s'assurer que les chances que cela se produise sont minimales.
Concentration du pouvoir : Les systèmes d'IA pourraient mener à une concentration sans précédent du pouvoir entre les mains de quelques individus ou organisations. Les développeurs doivent gérer ce risque pour éviter un déséquilibre sociétal.
Cyberattaques : L'IA peut également être utilisée pour lancer des cyberattaques, créant des préoccupations pour la sécurité nationale. Il est crucial de s'assurer que les systèmes d'IA ne contribuent pas à rendre de telles attaques possibles.
Chocs économiques : L'automatisation rendue possible par l'IA peut conduire à des bouleversements économiques. Les développeurs devraient se préparer à d'éventuelles perturbations et s'assurer que les systèmes d'IA ne sont pas une cause d'instabilité.
Biais et discrimination : L'IA pourrait entraîner une augmentation des biais dans des domaines vitaux comme le recrutement ou la police. Les développeurs doivent prendre des mesures pour éliminer ces biais.
Désinformation : L'IA est capable de diffuser de la désinformation, ce qui peut menacer la sécurité nationale et les institutions démocratiques. Les développeurs devraient travailler à prévenir l'utilisation abusive de leurs systèmes.
Perte de contrôle : Il y a un risque que les systèmes d'IA échappent au contrôle humain, entraînant des conséquences catastrophiques. Les développeurs doivent s'assurer que des mesures de sécurité sont en place pour garder les systèmes d'IA sous contrôle.
Chaque catégorie de risque a ses seuils acceptables. Par exemple, si le risque de créer des armes biologiques activées par l'IA est jugé "hautement improbable", les régulateurs pourraient fixer un seuil acceptable de 1 sur 100 000.
Évidence technique pour la sécurité affirmative
Pour soutenir le concept de sécurité affirmative, les développeurs peuvent présenter divers types de preuves :
Preuve comportementale
Cela fait référence à des données sur le comportement des systèmes d'IA en pratique. Les développeurs peuvent fournir des informations montrant que leurs systèmes se comportent de manière sûre et comme prévu dans différentes situations. Par exemple, ils pourraient effectuer des tests pour s'assurer que leurs modèles d'IA ne produisent pas de résultats dangereux.
Preuve cognitive
Comprendre le fonctionnement interne des systèmes d'IA est essentiel. Les développeurs devraient montrer qu'ils peuvent interpréter et expliquer comment leurs systèmes prennent des décisions spécifiques. Cela pourrait impliquer des techniques révélant le raisonnement du modèle et son fonctionnement interne.
Preuve développementale
Ce type de preuve se rapporte aux processus de conception et de formation des systèmes d'IA. Les développeurs devraient présenter des preuves que leurs choix de conception et leurs méthodes de formation mènent à un comportement sûr.
Pratiques organisationnelles qui soutiennent la sécurité
Au-delà des approches techniques, la culture et les pratiques au sein des organisations développant l'IA sont cruciales. Voici quelques domaines clés à privilégier :
Pratiques de sécurité de l'information
Une forte sécurité de l'information est essentielle. Si des hackers peuvent acquérir des systèmes d'IA sensibles, les conséquences pourraient être dévastatrices. Les organisations doivent mettre en place des mesures de sécurité efficaces pour protéger leurs systèmes contre les acteurs malveillants.
Culture de sécurité
Une culture de sécurité positive au sein d'une organisation encourage les employés à donner la priorité à la sécurité. Cette culture peut être évaluée à travers des évaluations prenant en compte l'engagement de la direction, les ressources allouées à la sécurité et la compréhension des risques par le personnel.
Capacité de réponse d'urgence
Les risques liés à l'IA peuvent surgir soudainement, donc les organisations doivent avoir des plans de réponse d'urgence robustes. Ces plans devraient inclure des procédures pour notifier les autorités compétentes sur les menaces imminentes. Les entreprises devraient également préparer des stratégies pour gérer les risques imprévus afin de minimiser les éventuels dommages.
Comparaison des approches de gestion des risques
Un cadre existant pour gérer les risques de l'IA provient de l'Institut national des normes et de la technologie (NIST). Bien qu'il offre des lignes directrices utiles, ses recommandations sont volontaires. Cela signifie que les entreprises peuvent choisir de les suivre ou non, ce qui peut ne pas être suffisant pour les systèmes d'IA à haut risque.
En revanche, l'approche de sécurité affirmative que nous proposons obligerait les développeurs à démontrer activement comment ils gèrent les risques. Cela signifie qu'ils devraient fournir des preuves et respecter des critères de sécurité spécifiques avant de pouvoir déployer leurs systèmes.
Conclusion
Le développement de l'IA avancée présente des risques importants qui doivent être gérés avec soin. L'idée de sécurité affirmative demande aux développeurs de montrer qu'ils prennent les risques au sérieux en fournissant des preuves des mesures de sécurité. En catégorisant les risques et en soulignant l'importance des preuves techniques et des pratiques organisationnelles, nous pouvons créer un cadre qui régule de manière responsable le développement des systèmes d'IA. Cette approche pourrait aider à garantir qu'au fur et à mesure que la technologie IA continue d'évoluer, elle le fait de manière à privilégier la sécurité et à minimiser les dommages potentiels pour la société.
Titre: Affirmative safety: An approach to risk management for high-risk AI
Résumé: Prominent AI experts have suggested that companies developing high-risk AI systems should be required to show that such systems are safe before they can be developed or deployed. The goal of this paper is to expand on this idea and explore its implications for risk management. We argue that entities developing or deploying high-risk AI systems should be required to present evidence of affirmative safety: a proactive case that their activities keep risks below acceptable thresholds. We begin the paper by highlighting global security risks from AI that have been acknowledged by AI experts and world governments. Next, we briefly describe principles of risk management from other high-risk fields (e.g., nuclear safety). Then, we propose a risk management approach for advanced AI in which model developers must provide evidence that their activities keep certain risks below regulator-set thresholds. As a first step toward understanding what affirmative safety cases should include, we illustrate how certain kinds of technical evidence and operational evidence can support an affirmative safety case. In the technical section, we discuss behavioral evidence (evidence about model outputs), cognitive evidence (evidence about model internals), and developmental evidence (evidence about the training process). In the operational section, we offer examples of organizational practices that could contribute to affirmative safety cases: information security practices, safety culture, and emergency response capacity. Finally, we briefly compare our approach to the NIST AI Risk Management Framework. Overall, we hope our work contributes to ongoing discussions about national and global security risks posed by AI and regulatory approaches to address these risks.
Auteurs: Akash R. Wasil, Joshua Clymer, David Krueger, Emily Dardaman, Simeon Campos, Evan R. Murphy
Dernière mise à jour: 2024-04-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.15371
Source PDF: https://arxiv.org/pdf/2406.15371
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.bundesnetzagentur.de/DE/Service-Funktionen/ElektronischeVertrauensdienste/HinweiseEmpfehlungen/Empfehlungen/Empfehlungen_node.html
- https://tex.stackexchange.com/questions/3033/forcing-linebreaks-in-url/10419?noredirect=1#comment1021887_10419
- https://www.gov.uk/government/publications/ai-safety-institute-overview/introducing-the-ai-safety-institute
- https://twitter.com/alexalbert__/status/1764722513014329620
- https://www-cdn.anthropic.com/files/4zrzovbb/website/1adf000c8f675958c2ee23805d91aaade1cd4613.pdf
- https://cltc.berkeley.edu/wp-content/uploads/2023/11/Berkeley-GPAIS-Foundation-Model-Risk-Management-Standards-Profile-v1.0.pdf
- https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
- https://transformer-circuits.pub/2023/monosemantic-features
- https://www.safe.ai/statement-on-ai-risk
- https://www.chinalawtranslate.com/en/generative-ai-interim/
- https://doi.org/10.48550/arXiv.1706.03741
- https://docs.google.com/document/d/1WwsnJQstPq91_Yh-Ch2XRL8H_EpsnjrC1dwZXR37PC8/
- https://doi.org/10.48550/arXiv.2211.06738
- https://doi.org/10.48550/arXiv.2311.07723
- https://arxiv.org/abs/2403.10462
- https://doi.org/10.48550/arXiv.2306.06924
- https://www.cpsc.gov/Newsroom/News-Releases/2012/CPSC-Sets-Crib-Safety-Standards
- https://www.aria.org.uk/wp-content/uploads/2023/10/ARIA-Mathematics-and-modelling-are-the-keys-we-need-to-safely-unlock-transformative-AI-v01.pdf
- https://www.aria.org.uk/wp-content/uploads/2024/01/ARIA-Safeguarded-AI-Programme-Thesis-V1.pdf
- https://www.nasa.gov/history/rogersrep/v2appf.htm
- https://doi.org/10.48550/arXiv.2210.10760
- https://dx.doi.org/10.2139/ssrn.4238951
- https://arxiv.org/abs/2306.12001
- https://www-pub.iaea.org/MTCD/Publications/PDF/Pub1682_web.pdf
- https://webstore.iec.ch/publication/5515
- https://www.iso.org/standard/65694.html
- https://arxiv.org/pdf/2211.03157.pdf
- https://www.alignmentforum.org/posts/ZwshvqiqCvXPsZEct/the-learning-theoretic-agenda-status-2023
- https://doi.org/10.48550/arXiv.2009.04131
- https://youtu.be/ebjkD1Om4uw?si=vqqJNIw0ue81ruaa&t=1340
- https://doi.org/10.48550/arXiv.2310.20563
- https://www.technologyreview.com/2023/05/03/1072589/video-geoffrey-h
- https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf
- https://www.nist.gov/artificial-intelligence/artificial-intelligence-safety-institute
- https://www.nrc.gov/docs/ML0717/ML071770230.pdf
- https://cdn.openai.com/papers/gpt-4-system-card.pdf
- https://openai.com/research/weak-to-strong-generalization
- https://cdn.openai.com/openai-preparedness-framework-beta.pdf
- https://www.judiciary.senate.gov/imo/media/doc/2023-07-26_-_testimony_-_amodei.pdf
- https://doi.org/10.48550/arXiv.2308.14752
- https://www.gov.uk/government/publications/ai-safety-summit-2023-the-bletchley-declaration/the-bletchley-declaration-by-countries-attending-the-ai-safety-summit-1-2-november-2023
- https://doi.org/10.48550/arXiv.2309.01933
- https://www.youtube.com/watch?v=gAaCqj6j5sQ&t=5885
- https://doi.org/10.48550/arXiv.2211.00593
- https://medium.com/fidutam/addressing-global-security-risks-from-advanced-ai-e81cc54d0c90
- https://www.world-nuclear.org/information-library/safety-and-security/safety-of-plants/safety-of-nuclear-power-reactors.aspx
- https://doi.org/10.48550/arXiv.2310.01405
- https://ctan.org/pkg/codehigh
- https://github.com/lvjr/tabularray
- https://bitbucket.org/lvjr/tabularray
- https://github.com/lvjr/tabularray/discussions
- https://topanswers.xyz/tex
- https://github.com/lvjr/tabularray/issues
- https://www.learnlatex.org/en/lesson-08
- https://www.overleaf.com/learn/latex/Tables
- https://ctan.org/pkg/ninecolors
- https://tex.stackexchange.com/questions/603023/tabularray-and-tabularx-column-separator
- https://ctan.org/pkg/functional
- https://www.ctan.org/pkg/ragged2e
- https://www.ctan.org/pkg/codehigh
- https://www.ctan.org/pkg/fvextra
- https://github.com/lvjr/tabularray/milestones
- https://github.com/lvjr/tabularray/raw/main/tabularray.sty
- https://github.com/lvjr/tabularray/wiki/ChangeLog