Le Rôle des Données du Gouvernement Britannique dans la Formation de l'IA
Explorer comment les données du gouvernement britannique améliorent l'entraînement de l'IA et ses implications.
― 8 min lire
Table des matières
- Les sites gouvernementaux comme sources de données pour l'IA
- La première méthode : l'importance des sites gouvernementaux
- Évaluer l'impact de la suppression des données gouvernementales
- La deuxième méthode : l'IA peut-elle se souvenir des données gouvernementales ?
- L'importance des sites gouvernementaux
- Le défi des données publiques
- Recommandations pour améliorer la situation
- L'avenir des données gouvernementales et de l'IA
- Conclusion
- Source originale
- Liens de référence
Le gouvernement du Royaume-Uni collecte une énorme quantité de données sur ses citoyens et ses services. Ces données pourraient vraiment aider l'Intelligence Artificielle (IA), surtout pour entraîner des modèles qui comprennent et répondent aux questions humaines. Récemment, il y a eu un mouvement pour mieux partager ces données afin d'améliorer les systèmes d'IA. Mais le problème, c'est que les données spécifiques utilisées pour entraîner les modèles d'IA sont souvent gardées secrètes, ce qui rend difficile de savoir à quel point les données gouvernementales sont vraiment utiles.
Pour résoudre ce problème, des chercheurs ont trouvé des moyens d'évaluer combien de données du gouvernement britannique aident à entraîner l'IA. Ici, on va regarder deux méthodes pour répondre à cette question : une qui examine l'impact de l'absence de données gouvernementales dans les modèles d'entraînement, et une autre qui vérifie si les modèles d'IA peuvent se souvenir d'informations provenant des sources de données gouvernementales.
Les sites gouvernementaux comme sources de données pour l'IA
D’abord, considérons quel type de données le gouvernement britannique possède. Les sites gouvernementaux fournissent des informations détaillées sur les politiques, les programmes d'aide, et les Services publics, tout écrit en anglais simple. Ce genre d'infos est parfait pour entraîner des modèles d'IA parce que c'est clair et autoritaire.
Pense-y. Si tu as une question sur comment obtenir des aides ou quels services sont disponibles, les sites du gouvernement sont une source fiable. Les modèles d'IA formés sur ces données pourraient donner des réponses précises et utiles aux citoyens. Donc, l'importance de ces sites comme sources de données ne peut pas être sous-estimée.
La première méthode : l'importance des sites gouvernementaux
La première méthode utilisée par les chercheurs implique ce qu'ils appellent une "étude d'ablation". En gros, ça veut dire voir ce qui se passe quand on fait oublier certaines infos aux modèles d'IA. Les chercheurs voulaient savoir : "À quel point les performances des modèles d'IA se détériorent-elles lorsqu'ils n'ont pas accès aux sites du gouvernement britannique ?"
Pour le découvrir, ils ont pris plusieurs modèles d'IA, enlevé les données des sites gouvernementaux de leur entraînement, et ensuite testé à quel point ils pouvaient bien répondre à des questions liées aux services gouvernementaux. Les résultats étaient parlants. Sans les infos de ces sites, les modèles avaient beaucoup de mal à donner des réponses précises.
Évaluer l'impact de la suppression des données gouvernementales
En évaluant les modèles d'IA, les chercheurs se sont concentrés sur deux aspects principaux. Le premier était les "erreurs structurelles", qui examinaient à quel point les modèles pouvaient communiquer après l'ablation. Le deuxième était les "erreurs de connaissance", qui suivaient à quelle fréquence les modèles se trompaient.
Étonnamment, les chercheurs ont découvert que les modèles arrivaient encore à communiquer assez bien après le retrait des données gouvernementales. Cependant, leur capacité à fournir des informations précises a chuté de manière significative. Cela montre que les sites du gouvernement britannique sont cruciaux pour les modèles d'IA, surtout quand il s'agit de sujets spécifiques liés aux aides et aux services publics.
La deuxième méthode : l'IA peut-elle se souvenir des données gouvernementales ?
La deuxième méthode appliquée par les chercheurs se concentrait sur la "fuite d'informations". Cette approche vise à savoir si les modèles d'IA peuvent se rappeler des faits spécifiques provenant des ensembles de données fournis par le gouvernement. La principale source de données en question était data.gov.uk, qui est la plateforme du gouvernement britannique pour les données ouvertes.
Les chercheurs ont conçu des invites qui demanderaient aux modèles d'IA des informations sur divers ensembles de données disponibles sur data.gov.uk. Si l'IA pouvait répondre correctement, cela suggérerait que ces données avaient été utilisées pour entraîner le modèle d'IA.
Cependant, lors des tests, les résultats étaient décevants. Presque toutes les tentatives pour récupérer des informations de data.gov.uk ont échoué. Cela indiquait que les ensembles de données de cette plateforme n'étaient pas significativement utilisés pour entraîner les modèles d'IA. En d'autres termes, data.gov.uk ne sert pas vraiment de bon fournisseur de données pour l'IA.
L'importance des sites gouvernementaux
Il est évident que les sites gouvernementaux fournissent une ressource unique et précieuse pour les modèles d'IA, surtout pour donner des informations précises aux citoyens. Les modèles ont beaucoup mieux performé lorsqu'ils avaient accès à ces infos.
Des exemples de questions que ces modèles pouvaient répondre correctement incluaient des sujets comme l'éligibilité aux aides gouvernementales, les interactions entre différents programmes d'aide, et même les services publics locaux. Sans ces données, les modèles d'IA montraient une nette baisse de leur capacité à fournir des réponses utiles.
Certaines questions avec lesquelles les modèles ont eu du mal concernaient des sujets compliqués qui ne sont pas souvent discutés ailleurs, comme des règles spécifiques sur les aides ou les subtilités des services publics. Cela montre à quel point les sites gouvernementaux du Royaume-Uni sont importants pour combler les lacunes où d'autres sources d'information peuvent être insuffisantes.
Le défi des données publiques
Le défi maintenant est de faire entrer plus de données des sources gouvernementales dans l'entraînement de l'IA. Bien qu'il y ait beaucoup d'ensembles de données ouverts, il semble qu'ils ne soient pas efficacement intégrés dans l'entraînement des modèles d'IA. L'industrie de l'IA, bien que florissante, peut tirer profit d'une meilleure coopération avec les agences gouvernementales pour faciliter le partage des données.
Pour le gouvernement du Royaume-Uni, il y a une opportunité ici de devenir un acteur clé dans le paysage du développement de l'IA. En s'assurant que des données de haute qualité soient mises à disposition des développeurs d'IA, le gouvernement pourrait améliorer l'efficacité de ces systèmes, qui au final, servent le public.
Recommandations pour améliorer la situation
Après avoir tiré des enseignements clés des résultats, il devient clair que le gouvernement britannique doit apporter des changements à ses pratiques de Partage de données. Voici quelques recommandations :
-
Augmenter le partage de données : Le gouvernement britannique devrait adopter une approche proactive pour partager davantage de ses données dans des formats accessibles que les développeurs d'IA peuvent facilement utiliser.
-
Directives claires : Le gouvernement pourrait établir des directives claires sur la manière dont les développeurs d'IA peuvent accéder à ces données et quelles étapes devraient être suivies pour garantir la conformité.
-
Engagement avec la communauté IA : En s'engageant avec la communauté de recherche en IA, le gouvernement peut mieux comprendre quelles données sont nécessaires pour entraîner efficacement les modèles.
-
Focus sur les sujets peu courants : Une attention spéciale devrait être accordée aux sujets moins souvent abordés qui peuvent ne pas être suffisamment couverts par d'autres sources. Cela peut améliorer considérablement la capacité de l'IA à fournir des informations précises.
-
Collaboration avec d'autres organisations : Collaborer avec d'autres organisations riches en données peut donner un ensemble d'informations plus complet, ce qui peut être bénéfique pour entraîner les systèmes d'IA.
L'avenir des données gouvernementales et de l'IA
Alors que l'IA continue d'évoluer, il sera crucial que les gouvernements adaptent leurs stratégies autour du partage de données. Le gouvernement du Royaume-Uni a une position unique pour montrer l'exemple, en favorisant une culture de transparence et d'ouverture dans le partage des données qui peut permettre aux technologies d'IA de mieux servir le public.
La relation entre l'IA et les données gouvernementales n'est pas seulement bénéfique pour les technologies mais aussi pour les citoyens qui comptent sur ces systèmes pour obtenir des informations. Le potentiel de ces modèles d'IA est vaste, mais cela nécessite une base solide de données pour atteindre leur pleine capacité.
Conclusion
En résumé, le rôle du gouvernement britannique en tant que fournisseur de données pour l'IA a montré à la fois des promesses et des domaines à améliorer. La recherche menée met en avant l'importance des sites gouvernementaux dans l'entraînement des modèles d'IA, tout en exposant les limites de plateformes comme data.gov.uk.
Pour l'avenir, il sera essentiel que le gouvernement britannique adopte une approche plus ouverte et collaborative du partage de données. Cela améliorera non seulement les capacités de l'IA mais garantira aussi que les citoyens reçoivent les informations vitales dont ils ont besoin de manière rapide et précise. Avec les bonnes actions, le gouvernement britannique peut vraiment devenir un leader dans l'utilisation des données pour le bénéfice de l'IA, ce qui, à son tour, façonne un meilleur avenir pour tous.
Alors, la prochaine fois que tu entends parler de l'IA, souviens-toi juste : derrière chaque assistant intelligent, il y a un trésor de données gouvernementales qui n'attend qu'à être exploité !
Titre: Methods to Assess the UK Government's Current Role as a Data Provider for AI
Résumé: Governments typically collect and steward a vast amount of high-quality data on their citizens and institutions, and the UK government is exploring how it can better publish and provision this data to the benefit of the AI landscape. However, the compositions of generative AI training corpora remain closely guarded secrets, making the planning of data sharing initiatives difficult. To address this, we devise two methods to assess UK government data usage for the training of Large Language Models (LLMs) and 'peek behind the curtain' in order to observe the UK government's current contributions as a data provider for AI. The first method, an ablation study that utilises LLM 'unlearning', seeks to examine the importance of the information held on UK government websites for LLMs and their performance in citizen query tasks. The second method, an information leakage study, seeks to ascertain whether LLMs are aware of the information held in the datasets published on the UK government's open data initiative data$.$gov$.$uk. Our findings indicate that UK government websites are important data sources for AI (heterogenously across subject matters) while data$.$gov$.$uk is not. This paper serves as a technical report, explaining in-depth the designs, mechanics, and limitations of the above experiments. It is accompanied by a complementary non-technical report on the ODI website in which we summarise the experiments and key findings, interpret them, and build a set of actionable recommendations for the UK government to take forward as it seeks to design AI policy. While we focus on UK open government data, we believe that the methods introduced in this paper present a reproducible approach to tackle the opaqueness of AI training corpora and provide organisations a framework to evaluate and maximize their contributions to AI development.
Auteurs: Neil Majithia, Elena Simperl
Dernière mise à jour: 2024-12-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.09632
Source PDF: https://arxiv.org/pdf/2412.09632
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://orcid.org/0009-0008-3969-2514
- https://orcid.org/0000-0003-1722-947X
- https://theodi.org/insights/reports/the-uk-government-as-a-data-provider-for-ai
- https://www.ons.gov.uk/
- https://www.nationalarchives.gov.uk/
- https://www.gov.uk/universal-credit/eligibility
- https://www.citizensadvice.org.uk/
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs