O Papel dos Dados do Governo do Reino Unido no Treinamento de IA
Explorando como os dados do governo do Reino Unido melhoram o treinamento de IA e suas implicações.
― 8 min ler
Índice
- Sites do Governo como Fontes de Dados para IA
- O Primeiro Método: A Importância dos Sites do Governo
- Avaliando o Impacto da Remoção dos Dados do Governo
- O Segundo Método: A IA Consegue Lembrar os Dados do Governo?
- A Importância dos Sites do Governo
- O Desafio com Dados Públicos
- Recomendações para Melhoria
- O Futuro dos Dados do Governo e da IA
- Conclusão
- Fonte original
- Ligações de referência
O governo do Reino Unido coleta uma quantidade enorme de dados sobre seus cidadãos e serviços. Esses dados poderiam ser super úteis para a Inteligência Artificial (IA), especialmente para treinar modelos que entendem e respondem a perguntas humanas. Recentemente, houve um esforço para compartilhar melhor esses dados para ajudar a melhorar os sistemas de IA. No entanto, os dados específicos usados para treinar os modelos de IA costumam ser mantidos em segredo, o que dificulta entender quão úteis os dados do governo realmente são.
Para enfrentar esse problema, os pesquisadores criaram maneiras de avaliar o quanto os dados do governo do Reino Unido ajudam a treinar IA. Aqui, vamos olhar para dois métodos que têm como objetivo responder essa pergunta: um que examina o impacto da remoção dos dados do governo dos modelos de treinamento e outro que verifica se os modelos de IA conseguem lembrar informações de fontes de dados do governo.
Sites do Governo como Fontes de Dados para IA
Primeiro, vamos considerar que tipo de dados o governo do Reino Unido tem. Os sites do governo nos dão informações detalhadas sobre políticas, programas de assistência social e Serviços Públicos, tudo escrito em inglês simples. Esse tipo de informação é perfeito para treinar modelos de IA porque é claro e autoritário.
Pense nisso. Se você tem uma pergunta sobre como conseguir benefícios ou quais serviços estão disponíveis, os sites do governo são uma fonte confiável. Modelos de IA treinados com esses dados poderiam fornecer respostas precisas e úteis para os cidadãos. Assim, a importância desses sites como fontes de dados não pode ser subestimada.
O Primeiro Método: A Importância dos Sites do Governo
O primeiro método que os pesquisadores usaram envolve o que eles chamam de "estudo de ablação". Em termos simples, isso significa ver o que acontece quando os modelos de IA são feitos para esquecer certas informações. Os pesquisadores queriam saber: "O quanto os modelos de IA se saem pior quando não têm acesso aos sites do governo do Reino Unido?"
Para descobrir, eles pegaram alguns modelos de IA, removeram os dados dos sites do governo do treinamento e depois testaram quão bem eles poderiam responder perguntas relacionadas a serviços do governo. Os resultados foram reveladores. Sem as informações desses sites, os modelos tiveram muita dificuldade em dar respostas precisas.
Avaliando o Impacto da Remoção dos Dados do Governo
Ao avaliar os modelos de IA, os pesquisadores se concentraram em dois aspectos principais. O primeiro foi "erros estruturais", que olhou como fluentemente os modelos poderiam se comunicar após a ablação. O segundo foi "erros de conhecimento", que rastreou com que frequência os modelos erraram nas informações.
Surpreendentemente, os pesquisadores descobriram que os modelos ainda conseguiram se comunicar bem após a remoção dos dados do governo. No entanto, a capacidade deles de fornecer informações precisas caiu significativamente. Isso mostrou que os sites do governo do Reino Unido são cruciais para os modelos de IA, especialmente quando lidam com tópicos específicos relacionados a assistência social e serviços públicos.
O Segundo Método: A IA Consegue Lembrar os Dados do Governo?
O segundo método que os pesquisadores aplicaram se concentrou em "vazamento de informações". Essa abordagem visa descobrir se os modelos de IA conseguem lembrar fatos específicos de conjuntos de dados fornecidos pelo governo. A principal fonte de dados em questão foi o data.gov.uk, que é a plataforma do governo do Reino Unido para dados abertos.
Os pesquisadores criaram perguntas que pediam aos modelos de IA sobre vários conjuntos de dados disponíveis no data.gov.uk. Se a IA pudesse responder com precisão, isso sugeriria que esses dados foram usados no treinamento do modelo de IA.
No entanto, quando os pesquisadores testaram os modelos de IA, os resultados foram decepcionantes. Quase todas as tentativas de recuperar informações do data.gov.uk falharam. Isso indicou que os conjuntos de dados dessa plataforma não foram significativamente utilizados no treinamento dos modelos de IA. Em outras palavras, o data.gov.uk não está servindo como um bom fornecedor de dados para IA.
A Importância dos Sites do Governo
É evidente que os sites do governo oferecem um recurso único e valioso para os modelos de IA, especialmente para fornecer informações precisas aos cidadãos. Os modelos se saíram muito melhor quando tiveram acesso a essas informações.
Exemplos dos tipos de perguntas que esses modelos poderiam responder corretamente incluíam tópicos como elegibilidade para benefícios do governo, interações entre diferentes esquemas de assistência e até serviços públicos locais. Sem esses dados, os modelos de IA mostraram uma clara diminuição em sua capacidade de fornecer respostas úteis.
Algumas perguntas com as quais os modelos tiveram dificuldade envolviam tópicos intricados que não são muito discutidos em outros lugares, como regras específicas sobre benefícios ou as nuances dos serviços públicos. Isso mostra o quão importantes os sites do governo do Reino Unido são para preencher as lacunas onde fontes alternativas de informação podem faltar.
O Desafio com Dados Públicos
O desafio agora é trazer mais dados de fontes governamentais para o treinamento de IA. Embora haja muitos conjuntos de dados abertos, parece que esses não estão sendo efetivamente integrados ao treinamento dos modelos de IA. A indústria de IA, embora esteja em alta, pode se beneficiar de uma melhor cooperação com agências governamentais para facilitar o Compartilhamento de Dados.
Para o governo do Reino Unido, há uma oportunidade aqui de se tornar um jogador chave no cenário de desenvolvimento de IA. Ao garantir que dados de alta qualidade estejam disponíveis para os desenvolvedores de IA, o governo poderia aumentar a eficácia desses sistemas, que servem, em última análise, ao público.
Recomendações para Melhoria
Após tirar insights importantes das descobertas, fica claro que o governo do Reino Unido precisa fazer algumas mudanças em suas práticas de compartilhamento de dados. Aqui estão algumas recomendações:
-
Compartilhamento de Dados Aumentado: O governo do Reino Unido deve adotar uma abordagem proativa para compartilhar mais de seus dados em formatos acessíveis que os desenvolvedores de IA possam usar facilmente.
-
Diretrizes Claras: O governo poderia estabelecer diretrizes claras sobre como os desenvolvedores de IA podem acessar esses dados e quais etapas devem ser seguidas para garantir conformidade.
-
Envolvimento com a Comunidade de IA: Ao se envolver com a comunidade de pesquisa em IA, o governo pode entender melhor quais dados são necessários para treinar modelos de forma eficaz.
-
Foco em Tópicos Menos Comuns: Atenção especial deve ser dada a tópicos menos debatidos que podem não estar adequadamente cobertos em outras fontes. Isso pode melhorar significativamente a capacidade da IA de fornecer informações precisas.
-
Colaboração com Outras Organizações: Colaborar com outras organizações ricas em dados pode levar a um pool de informações mais abrangente, que pode ser benéfico para o treinamento de sistemas de IA.
O Futuro dos Dados do Governo e da IA
À medida que a IA continua a evoluir, será crucial que os governos adaptem suas estratégias em torno do compartilhamento de dados. O governo do Reino Unido tem uma posição única para liderar pelo exemplo, promovendo uma cultura de transparência e abertura no compartilhamento de dados que pode capacitar as tecnologias de IA a servir melhor o público.
A relação entre IA e dados do governo não é apenas benéfica para as tecnologias, mas também para os cidadãos que dependem desses sistemas para informações. O potencial para esses modelos de IA é vasto, mas requer uma base sólida de dados para realmente alcançar suas plenas capacidades.
Conclusão
Em resumo, o papel do governo do Reino Unido como fornecedor de dados para IA mostrou tanto promessas quanto áreas para melhorias. A pesquisa realizada destaca a importância dos sites do governo no treinamento de modelos de IA, ao mesmo tempo que expõe as limitações de plataformas como o data.gov.uk.
Avançando, será essencial que o governo do Reino Unido adote uma abordagem mais aberta e colaborativa para o compartilhamento de dados. Isso não apenas aumentará as capacidades da IA, mas também garantirá que os cidadãos recebam as informações vitais de que precisam de maneira oportuna e precisa. Com as ações certas, o governo do Reino Unido pode realmente se tornar um líder em aproveitar dados para o benefício da IA, que por sua vez molda um futuro melhor para todos.
Então, da próxima vez que você ouvir sobre IA, lembre-se: por trás de cada assistente inteligente, há um tesouro de dados do governo esperando para ser explorado!
Título: Methods to Assess the UK Government's Current Role as a Data Provider for AI
Resumo: Governments typically collect and steward a vast amount of high-quality data on their citizens and institutions, and the UK government is exploring how it can better publish and provision this data to the benefit of the AI landscape. However, the compositions of generative AI training corpora remain closely guarded secrets, making the planning of data sharing initiatives difficult. To address this, we devise two methods to assess UK government data usage for the training of Large Language Models (LLMs) and 'peek behind the curtain' in order to observe the UK government's current contributions as a data provider for AI. The first method, an ablation study that utilises LLM 'unlearning', seeks to examine the importance of the information held on UK government websites for LLMs and their performance in citizen query tasks. The second method, an information leakage study, seeks to ascertain whether LLMs are aware of the information held in the datasets published on the UK government's open data initiative data$.$gov$.$uk. Our findings indicate that UK government websites are important data sources for AI (heterogenously across subject matters) while data$.$gov$.$uk is not. This paper serves as a technical report, explaining in-depth the designs, mechanics, and limitations of the above experiments. It is accompanied by a complementary non-technical report on the ODI website in which we summarise the experiments and key findings, interpret them, and build a set of actionable recommendations for the UK government to take forward as it seeks to design AI policy. While we focus on UK open government data, we believe that the methods introduced in this paper present a reproducible approach to tackle the opaqueness of AI training corpora and provide organisations a framework to evaluate and maximize their contributions to AI development.
Autores: Neil Majithia, Elena Simperl
Última atualização: 2024-12-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.09632
Fonte PDF: https://arxiv.org/pdf/2412.09632
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://orcid.org/0009-0008-3969-2514
- https://orcid.org/0000-0003-1722-947X
- https://theodi.org/insights/reports/the-uk-government-as-a-data-provider-for-ai
- https://www.ons.gov.uk/
- https://www.nationalarchives.gov.uk/
- https://www.gov.uk/universal-credit/eligibility
- https://www.citizensadvice.org.uk/
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs