Aprimorando a Identificação de Conjuntos de Dados de Alto Valor em Dados Governamentais
Descubra como métodos automatizados melhoram a identificação de conjuntos de dados valiosos em portais do governo.
― 7 min ler
Conjuntos de dados de alto valor (HVDs) são importantes pra deixar os dados do governo disponíveis pro público, porque podem aumentar a transparência, impulsionar o crescimento econômico, apoiar pesquisas e melhorar os serviços públicos. Mas, encontrar esses conjuntos de dados de alto valor pode ser complicado, por causa de como o valor dos dados é determinado. Esse artigo fala sobre um jeito de facilitar a identificação de HVDs usando abordagens automatizadas que precisam de menos envolvimento humano.
O estudo foca em analisar o interesse que os usuários mostram por conjuntos de dados de portais de Dados Abertos do Governo. Esse interesse é identificado por meio de estatísticas de uso, incluindo com que frequência os conjuntos de dados são baixados. Olhando pra essas estatísticas, o objetivo é descobrir quais conjuntos de dados são mais valorizados pelo público. A abordagem envolve extrair dados de download de diferentes portais, analisá-los e comparar os achados entre vários portais.
A Importância dos Conjuntos de Dados de Alto Valor
Dados abertos do governo (OGD) é uma pressão pra que informações mantidas pelo governo fiquem disponíveis gratuitamente pra todo mundo em um formato que seja fácil de ler por máquinas. Muitos países entraram nesse movimento, deixando seus dados acessíveis pra vários grupos, como organizações sem fins lucrativos, empresas, pesquisadores e a mídia. Mas, só ter uma grande quantidade de dados não significa que isso vai ter impacto. O verdadeiro valor tá em como o público se envolve e usa esses dados.
O foco mudou de quantidade pra qualidade, ou seja, é mais importante identificar conjuntos de dados que são realmente valiosos e relevantes pros usuários. Governos ao redor do mundo reconhecem que conjuntos de dados de alto valor podem ajudar a criar sociedades mais informadas e justas. Isso significa que identificar esses conjuntos de dados é crucial pra maximizar o impacto dos dados abertos do governo.
Desafios na Identificação de Conjuntos de Dados de Alto Valor
Um desafio grande na identificação de conjuntos de dados de alto valor é que diferentes grupos de usuários têm necessidades diferentes. Por exemplo, organizações da sociedade civil podem ter interesses diferentes em relação a empresas. Enquanto alguns governos têm categorias específicas pra conjuntos de dados de alto valor, há uma necessidade crescente de entender quais conjuntos de dados as comunidades locais consideram valiosos.
Determinar quais conjuntos de dados são de alto valor geralmente envolve uma mistura de revisão manual e categorias pré-definidas, o que pode ser demorado e exigir muitos recursos. Então, uma abordagem automatizada pra identificar HVDs com base no real interesse dos usuários é necessária.
Automatizando a Identificação de HVDs
A metodologia proposta foca em usar estatísticas de download de portais OGD pra identificar conjuntos de dados de alto valor. Embora baixar um conjunto de dados não garanta que ele será usado efetivamente, ainda serve como um indicador útil de interesse. A metodologia consiste em três etapas chave:
- Extração de Dados: Dados de download são puxados dos metadados de conjuntos de dados encontrados em vários portais OGD.
- Análise de Dados: Os dados baixados são analisados usando diferentes métricas pra identificar quais categorias de conjuntos de dados são acessadas com mais frequência.
- Análise Comparativa: As categorias de HVDs são comparadas entre diferentes portais pra destacar tendências e semelhanças chave.
Aplicando esse método a uma amostra de portais de cidades dos EUA, o estudo mostra como a abordagem funciona na prática.
Benefícios do Método Proposto
Automatizar a identificação de HVDs traz várias vantagens. Primeiro, fornece insights valiosos sobre quais conjuntos de dados estão mais em demanda de acordo com as interações dos usuários. Essa informação ajuda formuladores de políticas e gerentes de portais a priorizar melhor quais dados liberar ou melhorar.
Além disso, a metodologia enfatiza a necessidade de alinhar categorias entre diferentes portais, o que pode ajudar a padronizar a identificação de conjuntos de dados de alto valor. Assim, fica mais fácil comparar conjuntos de dados e entender seu significado em vários contextos, como níveis local ou nacional.
O Estudo de Caso das Cidades dos EUA
A metodologia foi testada usando uma seleção de portais de cidades dos EUA que foram considerados bem estruturados e acessíveis. Cidades como Nova York, Los Angeles e Chicago foram escolhidas por seus conjuntos de dados ricos e forte compromisso com iniciativas de dados abertos do governo. O estudo analisou as estatísticas de uso desses portais pra ver quais conjuntos de dados eram acessados com mais frequência.
A análise mostrou que alguns conjuntos de dados recebem a maioria dos downloads, revelando padrões de interesse público. Por exemplo, conjuntos de dados específicos relacionados a transporte e segurança pública estavam consistentemente entre os mais baixados em várias cidades. Isso indica um claro interesse público nessas áreas.
Descobertas do Estudo
As descobertas revelam que certas categorias de conjuntos de dados são mais propensas a serem consideradas de alto valor com base nas estatísticas de download. As categorias mais populares incluíram segurança pública, transporte e dados econômicos. Esses resultados destacam a importância de adaptar conjuntos de dados de alto valor às necessidades e interesses das comunidades locais.
O estudo também destacou disparidades em como diferentes portais categorizam conjuntos de dados. Essa variabilidade torna desafiador fazer comparações diretas entre diferentes regiões. A necessidade de padronização surgiu como um claro ensinamento da análise, mostrando que ter categorias comuns pode melhorar a compreensão geral dos conjuntos de dados de alto valor.
Avançando
A abordagem de usar estatísticas de download pra identificar conjuntos de dados de alto valor pode aprimorar significativamente a forma como os governos se envolvem com seus dados. No entanto, ainda há desafios a serem enfrentados. Por exemplo, focar apenas nos números de download pode deixar de lado questões relacionadas à qualidade dos conjuntos de dados ou à satisfação do usuário.
Pesquisas futuras poderiam explorar a integração de avaliações qualitativas junto aos dados quantitativos pra criar uma visão mais completa do que constitui conjuntos de dados valiosos. Além disso, expandir a metodologia pra incluir outras formas de engajamento dos usuários, como feedback ou comentários, poderia resultar em uma compreensão mais rica do valor dos conjuntos de dados.
Conclusão
Identificar conjuntos de dados de alto valor em portais de dados abertos do governo é crucial pra promover transparência, ajudar os serviços públicos e incentivar o engajamento dos cidadãos. Automatizando o processo de identificação e confiando em dados de interesse dos usuários, os governos podem priorizar melhor seus esforços de dados abertos. Esse método não só otimiza as práticas de liberação de dados, mas também se alinha com as necessidades dos cidadãos, levando a uma sociedade mais informada e engajada.
Através de estudos de caso de várias cidades dos EUA, o estudo mostra a eficácia de usar estatísticas de download pra entender o interesse público em conjuntos de dados do governo. Focando em conjuntos de dados de alto valor, os governos podem garantir que suas iniciativas de dados abertos sejam significativas e impactantes.
Título: Automating the Identification of High-Value Datasets in Open Government Data Portals
Resumo: Recognized for fostering innovation and transparency, driving economic growth, enhancing public services, supporting research, empowering citizens, and promoting environmental sustainability, High-Value Datasets (HVD) play a crucial role in the broader Open Government Data (OGD) movement. However, identifying HVD presents a resource-intensive and complex challenge due to the nuanced nature of data value. Our proposal aims to automate the identification of HVDs on OGD portals using a quantitative approach based on a detailed analysis of user interest derived from data usage statistics, thereby minimizing the need for human intervention. The proposed method involves extracting download data, analyzing metrics to identify high-value categories, and comparing HVD datasets across different portals. This automated process provides valuable insights into trends in dataset usage, reflecting citizens' needs and preferences. The effectiveness of our approach is demonstrated through its application to a sample of US OGD city portals. The practical implications of this study include contributing to the understanding of HVD at both local and national levels. By providing a systematic and efficient means of identifying HVD, our approach aims to inform open governance initiatives and practices, aiding OGD portal managers and public authorities in their efforts to optimize data dissemination and utilization.
Autores: Alfonso Quarati, Anastasija Nikiforova
Última atualização: 2024-06-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.10541
Fonte PDF: https://arxiv.org/pdf/2406.10541
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/lppl.txt
- https://orcid.org/0000-0002-1801-3403
- https://orcid.org/0000-0002-0532-3488
- https://www.university.org
- https://data.austintexas.gov
- https://data.cityofnewyork.us
- https://data.buffalony.gov
- https://data.cityofchicago.org
- https://data.lacity.org
- https://www.dallasopendata.com
- https://data.sfgov.org
- https://data.seattle.gov
- https://data.honolulu.gov
- https://www.census.gov/data/tables/time-series/demo/popest/2020s-total-cities-and-towns.html
- https://datos.gob.es/sites/default/files/doc/file/report_dcat-ap_and_its_extensions.pdf
- https://github.com/aq-code/HVD_open_data_portals
- https://data.texas.gov/Transportation/CapMetro-Vehicle-Positions-PB-File/eiei-9rpf/
- https://data.cityofchicago.org/Administration-Finance/Current-Employee-Names-Salaries-and-Position-Title/xzkq-xp2w/about_data
- https://www.dallasopendata.com/Public-Safety/Dallas-Police-Active-Calls/9fxf-t2tr/about_data
- https://data.gov.lv/dati/lv/dataset/groups/2017-gada-republikas-pilsetas-domes-un-novada-domes-velesanu-rezultati-un-veletaju-aktivitate
- https://github.com/higorspinto/category_alignment_open_data_portals
- https://github.com/aq-code/HVD_open_data_portals/blob/main/portals.json