OpenCitations Index: Una Risorsa Chiave per i Dati delle Citazioni
Accedi a oltre 2 miliardi di link di citazione unici per la ricerca aperta.
― 7 leggere min
Indice
L'OpenCitations Index è un grande insieme di dati sulle citazioni. Questa raccolta è creata e mantenuta da OpenCitations, un'organizzazione no-profit che si concentra sulla ricerca aperta. L'obiettivo è fornire un accesso semplice ai dati delle citazioni, permettendo a ricercatori e altri di usare queste informazioni liberamente. La raccolta include citazioni raccolte da molte fonti diverse.
Le citazioni sono collegamenti tra diversi pezzi di ricerca, mostrando come un lavoro faccia riferimento a un altro. Questo processo aiuta a tenere traccia dello sviluppo della conoscenza e dà credito agli autori per i loro contributi. C'è una crescente richiesta di dati sulle citazioni accessibili e giusti, soprattutto per supportare pratiche di ricerca trasparenti e riproducibili. OpenCitations punta a soddisfare questa esigenza.
Una delle prime raccolte create da OpenCitations è stata l'OpenCitations Index delle citazioni Crossref. Questa raccolta si concentrava sui collegamenti tra oggetti digitali noti come DOI, che sono identificatori unici per articoli di ricerca. L'introduzione di questo Indice è stata un passo importante sia per OpenCitations che per la comunità di ricerca più ampia.
Le citazioni in questo indice sono organizzate secondo un specifico modello di dati. Ogni Citazione è trattata come un'entità con i propri dettagli, come quando è stata creata, e le entità coinvolte nella citazione. Negli ultimi anni, OpenCitations ha lavorato sodo per espandere la gamma di dati sulle citazioni disponibili. Questo ha incluso la raccolta di più dati da varie fonti, tra cui il National Institute of Health, DataCite, OpenAIRE e il Japan Link Center.
A partire da luglio 2024, l'OpenCitations Index contiene più di 2 miliardi di link di citazioni unici raccolti da queste fonti diverse. Queste informazioni sono disponibili al pubblico tramite vari servizi, inclusi un endpoint SPARQL, API REST e dump di dataset scaricabili in diversi formati. Gli utenti possono accedere a dati bibliografici, dati di citazione e persino tenere traccia delle modifiche apportate al dataset.
Importanza delle Citazioni Bibliografiche
Le citazioni bibliografiche servono come collegamenti tra entità citanti e citate. Queste citazioni sono essenziali per comprendere il panorama globale della ricerca, rivelando le tendenze nella conoscenza nel tempo, dando credito agli autori e valutando il loro impatto. Negli ultimi anni, sono emerse molte iniziative aperte per fornire alternative ai servizi di citazione proprietaria. Queste iniziative mirano a raccogliere e pubblicare informazioni sulle citazioni sotto licenze aperte, rendendo più facile l'uso e la condivisione.
OpenCitations è una di queste iniziative. È stata creata per facilitare l'accesso ai dati delle citazioni, rendendo più semplice condividere conoscenza e supportare pratiche di ricerca eque. La prima grande raccolta di OpenCitations è stata l'OpenCitations Index delle citazioni Crossref, lanciato nel 2018. Questo indice ha fornito una risorsa significativa per i ricercatori, offrendo un vasto dataset di informazioni aperte sulle citazioni disponibili in formati leggibili da macchina.
Le citazioni in questo indice seguono il Modello di Dati di OpenCitations. Questo modello organizza le citazioni come entità distinte con i propri Metadati, come gli autori coinvolti, la data di creazione della citazione e dettagli sulla fonte dei dati.
Negli ultimi anni, OpenCitations si è concentrata sull'aumento della varietà di dati sulle citazioni disponibili nelle sue raccolte, incorporando informazioni da fonti di dati aggiuntive. Questo sforzo ha incluso la ristrutturazione del flusso di lavoro di ingestione di OpenCitations per includere citazioni dalla National Institute of Health Citation Collection, che si concentra principalmente sulla ricerca biomedica, oltre a citazioni da altre fonti come DataCite e OpenAIRE.
Il Flusso di Lavoro dell'OpenCitations Index
L'OpenCitations Index utilizza un flusso di lavoro specifico per garantire che le citazioni siano rappresentate in modo accurato. Questo flusso di lavoro comprende diversi passaggi che aiutano a gestire e integrare i dati provenienti da diverse fonti.
Preprocessing delle Fonti: Questo passo iniziale comporta l'estrazione dei dati dalle fonti originali e l'organizzazione in tabelle che il sistema può utilizzare facilmente. I dati vengono poi convalidati per assicurarsi che gli identificatori siano corretti e che i link delle citazioni siano formattati correttamente.
Processo Meta: In questa fase, le risorse bibliografiche menzionate nelle citazioni ricevono identificatori unici. Questo permette al sistema di tenere traccia delle risorse anche se compaiono in fonti multiple con identificatori diversi. I metadati includono informazioni essenziali come le date di pubblicazione, gli autori e il luogo delle opere citate.
Processo di Indicizzazione: L'ultimo passo comporta la creazione dei dati delle citazioni che saranno inclusi nell'OpenCitations Index. Questo processo converte i link di citazione originali in un formato standardizzato e assicura che siano collegati agli identificatori unici assegnati nel passo precedente.
Grazie a questo flusso di lavoro organizzato, l'OpenCitations Index non solo compila dati sulle citazioni, ma tiene anche traccia delle modifiche e degli aggiornamenti nel dataset. Questo semplifica per gli utenti la comprensione della storia di ogni citazione e della provenienza dei dati.
Provenienza e Tracciamento delle Modifiche
Insieme ai dati delle citazioni, l'OpenCitations Index mantiene anche informazioni dettagliate sull'origine e le modifiche apportate a ciascuna citazione. Questo tracciamento della provenienza è cruciale per garantire l'integrità dei dati.
Ogni citazione è associata a snapshot che catturano il suo stato nel tempo. Questi snapshot includono informazioni su quando è stata creata la citazione, chi è stato responsabile di eventuali modifiche e la fonte principale dei dati. Questa trasparenza permette agli utenti di verificare la credibilità delle citazioni.
Oltre al tracciamento delle citazioni, il dataset include metadati complessivi che descrivono l'intera raccolta. Questi metadati includono dettagli su quando il dataset è stato modificato l'ultima volta, i tipi di formati disponibili per il download e le informazioni di licenza.
A partire da luglio 2024, l'OpenCitations Index include oltre 2 miliardi di link di citazione unici tra più di 91 milioni di risorse bibliografiche. Questi dati sono resi disponibili gratuitamente, permettendo un'ampia gamma di utilizzi.
Risorse e Servizi
OpenCitations offre una varietà di strumenti per garantire che gli utenti possano facilmente accedere e utilizzare i dati delle citazioni. Questo include un endpoint SPARQL per interrogare i dati, un'API REST per accedere alle informazioni tramite protocolli web standard e applicazioni web per navigare e cercare tra i dataset.
Gli utenti possono accedere ai dati delle citazioni in base a diversi criteri e persino scaricare dataset completi in vari formati come CSV e RDF. L'obiettivo è rendere i dati il più user-friendly e adattabili possibile per ricercatori, sviluppatori e chiunque sia interessato alle informazioni sulle citazioni.
Utilizzo dell'OpenCitations Index
L'OpenCitations Index ha visto un notevole aumento dell'utilizzo dalla sua introduzione. I dati sono stati accessibili milioni di volte tramite la sua API, indicando una forte domanda per le informazioni sulle citazioni che fornisce. Questa ampia accessibilità consente agli utenti di integrare i dati sulle citazioni nei loro strumenti e sistemi facilmente.
Inoltre, diversi progetti e iniziative hanno iniziato a utilizzare i dati dell'OpenCitations Index come risorsa. Ad esempio, il progetto OpenAIRE-Nexus ha integrato i dati di OpenCitations nel suo nuovo OpenAIRE Graph. Altri progetti come B!SON e PURE Suggest hanno anche utilizzato i dati delle citazioni per le loro applicazioni.
Le istituzioni di ricerca stanno anche adottando i dati di OpenCitations per i propri scopi. Repository istituzionali come ORBi e CHERRY stanno ora usando i conteggi delle citazioni dall'OpenCitations Index per migliorare i loro servizi.
Direzioni Future
Guardando al futuro, OpenCitations punta a migliorare ulteriormente la qualità dei dati nell'OpenCitations Index. Questo include piani per sviluppare interfacce web che consentano una curatela umana dei dati delle citazioni. Coinvolgendo curatori della comunità, l'accuratezza e l'affidabilità dei dati sulle citazioni possono essere significativamente migliorate.
Inoltre, OpenCitations sta lavorando su metodi avanzati per la disambiguazione degli autori, combinando machine learning con analisi di rete. Questo aiuterà a garantire che gli autori siano identificati correttamente, migliorando ulteriormente la qualità dei dati sulle citazioni.
In generale, l'OpenCitations Index rappresenta un significativo progresso nei dati aperti sulle citazioni, fornendo risorse preziose per i ricercatori e la comunità scientifica più ampia. Assicurando che i dati sulle citazioni siano disponibili liberamente e facilmente accessibili, OpenCitations sta promuovendo un ambiente di ricerca più aperto e collaborativo.
Titolo: The OpenCitations Index
Estratto: This article presents the OpenCitations Index, a collection of open citation data maintained by OpenCitations, an independent, not-for-profit infrastructure organisation for open scholarship dedicated to publishing open bibliographic and citation data using Semantic Web and Linked Open Data technologies. The collection involves citation data harvested from multiple sources. To address the possibility of different sources providing citation data for bibliographic entities represented with different identifiers, therefore potentially representing same citation, a deduplication mechanism has been implemented. This ensures that citations integrated into OpenCitations Index are accurately identified uniquely, even when different identifiers are used. This mechanism follows a specific workflow, which encompasses a preprocessing of the original source data, a management of the provided bibliographic metadata, and the generation of new citation data to be integrated into the OpenCitations Index. The process relies on another data collection: OpenCitations Meta, and on the use of a new globally persistent identifier, namely OMID (OpenCitations Meta Identifier). As of July 2024, OpenCitations Index stores over 2 billion unique citation links, harvest from Crossref, the National Institute of Heath Open Citation Collection (NIH-OCC), DataCite, OpenAIRE, and the Japan Link Center (JaLC). OpenCitations Index can be systematically accessed and queried through several services, including SPARQL endpoint, REST APIs, and web interfaces. Additionally, dataset dumps are available for free download and reuse (under CC0 waiver) in various formats (CSV, N-Triples, and Scholix), including provenance and change tracking information.
Autori: Ivan Heibi, Arianna Moretti, Silvio Peroni, Marta Soricetti
Ultimo aggiornamento: 2024-08-05 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2408.02321
Fonte PDF: https://arxiv.org/pdf/2408.02321
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://opencitations.net
- https://i4oc.org/
- https://opencitations.net/index
- https://opencitations.net/meta
- https://www.dimensions.ai/
- https://ouci.dntb.gov.ua/en/
- https://openaire.eu
- https://scholexplorer.openaire.eu/
- https://www.openaire.eu/scholexplorer
- https://openalex.org/
- https://icite.od.nih.gov/
- https://wikicite.org/
- https://www.semanticscholar.org/
- https://crossref.org
- https://icite.od.nih.gov
- https://datacite.org
- https://archive.org/details/datacite-2024-01-26
- https://scholexplorer.openaire.eu
- https://doi.org/10.3030/101017452
- https://japanlinkcenter.org
- https://www.jstage.jst.go.jp/
- https://w3id.org/oc/ontology
- https://purl.org/spar/cito
- https://www.sparontologies.net
- https://www.w3.org/TR/xmlschema-2/#duration
- https://github.com/opencitations
- https://github.com/ariannamorettj/OC
- https://identifiers.org/omid
- https://redis.io/
- https://opencitations.hypotheses.org/3140
- https://github.com/ad-freiburg/qlever
- https://w3id.org/oc/meta/br/
- https://w3id.org/oc/index/ci/
- https://purl.org/spar/cito/
- https://www.w3.org/1999/02/22-rdf-syntax-ns#
- https://www.w3.org/2001/XMLSchema#
- https://identifiers.org/oci
- https://w3id.org/oc/index/ci/06101801781-06180334099
- https://www.w3.org/ns/prov-o
- https://rdfs.org/ns/void
- https://www.w3.org/ns/dcat
- https://w3id.org/oc/index/sparql
- https://w3id.org/oc/index/api/v2
- https://www.w3.org/ns/prov
- https://www.w3.org/TR/vocab-dcat/
- https://www.w3.org/TR/void/
- https://github.com/opencitations/lucinda
- https://opencitations.net/index/api/v1/
- https://opencitations.net/index/api/v2/
- https://opencitations.net/index/coci/api/v1/
- https://opencitations.net/sparql
- https://www.wikidata.org/wiki/Property:P3181
- https://locdb.bib.uni-mannheim.de/blog/en/
- https://www.openaire.eu/openaire-nexus-project
- https://graspos.eu/
- https://service.tib.eu/bison/
- https://doaj.org
- https://fabian-beck.github.io/pure-suggest/
- https://www.oahelper.org/
- https://projects.tib.eu/optimeta/en/
- https://cherry.chem.bg.ac.rs/
- https://stabikat.de/
- https://doi.org/10.6084/m9.figshare.24356626
- https://doi.org/10.6084/m9.figshare.24369136
- https://doi.org/10.6084/m9.figshare.24416749
- https://doi.org/10.6084/m9.figshare.24417733
- https://doi.org/10.6084/m9.figshare.24417736