Colmare il divario di citazioni nella scienza informatica
Un nuovo dataset raccoglie citazioni da articoli senza DOI in Informatica.
― 4 leggere min
Indice
Nel campo dell'Informatica, i documenti presentati a conferenze e workshop sono fondamentali per la ricerca. Questi documenti offrono preziose intuizioni e valutazioni dei progressi nel settore. Tuttavia, molti di questi articoli non hanno un identificatore unico chiamato DOI (Digital Object Identifier). Questa mancanza rende difficile tracciare le loro citazioni nei database più popolari, limitando così l'analisi della ricerca.
Il Problema
Una sfida significativa sorge perché i database di Citazione spesso si basano sui DOI per collegare i lavori. Quando un documento è privo di DOI, le sue citazioni potrebbero non essere catturate, portando a una visione incompleta dell'impatto della ricerca. Questo problema è particolarmente rilevante in Informatica, dove molti eventi non assegnano DOI ai documenti presentati. Questa omissione può distorcere le valutazioni del contributo e dell'influenza della ricerca, introducendo potenzialmente un bias nel processo di valutazione.
Sforzi Precedenti
In passato, Microsoft Academic Graph (MAG) offriva copertura per documenti senza DOI, aiutando a colmare questa lacuna. Tuttavia, poiché MAG è stato interrotto, c'è stata una carenza di dati aggiornati per supportare le analisi di citazione in quest'area. Questa lacuna richiede un nuovo approccio per raccogliere informazioni sulle citazioni di questi lavori importanti.
La Soluzione: Dataset BIP! NDR
Per affrontare questo problema, è stato creato il dataset BIP! NDR. Questo dataset mira a catturare le citazioni da documenti che non hanno DOI, migliorando le valutazioni della ricerca in Informatica. Il dataset raccoglie articoli identificati come accessibili liberamente da un database principale per articoli di Informatica. Il processo implica l'analisi del testo completo di questi articoli per estrarre i dettagli delle citazioni.
Come Funziona
La produzione del dataset inizia raccogliendo articoli da un database bibliografico consolidato focalizzato sull'Informatica. L'obiettivo è raccogliere articoli che sono accessibili liberamente e privi di DOI. Il processo include i seguenti passaggi:
Raccolta degli Articoli: La fonte principale è un database che consolida i metadati accademici. Vengono identificati articoli che non hanno DOI.
Estrazione delle Citazioni: Una volta raccolti gli articoli, il testo completo viene analizzato per estrarre informazioni sulle citazioni. Questo passaggio è fondamentale poiché consente ai ricercatori di tracciare i riferimenti effettuati all'interno di questi articoli.
Utilizzo di Strumenti per l'Estrazione: Uno strumento specializzato viene utilizzato per estrarre dati dai file PDF contenenti gli articoli. Questo strumento elabora i file mantenendo il formato e la struttura dei documenti originali, garantendo che le informazioni sulle citazioni possano essere raccolte con precisione.
Consolidamento delle Informazioni: Il processo di estrazione controlla anche i metadati aggiuntivi attraverso servizi esterni. Questo passaggio aiuta a verificare e arricchire i dati di citazione raccolti.
Archiviazione dei Dati: Le informazioni sulle citazioni estratte vengono memorizzate in un formato strutturato, rendendole comode per l'analisi e ulteriori elaborazioni.
Creazione del Dataset: Infine, queste informazioni vengono compilate in un dataset che può essere condiviso con la comunità di ricerca.
Caratteristiche del Dataset
Attualmente, il dataset BIP! NDR include un'ampia gamma di citazioni da articoli di conferenze di Informatica ad Accesso Aperto che mancano di DOI. Il dataset è formattato in un modo che consente agli utenti di accedere facilmente e analizzare le informazioni sulle citazioni. Ogni voce nel dataset contiene dettagli essenziali, inclusi identificatori unici e riferimenti dal testo degli articoli citanti, fornendo così una panoramica organizzata del lavoro accademico.
Importanza delle Citazioni
Le citazioni servono da collegamenti tra i documenti di ricerca. Quando un documento cita un altro, significa che il primo riconosce il contributo del secondo. Questo riconoscimento è fondamentale per valutare l'impatto di un lavoro di ricerca. Negli anni, le citazioni hanno guadagnato importanza come indicatori di influenza scientifica, permettendo ai ricercatori di misurare quanto spesso il loro lavoro venga citato da altri.
Statistiche Attuali
Ad oggi, il dataset BIP! NDR contiene più di 510.000 citazioni estratte da circa 60.000 articoli di Informatica. Questa vasta raccolta rappresenta un passo importante per colmare la lacuna di dati causata dalla mancanza di DOI. Il dataset consente ai ricercatori di valutare contributi che potrebbero altrimenti essere trascurati.
Miglioramenti Futuri
Guardando avanti, i creatori del dataset BIP! NDR intendono migliorare il flusso di lavoro esistente e identificare più pubblicazioni ad accesso aperto. Sono in programma anche ulteriori metadati per ogni citazione, permettendo una comprensione e una categorizzazione più approfondita dei riferimenti. Questi miglioramenti renderanno il dataset una risorsa ancora più preziosa per ricercatori, educatori e studiosi in Informatica.
Conclusione
Il dataset BIP! NDR rappresenta un significativo avanzamento nella cattura delle citazioni dalla letteratura di Informatica. Concentrandosi su articoli senza DOI, fornisce dati critici che riflettono il vero ambito della produzione di ricerca in questo campo. Con aggiornamenti e miglioramenti continui, il dataset servirà come risorsa essenziale per chiunque sia coinvolto nella valutazione e analisi della ricerca in Informatica. Questa iniziativa non solo aiuta a colmare le lacune esistenti nei dati di citazione, ma supporta anche la comunità accademica più ampia nel riconoscere i contributi di un più ampio ventaglio di lavori accademici.
Titolo: BIP! NDR (NoDoiRefs): A Dataset of Citations From Papers Without DOIs in Computer Science Conferences and Workshops
Estratto: In the field of Computer Science, conference and workshop papers serve as important contributions, carrying substantial weight in research assessment processes, compared to other disciplines. However, a considerable number of these papers are not assigned a Digital Object Identifier (DOI), hence their citations are not reported in widely used citation datasets like OpenCitations and Crossref, raising limitations to citation analysis. While the Microsoft Academic Graph (MAG) previously addressed this issue by providing substantial coverage, its discontinuation has created a void in available data. BIP! NDR aims to alleviate this issue and enhance the research assessment processes within the field of Computer Science. To accomplish this, it leverages a workflow that identifies and retrieves Open Science papers lacking DOIs from the DBLP Corpus, and by performing text analysis, it extracts citation information directly from their full text. The current version of the dataset contains more than 510K citations made by approximately 60K open access Computer Science conference or workshop papers that, according to DBLP, do not have a DOI.
Autori: Paris Koloveas, Serafeim Chatzopoulos, Christos Tryfonopoulos, Thanasis Vergoulis
Ultimo aggiornamento: 2023-07-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.12794
Fonte PDF: https://arxiv.org/pdf/2307.12794
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/athenarc/bip-ndr-workflow
- https://github.com/ThomHurks/dblp-to-csv
- https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html
- https://github.com/kermitt2/biblio-glutton
- https://www.crossref.org/documentation/retrieve-metadata/rest-api/
- https://opencitations.net
- https://graph.openaire.eu
- https://dblp.uni-trier.de/
- https://doi.org/10.1016/j.sigpro.2009.04.008
- https://jsonlines.org/