Simple Science

Ciência de ponta explicada de forma simples

# Informática# Engenharia de software

O Desafio da Citação de Software na Pesquisa

Esse artigo analisa a necessidade de melhores práticas de citação de software na academia.

― 7 min ler


Desafios na Citação deDesafios na Citação deSoftwarenas pesquisas.Abordando as falhas em citar softwares
Índice

Software é uma parte vital de muitos projetos de pesquisa. Mas, muitas vezes, é mencionado sem a devida citação. Essa falta de citação correta dificulta o rastreamento de como o software é usado na pesquisa e a atribuição de crédito aos criadores desse software. Este artigo aborda os desafios em usar conjuntos de dados que coletam Menções de Software em artigos de pesquisa, especialmente para pesquisadores que querem estudar o uso e as práticas de citação de software.

O que são Menções de Software?

Menções de software são referências a software em artigos acadêmicos. Em vez de citar o software formalmente, os pesquisadores podem simplesmente mencioná-lo no texto. Por exemplo, um pesquisador pode dizer: "Usamos o Software X para análise", mas não fornece uma referência adequada que aponte para o software em si ou seus criadores. Essa menção informal não ajuda os outros a encontrarem o software ou a darem crédito aos seus autores.

A Importância da Citação Correta

Citar corretamente é importante por várias razões:

  1. Crédito: Permite que os autores do software recebam o reconhecimento devido pelo trabalho deles.
  2. Localização: Ajuda outros a encontrarem o software, o que é crucial para a reprodutibilidade na pesquisa.
  3. Controle de Versão: Citar versões específicas do software evita confusão sobre qual versão foi usada, o que pode afetar os resultados da pesquisa.

Estado Atual das Menções de Software

Muitos pesquisadores ainda não seguem boas práticas na citação de software. Em alguns estudos, foi encontrado que menos da metade dos artigos que mencionavam software incluíam uma citação correta. Essa lacuna sugere a necessidade de melhores práticas e ferramentas que incentivem a citação adequada.

Conjuntos de Dados para Menções de Software

Recentemente, novos conjuntos de dados que contêm menções de software de artigos de pesquisa foram publicados. Esses conjuntos de dados são úteis para entender como diferentes softwares são usados na pesquisa. No entanto, a qualidade desses conjuntos de dados varia e pode apresentar desafios para os pesquisadores.

Avaliando a Usabilidade dos Conjuntos de Dados

Para avaliar se esses conjuntos de dados são úteis para a pesquisa, nossa abordagem inclui várias etapas:

  1. Amostragem: Pegando uma pequena amostra representativa do conjunto de dados para revisão.
  2. Anotação Manual: Verificando cada menção na amostra para avaliar sua qualidade, como se fornece informações suficientes para uma citação adequada.
  3. Análise: Analisando os dados anotados para avaliar a usabilidade geral do conjunto de dados.

Desafios Encontrados nos Conjuntos de Dados

Ao avaliar a usabilidade dos conjuntos de dados de menções de software, vários desafios foram identificados:

  • Qualidade das Menções: Muitas menções não estavam corretamente citadas, ou seja, não forneceram informações adequadas para que outros localizassem ou usassem o software.
  • Problemas de Acesso: Alguns conjuntos de dados não incluíam links para o software. Isso dificultou a vida dos pesquisadores que tentavam encontrar o software mencionado nos artigos.
  • Variedade de Fontes: Algumas menções apontavam para versões diferentes ou até softwares completamente diferentes, o que pode confundir os pesquisadores.

Questões Específicas com os Conjuntos de Dados

Um conjunto de dados pode não fornecer nenhum link para o software. Em contraste, outro conjunto de dados pode incluir links que apontam para versões diferentes do mesmo software ou até para softwares diferentes que têm um nome similar. Essa inconsistência dificulta a realização de pesquisas de forma confiável.

O Problema das Menções Informais

Muitas menções de software em artigos de pesquisa são informais. Menções informais não fornecem detalhes suficientes para ajudar alguém a encontrar o software. Por exemplo, um artigo que diz: "Usamos o Software X", sem um link ou citação adequada, deixa os leitores sem informações essenciais. A realidade das menções informais é que elas prejudicam o reconhecimento do software e dificultam a avaliação da pesquisa por outros.

Necessidade de Práticas de Citação de Software

O principal problema com o uso de conjuntos de dados de menções de software é a falta geral de boas práticas de citação de software na comunidade de pesquisa. Os autores devem seguir princípios estabelecidos para a citação de software para tornar o uso de software transparente e acessível.

O Papel do Software de Código Aberto

O software de código aberto, que permite aos usuários visualizar e modificar o código-fonte, é frequentemente citado de forma diferente do software de código fechado. Há indícios de que o software de código aberto é mais provável de ser citado corretamente, já que geralmente vem com documentação e recursos acessíveis que facilitam a citação.

Questões de Pesquisa

O estudo teve como objetivo responder a várias perguntas:

  1. Os conjuntos de dados de menções de software são úteis para a pesquisa?
  2. Como as citações de software de código aberto e fechado diferem?
  3. A prática da citação de software melhorou nos últimos anos?

Metodologia

Para responder a essas perguntas, foi adotada uma abordagem sistemática:

  1. Amostragem: Amostras foram retiradas de dois grandes conjuntos de dados de menções de software.
  2. Análise: Cada amostra foi avaliada quanto à qualidade das menções de software, os tipos de citações usadas e a acessibilidade dos links para o software.

Resultados sobre Menções de Software

A análise das amostras revelou que uma parte significativa das menções de software não estava corretamente citada. Essa falta de citação formal dificulta a possibilidade de os pesquisadores rastrearem o uso de software de forma precisa e atribuírem o crédito apropriado aos autores do software.

Qualidade das Menções

Em termos de qualidade das menções, foi constatado que:

  • Uma alta porcentagem de menções não incluía nenhum link para o software.
  • Muitas menções não especificavam qual versão do software foi usada.
  • A qualidade das menções extraídas variou significativamente entre os conjuntos de dados.

Comparações entre Tipos de Software

O estudo também tentou diferenciar como o software de código aberto e fechado foi citado na literatura acadêmica. A hipótese era que o software de código aberto seria citado de forma mais favorável devido à sua natureza e à disponibilidade de metadados.

Melhorias Necessárias na Citação de Software

Apesar de algum progresso, ainda há um longo caminho a percorrer para melhorar as práticas de citação de software. Uma aplicação mais consistente dos princípios de citação de software é necessária para garantir que o software receba o crédito adequado na pesquisa.

Direções Futuras

Daqui pra frente, os pesquisadores devem defender melhores práticas na citação de software. Aqui estão algumas sugestões:

  • Criar diretórios abrangentes para softwares de pesquisa que possam servir como referências úteis.
  • Incentivar o uso de identificadores únicos (como DOIs) para software para simplificar as citações.
  • Melhorar o treinamento e os recursos para pesquisadores sobre a importância da citação de software.

Conclusão

Em conclusão, os conjuntos de dados de menções de software apresentam tanto oportunidades quanto desafios para a pesquisa. Embora possam fornecer insights sobre o uso de software na academia, sua eficácia é limitada por práticas de citação inconsistentes. Ao focar em citação adequada e trabalhar para melhorar a qualidade desses conjuntos de dados, a comunidade de pesquisa pode apoiar melhor os autores de software e aumentar a reprodutibilidade do trabalho científico.

Ao promover melhores práticas na citação de software, podemos garantir que as contribuições de software sejam reconhecidas e que os pesquisadores tenham acesso às ferramentas que precisam para seu trabalho.

Fonte original

Título: Don't mention it: An approach to assess challenges to using software mentions for citation and discoverability research

Resumo: Datasets collecting software mentions from scholarly publications can potentially be used for research into the software that has been used in the published research, as well as into the practice of software citation. Recently, new software mention datasets with different characteristics have been published. We present an approach to assess the usability of such datasets for research on research software. Our approach includes sampling and data preparation, manual annotation for quality and mention characteristics, and annotation analysis. We applied it to two software mention datasets for evaluation based on qualitative observation. Doing this, we were able to find challenges to working with the selected datasets to do research. Main issues refer to the structure of the dataset, the quality of the extracted mentions (54% and 23% of mentions respectively are not to software), and software accessibility. While one dataset does not provide links to mentioned software at all, the other does so in a way that can impede quantitative research endeavors: (1) Links may come from different sources and each point to different software for the same mention. (2) The quality of the automatically retrieved links is generally poor (in our sample, 65.4% link the wrong software). (3) Links exist only for a small subset (in our sample, 20.5%) of mentions, which may lead to skewed or disproportionate samples. However, the greatest challenge and underlying issue in working with software mention datasets is the still suboptimal practice of software citation: Software should not be mentioned, it should be cited following the software citation principles.

Autores: Stephan Druskat, Neil P. Chue Hong, Sammie Buzzard, Olexandr Konovalov, Patrick Kornek

Última atualização: 2024-02-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.14602

Fonte PDF: https://arxiv.org/pdf/2402.14602

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes