Simple Science

Ciência de ponta explicada de forma simples

# Estatística # Bibliotecas digitais # Aplicações

Repensando as Contagens de Citações no Financiamento de Pesquisa

Um novo método pra prever citações focado nas características do artigo.

Michael Balzer, Adhen Benlahlou

― 9 min ler


Repensando as Métricas de Repensando as Métricas de Citação na Pesquisa justa, focando na qualidade. Novos modelos preveem citações de forma
Índice

No mundo da pesquisa, conseguir grana é super importante. Pra muitas organizações, descobrir como fazer a ciência crescer e ter resultados de destaque é crucial. Quando se trata de decidir quem recebe dinheiro, o número de citações de um artigo geralmente é o que mais chama atenção. Mas tem um porém: esses números podem ser influenciados por coisas que não têm nada a ver com o impacto real da pesquisa.

Esse artigo fala sobre um problema comum chamado Efeito Mateus. Basicamente, autores famosos e revistas conhecidas costumam receber mais citações, não necessariamente porque seu trabalho é melhor, mas porque já são populares. Pra lidar com isso, vamos discutir uma forma de prever quantas citações um artigo vai receber usando só as informações disponíveis na hora da submissão-antes de alguém saber quem são os autores.

Vamos misturar alguns métodos estatísticos clássicos e modernos enquanto usamos muitos dados de Pesquisa Biomédica. Nossos resultados mostram que é possível prever citações de forma bem precisa sem pensar em quem escreveu o artigo ou onde foi publicado. Assim, podemos tornar o processo de financiamento da pesquisa mais justo e focado na qualidade em vez de prestígio.

O Problema com Citações

Toda vez que pesquisadores publicam um artigo, há a esperança de que isso avance o conhecimento e gere discussões interessantes. Mas nem todos os artigos são iguais nesse aspecto. O número de citações que um artigo recebe é frequentemente usado como uma métrica para avaliar sua importância. Mas podemos confiar nesse número?

Ao longo dos anos, muitos estudos mostraram que as contagens de citações são afetadas por fatores que não têm relação com a qualidade real da pesquisa. Por exemplo, o estilo de escrita, o número de autores e até mesmo preconceitos relacionados a língua e gênero têm influência. E esse não é um problema novo-pesquisadores têm confiado em citações pra medir o impacto científico desde 1927.

Desde o começo, tem havido ceticismo sobre se as citações realmente refletem contribuições científicas reais. Alguns especialistas argumentam que as citações são moldadas por muitas variáveis além do mérito do trabalho. Práticas como autocitação e anéis de citação podem inflar números artificialmente, fazendo parecer que alguns artigos são mais importantes do que outros só por manipulação.

O Efeito Mateus complica ainda mais as coisas. Autores com reputação ou artigos publicados em revistas de prestígio normalmente recebem mais citações, independentemente da qualidade real do trabalho. Isso pode levar a situações onde autores novos ou menos conhecidos lutam enquanto nomes estabelecidos brilham, mesmo que seu trabalho não seja superior.

Consequentemente, enquanto organizações de pesquisa públicas buscam promover pesquisas de alta qualidade, a dependência das contagens de citações como uma medição confiável passa a ser questionada.

Uma Nova Abordagem

Pra resolver esse problema, proponho uma forma de prever citações focando nas características observáveis de um artigo, deixando de lado qualquer informação relacionada a autores e revistas pra evitar viés. Com isso, esperamos diminuir a influência de fatores associados ao Efeito Mateus.

Nosso foco será em características que podem ser facilmente observadas durante um processo de revisão por pares de duplo-cego. Por exemplo, já foi notado que artigos que fazem referência a literatura mais recente tendem a ser citados mais frequentemente do que aqueles que olham pra trás. Além disso, vamos analisar como o número de referências e sua novidade impactam a contagem total de citações.

Usando grandes conjuntos de dados de pesquisa biomédica, vamos mostrar que realmente é possível fazer previsões precisas sobre quantas vezes um artigo pode ser citado apenas com base nas variáveis presentes na hora da submissão.

A Importância das Características Observáveis

No mundo da ciência, há muitas variáveis a serem consideradas. O escopo da pesquisa, a qualidade e a metodologia desempenham papéis vitais. No entanto, quando se trata de prever citações, focar em características observáveis durante a fase de submissão parece oferecer uma imagem mais clara.

O conjunto de dados que vamos usar vem do PubMed Knowledge Graph, que inclui milhões de artigos com atributos detalhados. Esse recurso nos permite analisar tendências e padrões na pesquisa biomédica além do nível superficial.

Ao examinar citações de artigos publicados entre anos específicos e filtrando o conjunto de dados pra incluir apenas variáveis necessárias, podemos criar um modelo mais eficiente pra prever citações.

Metodologia: Como Fazemos Previsões

Pra prever citações de forma eficaz, buscamos usar métodos que sejam adaptáveis e diretos. Começamos com modelos lineares clássicos e modelos lineares generalizados enquanto exploramos grandes conjuntos de dados.

Tivemos desafios, já que as contagens de citações nem sempre são distribuídas normalmente e podem frequentemente ter muitos zeros. Pra lidar com esses problemas, usamos um modelo chamado regressão binomial negativa que é mais adequado pra dados de contagem como números de citações.

Na prática, revisamos uma gama de variáveis que poderiam impactar as contagens de citações. Prestando atenção aos anos de publicação, ao número de referências e ao tipo de publicação, nosso objetivo era criar um modelo que pudesse gerar previsões confiáveis.

Nosso objetivo era criar um modelo que pudesse estimar citações com base unicamente em características visíveis na hora da submissão.

Resultados: O Que Encontramos

Após empregar nossos métodos propostos, ficamos felizes em descobrir que nossos modelos funcionaram muito bem na previsão de contagens de citações. Os coeficientes estimados indicaram forte significância, e nossas previsões estavam bem alinhadas com a literatura estabelecida.

Notavelmente, o número de referências, os tipos de termos MeSH e o comprimento do artigo impactaram positivamente as contagens de citações. Isso significa que artigos que eram completos e bem referenciados geralmente receberam mais atenção.

Porém, também percebemos que a idade das referências poderia ter um impacto negativo, indicando que conteúdos que referenciam fontes mais antigas podem ser menos relevantes no ambiente de pesquisa acelerado de hoje. Além disso, artigos focados em temas clínicos frequentemente garnered mais citações do que aqueles sobre outros tópicos.

Quando avaliamos o desempenho de nossos modelos, descobrimos consistentemente que eles eram precisos não apenas em nosso conjunto de treinamento, mas também em novos dados não vistos. Isso sugere que os modelos que construímos são robustos e confiáveis.

Técnicas Avançadas: Aprendizado de Máquina para Seleção de Variáveis

Além das estatísticas tradicionais, também nos aventuramos no mundo do aprendizado de máquina pra aprimorar ainda mais nossas previsões. Usando o gradient boosting baseado em modelo, nosso objetivo era deixar nossos modelos mais eficientes e identificar quais variáveis eram mais importantes.

Nesse modelo, o algoritmo ajusta-se iterativamente pra encontrar as melhores previsões, acompanhando quais variáveis consistentemente levam a melhores resultados. Esse método permite tanto a seleção de modelo quanto a identificação de variáveis sem depender muito da intuição humana.

A beleza de usar aprendizado de máquina aqui é que os métodos podem se adaptar e refinar com base nos dados, levando a resultados potencialmente melhores e mantendo tudo atualizado e relevante.

Ajustes Finais: Olhando para os Critérios de Parada

Enquanto trabalhávamos com nosso modelo de gradient boosting, notamos algo interessante: os critérios de parada podiam ser ajustados. Em termos mais simples, podíamos decidir quando parar o processo de melhorar o modelo com base em quão bem ele estava se saindo.

Essa flexibilidade nos permitiu evitar o overfitting, enquanto ainda garantíamos que estávamos capturando relações importantes nos dados. Controlando o número de variáveis incluídas, conseguimos manter a simplicidade do modelo sem sacrificar a performance.

À medida que fizemos esses ajustes, descobrimos que mesmo com menos variáveis, poderíamos alcançar uma qualidade de previsão similar. Essa realização desempenha um papel chave em tornar nossa abordagem não apenas eficaz, mas também eficiente.

Conclusão: Rumo a Avaliações Mais Justas

A principal lição dos nossos achados é que ao focar em características observáveis e excluir aspectos relacionados ao prestígio, conseguimos alcançar um meio mais objetivo de prever citações. Nossa abordagem ajuda a mitigar os efeitos de viés que atualmente atormentam o processo de avaliação.

Predizendo citações com base unicamente em características visíveis disponíveis durante a fase de revisão, podemos garantir que os órgãos de financiamento direcionem seus recursos pra pesquisas de qualidade, em vez de simplesmente para os nomes mais famosos ou revistas respeitáveis.

Enquanto olhamos pro futuro, há um imenso potencial pra construir em cima desse trabalho. Com dados e variáveis adicionais, podemos continuar refinando nossos modelos e ajudar a moldar um cenário de pesquisa mais equitativo.

Então, da próxima vez que você ouvir sobre contagens de citações, lembre-se: não se trata só dos números; é sobre a qualidade da ciência por trás deles. E quem sabe, a próxima grande descoberta pode vir de um autor cujo nome você nunca ouviu antes!

Fonte original

Título: Mitigating Consequences of Prestige in Citations of Publications

Resumo: For many public research organizations, funding creation of science and maximizing scientific output is of central interest. Typically, when evaluating scientific production for funding, citations are utilized as a proxy, although these are severely influenced by factors beyond scientific impact. This study aims to mitigate the consequences of the Matthew effect in citations, where prominent authors and prestigious journals receive more citations regardless of the scientific content of the publications. To this end, the study presents an approach to predicting citations of papers based solely on observable characteristics available at the submission stage of a double-blind peer-review process. Combining classical linear models, generalized linear models and utilizing large-scale data sets on biomedical papers based on the PubMed database, the results demonstrate that it is possible to make fairly accurate predictions of citations using only observable characteristics of papers excluding information on authors and journals, thereby mitigating the Matthew effect. Thus, the outcomes have important implications for the field of scientometrics, providing a more objective method for citation prediction by relying on pre-publication variables that are immune to manipulation by authors and journals, thereby enhancing the objectivity of the evaluation process. Our approach is thus important for government agencies responsible for funding the creation of high-quality scientific content rather than perpetuating prestige.

Autores: Michael Balzer, Adhen Benlahlou

Última atualização: 2024-12-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.05584

Fonte PDF: https://arxiv.org/pdf/2411.05584

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes