Previsão de Contribuidores de Longo Prazo em Código Aberto

Pesquisas identificam os fatores principais que influenciam a retenção de desenvolvedores em projetos de código aberto.

2025-08-09T00:36:42+00:00 ― 5 min ler

Índice

Compreendendo as Unidades de Conhecimento (KUs)
Metodologia de Pesquisa
Principais Descobertas
Desenvolvimento de Modelo Custo-Efetivo
Conclusão
Fonte original
Ligações de referência

Contribuintes de longa data (LTCs) são desenvolvedores que ficam e contribuem ativamente em projetos de código aberto por um bom tempo. Eles trazem valor para esses projetos compartilhando seu conhecimento e código. Mas, muitos desenvolvedores saem desses projetos cedo. Se a gente conseguir prever quais desenvolvedores têm mais chances de se tornarem LTCs, os mantenedores dos projetos podem dar a eles recursos e orientações desde o começo, o que pode ajudar a melhorar a retenção.

Os desenvolvedores costumam entrar em projetos de código aberto para aprender e aprimorar suas habilidades, principalmente em linguagens de programação. As habilidades que eles desenvolvem podem influenciar se continuarão ou não se envolvendo com esses projetos. Ao mapear as habilidades em linguagens de programação dos desenvolvedores e entender como os projetos utilizam essas linguagens, podemos identificar quais desenvolvedores têm mais chances de se tornarem LTCs. Estudos anteriores geralmente focaram em outros aspectos e não consideraram as habilidades em linguagens de programação. Este trabalho visa preencher essa lacuna estudando Unidades de Conhecimento (KUs) na linguagem de programação Java para prever LTCs.

Compreendendo as Unidades de Conhecimento (KUs)

KUs representam as principais capacidades disponíveis nas linguagens de programação. Em Java, isso inclui construções básicas e recursos específicos oferecidos por suas APIs, como criação de threads para concorrência. Cada KU é um grupo de habilidades relacionadas que os desenvolvedores podem usar para construir suas aplicações. Analisando o engajamento dos desenvolvedores com essas KUs, conseguimos obter insights sobre sua expertise e prever suas contribuições para projetos de código aberto.

Metodologia de Pesquisa

Coleta de Dados

Para conduzir este estudo, selecionamos 75 projetos ativos de Java no GitHub que tinham um número significativo de seguidores. Focamos em coletar dados de commits e informações de pull requests desses projetos.

O primeiro passo foi reunir dados sobre os desenvolvedores que contribuíram para esses projetos. Ligamos cuidadosamente os detalhes das contas deles no GitHub com os nomes usados em seus commits para manter a precisão. Esse passo garantiu que considerássemos apenas desenvolvedores com engajamento verificável nos projetos estudados.

Definindo Contribuintes de Longo Prazo

Um desenvolvedor é classificado como LTC se ele commit um volume substancial de código e continua engajado com um projeto ao longo do tempo. Para este estudo, analisamos as atividades dos desenvolvedores em diferentes períodos: 1 ano, 2 anos e 3 anos.

Engenharia de Características

Criamos um modelo de previsão chamado KULTC que usa características baseadas em KUs em cinco dimensões diferentes. Essas dimensões incluem:

Expertise do Desenvolvedor nos Projetos Estudados: Refere-se às habilidades que os desenvolvedores mostram nos primeiros dias de suas contribuições para os projetos estudados.
Expertise do Desenvolvedor em Projetos Anteriores: Isso leva em conta as habilidades que os desenvolvedores adquiriram em outros projetos antes de se juntarem aos estudados.
Expertise dos Colaboradores em Projetos Estudados: Captura as habilidades dos colaboradores dos desenvolvedores nos mesmos projetos, destacando o impacto de trabalhar ao lado de desenvolvedores experientes.
Características dos Projetos Estudados: Essa dimensão descreve os atributos dos projetos quando novos desenvolvedores entram, ilustrando sua compatibilidade com os interesses dos desenvolvedores.
Características de Projetos Anteriores: Reflete os projetos anteriores dos desenvolvedores e como eles se relacionam com as habilidades necessárias nos projetos estudados.

Construindo o Modelo

Usamos o algoritmo de floresta aleatória para criar o modelo KULTC com base nas características coletadas ao longo da nossa pesquisa. Essa abordagem de aprendizado de máquina é conhecida por sua eficácia em tarefas de classificação. Avaliamos a capacidade do modelo de prever LTCs usando uma medição conhecida como Área sob a Curva (AUC), com uma pontuação mais alta indicando melhor desempenho preditivo.

Principais Descobertas

Desempenho do Modelo KULTC

O modelo KULTC conseguiu atingir uma AUC mediana de pelo menos 0.75, indicando forte desempenho preditivo. Quando comparado a modelos existentes, o KULTC superou eles, especialmente em prever LTCs nos primeiros dois anos de contribuição dos projetos.

Importância da Expertise do Desenvolvedor

A análise mostrou que o nível de habilidade dos desenvolvedores no primeiro mês de engajamento em um projeto é o fator mais crucial para determinar se eles se tornariam LTCs. A demonstração precoce de expertise em linguagens de programação fez uma diferença significativa na probabilidade de continuarem contribuindo.

Combinando Características para Melhorar a Predição

Combinar as características do KULTC com as de outros modelos produziu um modelo preditivo ainda mais forte chamado KULTC+BAOLTC. Esse modelo combinado melhorou ainda mais as previsões em várias configurações, alcançando uma melhoria na AUC de até 16,5% em alguns casos.

Desenvolvimento de Modelo Custo-Efetivo

Criar modelos com uma ampla gama de características pode ser intensivo em recursos. Para resolver isso, desenvolvemos um modelo mais custo-efetivo, KULTCDEVEXP+BAOLTC, que foca em uma única dimensão de características enquanto ainda supera modelos anteriores. Essa abordagem simplifica o processo de engenharia de características e reduz as cargas operacionais, mantendo boa capacidade preditiva.

Conclusão

Este estudo demonstra a eficácia de usar KUs em linguagens de programação para prever contribuintes de longo prazo em projetos de código aberto. As descobertas destacam a importância das habilidades e expertise dos desenvolvedores em linguagens de programação, oferecendo insights valiosos para os mantenedores de projetos. Ao identificar potenciais LTCs cedo em seu engajamento, os projetos podem tomar medidas proativas para apoiar seu crescimento e retenção.

Pesquisas futuras devem buscar expandir o uso de KUs em outras linguagens de programação e explorar características adicionais que poderiam melhorar as previsões do modelo. Essa abordagem pode ajudar a melhorar a sustentabilidade dos projetos de código aberto e apoiar melhor a comunidade de desenvolvedores.

Previsão de Contribuidores de Longo Prazo em Código Aberto

Pesquisas identificam os fatores principais que influenciam a retenção de desenvolvedores em projetos de código aberto.

#Compreendendo as Unidades de Conhecimento (KUs)

#Metodologia de Pesquisa

#Coleta de Dados

#Definindo Contribuintes de Longo Prazo

#Engenharia de Características

#Construindo o Modelo

#Principais Descobertas

#Desempenho do Modelo KULTC

#Importância da Expertise do Desenvolvedor

#Combinando Características para Melhorar a Predição

#Desenvolvimento de Modelo Custo-Efetivo

#Conclusão

Ligações de referência

Tópicos referenciados