Desafios na Classificação de Requisitos com Grandes Taxonomias
Explorando métodos para uma classificação multi-label eficaz no desenvolvimento de software.
― 6 min ler
Índice
Classificar requisitos é importante no desenvolvimento de software. Ajuda a organizar e gerenciar informações. Tradicionalmente, as pesquisas se concentraram em classificar requisitos em duas categorias: binária (sim/não) ou multi-classe (uma opção entre muitas). No entanto, muitos requisitos precisam estar ligados a mais de uma categoria, tornando a classificação Multi-label valiosa. Este artigo explora os desafios de classificar requisitos com grandes Taxonomias.
O Desafio
No domínio da infraestrutura e construção, as taxonomias ajudam a estruturar informações e ligar objetos digitais a contrapartes do mundo real. Uma taxonomia é um conjunto de termos e categorias projetados para classificar informações. O desafio surge quando essas taxonomias são grandes, com centenas ou milhares de categorias. Classificar muitos requisitos manualmente não é prático, então precisamos de um método mais eficiente para ajudar nesse processo.
Aprendizado supervisionado, um método onde máquinas aprendem a partir de exemplos rotulados, pode ser caro e demorado, pois geralmente exige uma grande quantidade de dados rotulados. No domínio da construção, pode ser difícil e caro coletar exemplos rotulados suficientes, especialmente quando cada classificação pode ter muitas etiquetas.
Explorando Novos Métodos
Para superar esses desafios, estamos analisando o aprendizado zero-shot. Essa abordagem permite que um sistema preveja etiquetas que nunca viu antes, aproveitando o conhecimento de outras tarefas. Isso significa que podemos usar modelos pré-treinados para classificar requisitos com base no seu conteúdo textual, sem conjuntos de dados rotulados extensos. Ao testar a viabilidade para a classificação de requisitos multi-label, nosso objetivo é ver se esse método pode simplificar o processo.
Escopo do Estudo
Na nossa pesquisa, examinamos 129 requisitos e os ligamos a 769 etiquetas de taxonomias, que têm entre 250 e 1183 classes. Fizemos um experimento para entender como diferentes Classificadores afetaram o desempenho da classificação, especialmente considerando as características estruturais das taxonomias.
Principais Descobertas
Comparação de Classificadores: Nosso estudo descobriu que um classificador baseado em frases teve um desempenho melhor em termos de recall em comparação com um classificador baseado em palavras. Recall mede quantos itens relevantes são capturados, sugerindo que olhar para o contexto das frases ajuda a melhorar a classificação.
Uso da Hierarquia: Usar uma abordagem hierárquica nem sempre melhorou a classificação. O desempenho do classificador variou com base na estrutura da taxonomia. Curiosamente, ter muitos nós totais e folhas afetou negativamente o recall, indicando que muitas opções podem levar à confusão.
Criando uma Verdade de Referência
Para avaliar o desempenho dos nossos métodos de classificação, precisávamos de uma verdade de referência válida, ou seja, um conjunto confiável de requisitos rotulados com precisão de acordo com a taxonomia. Isso envolveu colaboração com especialistas da indústria, garantindo que as etiquetas atribuídas fossem corretas e significativas.
Montar a verdade de referência foi um processo estruturado envolvendo várias rodadas de anotação, curadoria e construção de consenso entre equipes com experiência na área. Esse esforço levou à criação sistemática das 769 etiquetas.
Processo de Classificação
Classificador Baseado em Palavras
O classificador baseado em palavras se concentrou em identificar substantivos dentro do texto dos requisitos. Usou técnicas para extrair e analisar substantivos, buscando correspondências na taxonomia. No entanto, classificar substantivos individualmente limitou a compreensão geral dos requisitos. O classificador utilizou preditores para classificar a relevância dos substantivos identificados em relação às classes da taxonomia, resultando em classificações apenas com base nesses substantivos.
Classificador Baseado em Frases
O classificador baseado em frases adotou uma abordagem mais holística, analisando o texto inteiro em vez de apenas extrair substantivos. Esse método permitiu considerar o contexto, que é crucial quando palavras têm múltiplos significados. Por meio de técnicas como Análise Semântica Explícita, o classificador gerou uma representação do requisito, comparando-a com a taxonomia.
Design do Experimento
Desenhamos um experimento com diferentes fatores para comparar os classificadores e o impacto da estrutura da taxonomia. O estudo visava determinar como os tipos de classificadores, classificação hierárquica versus plana, e características da taxonomia influenciaram o desempenho.
Análise dos Resultados
Após a realização do experimento, analisamos as métricas de desempenho, incluindo recall, precisão e F1-score. O recall foi significativamente maior para o classificador baseado em frases, o que sugere que ele é melhor em encontrar categorias relevantes para os requisitos. A estrutura hierárquica não proporcionou melhorias consistentes no desempenho, indicando que mais pesquisas são necessárias para entender a relação entre o design da taxonomia e o sucesso da classificação.
Implicações para a Prática
A capacidade de classificar requisitos efetivamente usando taxonomias pode agilizar vários processos em engenharia de software. Uma classificação eficiente pode ajudar com rastreabilidade, conformidade e alocação de recursos. Adotar o aprendizado zero-shot oferece uma forma econômica de classificar requisitos sem excessiva rotulagem de dados.
Preocupações com a Validade
Em qualquer pesquisa, existem ameaças à validade, incluindo quão generalizáveis são os achados em diferentes domínios. Embora nosso estudo tenha se concentrado na construção, os resultados podem não se aplicar diretamente a outras áreas. Além disso, o número limitado de requisitos amostrados pode afetar o quão amplamente podemos aplicar esses resultados.
Conclusão
Nosso estudo fornece uma visão abrangente sobre os desafios e possibilidades da classificação de requisitos multi-label usando grandes taxonomias. Aprendemos que, embora classificadores baseados em frases possam oferecer desempenho melhorado, ainda existem limitações que precisam ser abordadas. Trabalhos futuros se concentrarão em refinar essas técnicas para melhorar a precisão e a precisão geral da classificação.
Por meio de pesquisas contínuas nessa área, esperamos abrir caminho para sistemas mais eficazes na gestão de requisitos, oferecendo um equilíbrio entre flexibilidade e precisão nas tarefas de classificação.
Título: Multi-Label Requirements Classification with Large Taxonomies
Resumo: Classification aids software development activities by organizing requirements in classes for easier access and retrieval. The majority of requirements classification research has, so far, focused on binary or multi-class classification. Multi-label classification with large taxonomies could aid requirements traceability but is prohibitively costly with supervised training. Hence, we investigate zero-short learning to evaluate the feasibility of multi-label requirements classification with large taxonomies. We associated, together with domain experts from the industry, 129 requirements with 769 labels from taxonomies ranging between 250 and 1183 classes. Then, we conducted a controlled experiment to study the impact of the type of classifier, the hierarchy, and the structural characteristics of taxonomies on the classification performance. The results show that: (1) The sentence-based classifier had a significantly higher recall compared to the word-based classifier; however, the precision and F1-score did not improve significantly. (2) The hierarchical classification strategy did not always improve the performance of requirements classification. (3) The total and leaf nodes of the taxonomies have a strong negative correlation with the recall of the hierarchical sentence-based classifier. We investigate the problem of multi-label requirements classification with large taxonomies, illustrate a systematic process to create a ground truth involving industry participants, and provide an analysis of different classification pipelines using zero-shot learning.
Autores: Waleed Abdeen, Michael Unterkalmsteiner, Krzysztof Wnuk, Alexandros Chirtoglou, Christoph Schimanski, Heja Goli
Última atualização: 2024-06-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.04797
Fonte PDF: https://arxiv.org/pdf/2406.04797
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.