Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Computação Neural e Evolutiva

Avanços na Seleção de Conjuntos em Aprendizado de Máquina Automatizado

Novos métodos melhoram o desempenho de conjuntos em aprendizado de máquina automatizado.

― 7 min ler


Avanço na Seleção deAvanço na Seleção deConjuntos AutoMLe a diversidade do modelo.Novas abordagens melhoram o desempenho
Índice

A aprendizagem de máquina automatizada (AutoML) virou uma ferramenta importante no mundo da ciência de dados. Ela permite que usuários, mesmo os que não manjam muito de aprendizado de máquina, criem modelos que conseguem fazer previsões com base em dados. Uma abordagem comum no AutoML é o uso de ensembles, que juntam vários modelos para melhorar a performance geral. Este artigo explora um jeito novo de criar esses ensembles que pode trazer resultados melhores.

O que é AutoML?

AutoML se refere a métodos e ferramentas que automatizam o processo de aplicar aprendizado de máquina a problemas do mundo real. Normalmente, desenvolver um modelo de aprendizado de máquina envolve selecionar os algoritmos certos, ajustar parâmetros e validar resultados. O AutoML simplifica isso automatizando muitos desses passos. Os usuários podem fornecer dados, e o sistema AutoML cuida do resto, produzindo um modelo que consegue fazer previsões.

O Papel dos Ensembles no AutoML

Quando os sistemas AutoML criam modelos, eles normalmente incluem ensembles. Um ensemble é um grupo de modelos que trabalham juntos para fazer previsões. A ideia é que, ao juntar as forças de diferentes modelos, o ensemble consegue ter um Desempenho melhor do que qualquer modelo individual.

Os métodos de ensemble geralmente passam por três passos principais:

  1. Geração: O sistema AutoML cria vários modelos base usando diferentes algoritmos e configurações.
  2. Seleção: Um subconjunto desses modelos é escolhido com base no desempenho deles. Essa etapa geralmente seleciona os modelos com melhor desempenho.
  3. Agregação: As previsões dos modelos selecionados são combinadas para criar uma previsão final.

Métodos Tradicionais para Seleção de Ensembles

O método mais comum para selecionar modelos em um ensemble é a seleção gananciosa de ensembles (GES). Nesse método, o sistema analisa o desempenho dos modelos um de cada vez, adicionando o modelo que teve o melhor desempenho ao ensemble. Embora o GES seja direto e eficaz, ele pode não sempre entregar o melhor resultado possível.

O principal problema do GES é que ele pode ficar preso em ótimos locais, ou seja, pode perder combinações melhores de modelos porque foca só em melhorias imediatas. Ao considerar apenas a melhor opção em cada etapa, o GES pode ignorar os benefícios de um conjunto de modelos mais diverso.

Introduzindo Novos Métodos

Para lidar com as limitações do GES, foram desenvolvidos dois novos métodos chamados QO-ES (Seleção de Ensemble de Otimização de Qualidade) e QDO-ES (Seleção de Ensemble de Otimização de Diversidade e Qualidade). Esses métodos visam melhorar a seleção de ensembles ao ter uma visão mais ampla do desempenho e da diversidade dos modelos.

QO-ES: Seleção de Ensemble de Otimização de Qualidade

O QO-ES foca apenas em melhorar o desempenho preditivo do ensemble. Ele mantém uma população de ensembles e os refina continuamente com base no desempenho deles. Em vez de só selecionar os melhores modelos, o QO-ES considera combinações de modelos que funcionam bem juntos.

QDO-ES: Seleção de Ensemble de Otimização de Diversidade e Qualidade

O QDO-ES vai um passo além ao incorporar o conceito de diversidade no processo de seleção. Isso significa que, enquanto busca um bom desempenho, ele também garante que os modelos no ensemble façam previsões diferentes. Ao promover diversidade entre os modelos selecionados, o QDO-ES consegue criar ensembles mais resilientes e eficazes em várias situações.

Benefícios da Diversidade nos Ensembles

A ideia por trás de usar modelos diversos em um ensemble é que diferentes modelos podem se destacar em áreas diferentes. Por exemplo, um modelo pode ser bom em identificar certos padrões nos dados enquanto outro se dá melhor em um contexto diferente. Quando esses modelos se juntam, o ensemble consegue aproveitar seus pontos fortes e reduzir as fraquezas.

Mas tem que achar um equilíbrio. Embora a diversidade possa melhorar o desempenho, diversidade demais pode levar ao overfitting, onde o ensemble se sai bem nos dados de treino, mas mal em dados não vistos.

Otimização de Diversidade de Qualidade

A otimização de diversidade de qualidade (QDO) é uma tendência recente que foca em equilibrar desempenho e diversidade. Em vez de tentar maximizar um em detrimento do outro, o QDO busca manter uma coleção de soluções diversas que ainda se saem bem. No contexto da seleção de ensembles, isso significa encontrar combinações de modelos que não só preveem com precisão, mas também diferem nas suas previsões.

O Experimento

Para avaliar o desempenho do QO-ES e QDO-ES, foram realizados experimentos usando 71 Conjuntos de dados de classificação. Os novos métodos foram comparados com a abordagem tradicional GES para ver como se saíram.

Configuração Experimental

  1. Geração de Modelos Base: Os modelos base foram gerados usando um sistema AutoML chamado Auto-Sklearn. Esse sistema cria uma variedade de modelos com diferentes configurações.
  2. Avaliação de Desempenho: Os métodos foram avaliados com base na capacidade de gerar previsões precisas, medidas pelo ROC AUC e acurácia balanceada.

Resultados

Os experimentos mostraram que tanto o QO-ES quanto o QDO-ES geralmente superaram o GES. Embora as diferenças tenham sido estatisticamente significativas, especialmente nos dados de validação, nem sempre foram tão fortes nos dados de teste.

Desempenho em Diferentes Conjuntos de Dados

A análise revelou que o QDO-ES geralmente teve um desempenho melhor que o QO-ES. Os resultados sugerem que, enquanto a diversidade contribui para a eficácia do ensemble, ela traz um risco de overfitting, o que pode impactar negativamente o desempenho em dados não vistos.

Conclusão e Trabalho Futuro

Resumindo, a introdução do QO-ES e QDO-ES apresenta alternativas promissoras para métodos tradicionais de seleção de ensembles como o GES. Esses novos métodos têm o potencial de melhorar o desempenho dos ensembles levando em conta não apenas a precisão dos modelos, mas também sua diversidade.

Trabalhos futuros nessa área podem envolver explorar esses métodos ainda mais em diferentes sistemas e conjuntos de dados de AutoML. Melhorias na compreensão de como equilibrar diversidade e desempenho podem levar a métodos de ensemble ainda melhores que proporcionem previsões mais confiáveis em uma gama maior de cenários.

O desenvolvimento e a comparação de métodos de seleção de ensembles continuarão a desempenhar um papel crucial na evolução do AutoML, moldando como aplicamos aprendizado de máquina para resolver problemas complexos em várias áreas.

Implicações para Usuários

Para os usuários de sistemas AutoML, o avanço dos métodos de seleção de ensembles significa melhores ferramentas à disposição. Eles podem esperar um desempenho preditivo aprimorado dos modelos gerados, o que pode se traduzir em insights e decisões mais precisas.

À medida que esses métodos se tornam mais refinados e compreendidos, o futuro do AutoML parece mais promissor. Os usuários poderão aproveitar o poder de ensembles diversos para enfrentar desafios cada vez mais complexos com confiança.

Considerações Finais

Os resultados desta pesquisa ressaltam a importância de considerar a diversidade dos modelos no aprendizado em ensemble. Eles destacam uma mudança de pensamento na comunidade de AutoML em direção a abordagens mais sutis que priorizam não apenas o desempenho, mas também as contribuições únicas de cada modelo dentro de um ensemble.

Conforme o AutoML continua a crescer em popularidade, essas percepções ajudarão a guiar desenvolvimentos futuros e a melhorar as ferramentas disponíveis para cientistas de dados e outros usuários. Ao abraçar tanto a qualidade quanto a diversidade, o campo pode desbloquear novos potenciais em modelagem preditiva e tomada de decisões.

Fonte original

Título: Q(D)O-ES: Population-based Quality (Diversity) Optimisation for Post Hoc Ensemble Selection in AutoML

Resumo: Automated machine learning (AutoML) systems commonly ensemble models post hoc to improve predictive performance, typically via greedy ensemble selection (GES). However, we believe that GES may not always be optimal, as it performs a simple deterministic greedy search. In this work, we introduce two novel population-based ensemble selection methods, QO-ES and QDO-ES, and compare them to GES. While QO-ES optimises solely for predictive performance, QDO-ES also considers the diversity of ensembles within the population, maintaining a diverse set of well-performing ensembles during optimisation based on ideas of quality diversity optimisation. The methods are evaluated using 71 classification datasets from the AutoML benchmark, demonstrating that QO-ES and QDO-ES often outrank GES, albeit only statistically significant on validation data. Our results further suggest that diversity can be beneficial for post hoc ensembling but also increases the risk of overfitting.

Autores: Lennart Purucker, Lennart Schneider, Marie Anastacio, Joeran Beel, Bernd Bischl, Holger Hoos

Última atualização: 2023-08-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.08364

Fonte PDF: https://arxiv.org/pdf/2307.08364

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes