Abordando a Pós-Seleção na Pesquisa em Aprendizado Profundo
Examinando o impacto da Pós-Seleção na avaliação de modelos em aprendizado profundo.
― 6 min ler
Índice
Deep Learning é um método usado em ciência da computação pra criar modelos que conseguem aprender a partir de dados. Apesar de ter mostrado muito sucesso, tem sérias preocupações sobre a forma como alguns estudos apresentam resultados. Um dos problemas principais é conhecido como "Seleção Pós-Escolha". Isso se refere à prática de selecionar os modelos que se saíram melhor de um grupo com base na performance em um conjunto de validação. Quando os autores focam apenas nos melhores resultados, isso pode dar uma impressão errada de quão bem o modelo vai se sair em dados novos e desconhecidos.
O que é Seleção Pós-Escolha?
Seleção Pós-Escolha acontece quando pesquisadores treinam vários modelos e depois escolhem relatar apenas aqueles que tiveram o melhor desempenho no conjunto de validação. Isso pode parecer razoável a princípio, mas pode levar a uma falta de transparência e confiabilidade. Existem dois tipos principais de má conduta relacionados a essa prática:
Trapaceando na Ausência de um Teste: Em muitos casos, os dados de teste podem ser acessados pelos pesquisadores, permitindo que eles os usem pra melhorar seus modelos. No entanto, os dados de teste deveriam ser mantidos separados, pra que os modelos possam ser avaliados de forma justa.
Escondendo Desempenho Ruim: Os pesquisadores muitas vezes não relatam o desempenho de modelos que não foram bem, distorcendo a percepção de quão eficaz o método é.
Erros
O Papel dosQuando se avaliam modelos, é essencial considerar os erros que eles cometem. Esses erros não devem refletir apenas os modelos que tiveram o melhor desempenho, mas também incluir erros médios entre todos os modelos. Relatar apenas o modelo de melhor desempenho pode inflar expectativas e representar mal as capacidades do modelo.
Novas Abordagens para Avaliação de Modelos
Existem métodos de avaliação que podem fornecer uma imagem mais precisa do desempenho dos modelos. Uma abordagem é usar Validação Cruzada Geral. Esse método envolve avaliar modelos não só pela performance com pesos iniciais gerados aleatoriamente, mas também com parâmetros ajustados manualmente.
Validação Cruzada Geral: Isso avalia a performance média de todos os modelos, em vez de apenas o melhor. Exige relatar uma gama mais ampla de métricas de desempenho, incluindo erros médios e rankings percentuais de desempenho específicos.
Validação Cruzada Tradicional: Essa é uma técnica amplamente usada que busca garantir que os modelos não estão se ajustando demais aos dados de treinamento. Porém, ainda pode falhar se os modelos forem escolhidos com base na seleção pós-escolha.
Validação Cruzada Aninhada: Essa é uma abordagem mais complexa que tenta envolver múltiplas validações dentro de cada ciclo de treinamento de modelo. No entanto, apesar de sua complexidade, não resolve efetivamente os problemas subjacentes da seleção pós-escolha.
Implicações da Má Conduta em Deep Learning
A prática de Seleção Pós-Escolha pode ter implicações de longo alcance além de preocupações técnicas. Quando os pesquisadores buscam apenas os modelos mais sortudos e ignoram os modelos menos bem-sucedidos, eles estão essencialmente distorcendo os resultados. Isso pode levar a decisões ruins em áreas como saúde, finanças e tecnologia, onde os custos do fracasso podem ser significativos.
Exemplos Práticos de Má Conduta
Pra ilustrar os problemas da Seleção Pós-Escolha, considere a evolução de certos modelos de IA bem-sucedidos. Durante competições, como as do jogo Go, os pesquisadores podem ter confiado em relatórios seletivos das performances de seus algoritmos. Em muitos casos, o mesmo modelo foi ajustado e modificado pra se encaixar nos dados que testou, distorcendo assim a visão geral de seu desempenho.
Muitas publicações na comunidade de deep learning também enfrentaram críticas por não separar adequadamente seus dados de validação e teste. Ao falhar em manter a integridade de seus resultados, eles podem, sem querer, enganar futuros pesquisadores e profissionais.
A Necessidade de Melhores Práticas de Relato
É essencial que os autores na área de deep learning adotem melhores práticas de relato. Isso significa fornecer uma imagem mais completa das performances de seus modelos:
Relatar erros médios entre todos os modelos treinados em vez de apenas o melhor.
Incluir métricas específicas, como os erros para os 25% inferiores, a mediana e os 25% superiores.
Garantir que conjuntos de teste apropriados sejam usados e que não se sobreponham aos dados de treinamento ou validação.
Questões Sociais Conectadas à Má Conduta
As implicações dessas práticas também se estendem a questões sociais. Resultados enganosos em IA podem impactar sistemas sociais, decisões governamentais e até a segurança pública. Por exemplo, se um sistema de IA que prevê necessidades de saúde é baseado em dados tendenciosos ou mal representados, isso pode levar a consequências sérias para o cuidado do paciente.
A metodologia por trás da tomada de decisões em políticas públicas também pode sofrer. Por exemplo, se decisões políticas são baseadas em dados distorcidos de relatórios seletivos, isso pode afetar tudo, desde alocação de recursos até confiança pública.
Conclusão
Deep Learning é uma ferramenta poderosa, mas sua eficácia pode ser comprometida por práticas ruins em avaliação e relato de modelos. Ao abordar questões como Seleção Pós-Escolha e adotar uma abordagem mais transparente de como os modelos são avaliados, os pesquisadores podem ajudar a garantir que o desenvolvimento da IA permaneça confiável e impactante.
No geral, avançar em direção a metodologias melhores pode levar a aplicações de deep learning mais confiáveis e éticas em diversas áreas. Isso, por sua vez, pode fomentar maior inovação e progresso enquanto minimiza os riscos associados à má representação na pesquisa.
Título: Misconduct in Post-Selections and Deep Learning
Resumo: This is a theoretical paper on "Deep Learning" misconduct in particular and Post-Selection in general. As far as the author knows, the first peer-reviewed papers on Deep Learning misconduct are [32], [37], [36]. Regardless of learning modes, e.g., supervised, reinforcement, adversarial, and evolutional, almost all machine learning methods (except for a few methods that train a sole system) are rooted in the same misconduct -- cheating and hiding -- (1) cheating in the absence of a test and (2) hiding bad-looking data. It was reasoned in [32], [37], [36] that authors must report at least the average error of all trained networks, good and bad, on the validation set (called general cross-validation in this paper). Better, report also five percentage positions of ranked errors. From the new analysis here, we can see that the hidden culprit is Post-Selection. This is also true for Post-Selection on hand-tuned or searched hyperparameters, because they are random, depending on random observation data. Does cross-validation on data splits rescue Post-Selections from the Misconducts (1) and (2)? The new result here says: No. Specifically, this paper reveals that using cross-validation for data splits is insufficient to exonerate Post-Selections in machine learning. In general, Post-Selections of statistical learners based on their errors on the validation set are statistically invalid.
Autores: Juyang Weng
Última atualização: 2024-02-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.00773
Fonte PDF: https://arxiv.org/pdf/2403.00773
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.