Melhorando Classificadores para Dados Positivos Não Etiquetados
Aprimorando classificadores ingênuos pra prever dados positivos não rotulados de forma eficaz.
― 4 min ler
Índice
Em muitas situações, a gente tem dados onde alguns itens estão claramente rotulados como positivos ou negativos, enquanto outros não têm rótulo. Isso é conhecido como dados Positivos Não Rotulados (PU). O desafio é que queremos construir um classificador que preveja se itens não rotulados pertencem à classe positiva. A gente encontra esse cenário em áreas como medicina, onde temos pacientes diagnosticados e outros que ainda não foram diagnosticados, ou no comportamento online, onde sabemos alguns sites que o usuário gosta, mas não todos.
O que é um Classificador Ingênuo?
Um classificador ingênuo é um modelo básico que tenta prever categorias com base nos dados disponíveis. No nosso caso, usamos um modelo de Regressão Logística. A regressão logística é um método estatístico que nos ajuda a modelar a probabilidade de uma certa classe ou evento.
A Suposição SCAR
Para facilitar nosso trabalho, adotamos a suposição Selecionado Completamente Ao Acaso (SCAR). Isso significa que a seleção dos dados rotulados não depende das características dos itens. Em termos simples, os dados rotulados são uma seleção aleatória dos itens positivos, ajudando a evitar viés nas nossas previsões.
O Desafio com Classificadores Ingênuos
Quando aplicamos um classificador ingênuo a dados PU, muitas vezes assumimos que todos os itens não rotulados pertencem à classe negativa. Isso é um erro e pode levar a uma classificação ruim. O desempenho desses classificadores geralmente sofre, especialmente quando há poucos pontos de dados rotulados.
Melhorando o Classificador Ingênuo
Para melhorar o desempenho de um classificador ingênuo, sugerimos modificar a forma como estimamos seu intercepto. O intercepto é crucial porque ajusta a posição da fronteira de decisão que separa itens positivos de negativos.
Escolhendo o Intercepto
Em vez da abordagem ingênua, propomos selecionar o intercepto maximizando uma medida que considera tanto Precisão (quantos itens selecionados são relevantes) quanto recall (quantos itens relevantes são selecionados). Isso garante que estamos equilibrando nossas previsões de forma eficaz.
Aplicações do Mundo Real
Essa abordagem pode ser aplicada em vários cenários práticos. Por exemplo, na área da saúde, ao analisar dados de pacientes, alguns podem estar diagnosticados enquanto outros são desconhecidos. O classificador melhorado pode ajudar a prever quais pacientes desconhecidos provavelmente se enquadrarão na categoria positiva (por exemplo, os que estão doentes).
No campo da análise de comportamento online, esse modelo pode ajudar a determinar quais páginas um usuário pode achar interessantes com base no que ele já gostou ou marcou anteriormente.
Experimentos Numéricos
Para avaliar nosso método proposto, conduzimos vários experimentos numéricos. Comparamos o classificador ingênuo com vários modelos aprimorados, incluindo aqueles baseados nos métodos JOINT e MM. Esses modelos ajudam a aprender a partir de dados PU de forma mais eficaz, usando diferentes técnicas estatísticas.
Testes com Dados Sintéticos
Inicialmente, testamos esses modelos com um conjunto de dados sintético. Isso envolveu criar um conjunto de dados simples onde conseguimos controlar todas as variáveis. Ao examinar ângulos e medir quão precisos eram nossos classificadores, conseguimos ver como nosso método proposto se saiu em comparação com outros.
Testes com Dados Reais
Depois de testar com dados sintéticos, movemos para conjuntos de dados do mundo real. Analisamos seis conjuntos de dados diferentes, que variavam em tamanho e complexidade. Cada conjunto de dados incluía várias características, permitindo-nos ver quão bem nosso classificador poderia se adaptar a diferentes cenários.
Resultados dos Experimentos
Os resultados foram promissores. Descobrimos que o classificador ingênuo aprimorado consistentemente superou o classificador ingênuo tradicional em vários conjuntos de dados. Em muitos casos, ele também teve um desempenho comparável a classificadores mais complexos, que exigem mais poder computacional.
Métricas de Desempenho
Medimos o desempenho com base em duas métricas principais: medida F1 e Acurácia Balanceada. Ambas as métricas avaliam a eficácia dos classificadores considerando tanto precisão quanto recall.
Conclusão
Em conclusão, o classificador ingênuo aprimorado mostra grande promessa em lidar com dados PU sob a suposição SCAR. Ao focar em simplesmente ajustar o intercepto, conseguimos melhorar significativamente o desempenho de um classificador ingênuo. Esse método não só fornece uma ferramenta mais refinada para previsão, mas também abre caminhos para mais pesquisas em classificadores mais robustos para dados PU. Trabalhos futuros podem explorar diferentes métodos de estimativa para o intercepto, especialmente em cenários onde a suposição SCAR não se sustenta.
Título: Enhancing naive classifier for positive unlabeled data based on logistic regression approach
Resumo: We argue that for analysis of Positive Unlabeled (PU) data under Selected Completely At Random (SCAR) assumption it is fruitful to view the problem as fitting of misspecified model to the data. Namely, we show that the results on misspecified fit imply that in the case when posterior probability of the response is modelled by logistic regression, fitting the logistic regression to the observable PU data which {\it does not} follow this model, still yields the vector of estimated parameters approximately colinear with the true vector of parameters. This observation together with choosing the intercept of the classifier based on optimisation of analogue of F1 measure yields a classifier which performs on par or better than its competitors on several real data sets considered.
Autores: Mateusz Płatek, Jan Mielniczuk
Última atualização: 2023-06-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.02798
Fonte PDF: https://arxiv.org/pdf/2306.02798
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.