Abordando o desbalanceamento de dados na regressão de gráficos
Um novo framework semi-supervisionado melhora as previsões para propriedades de grafos sub-representadas.
― 7 min ler
Índice
Prever as propriedades de grafos, como as de moléculas e polímeros, se tornou uma área bem importante em campos como descoberta de medicamentos e design de materiais. Essas propriedades, que incluem coisas como densidade e temperatura de fusão, podem ter vários valores contínuos. Tarefas de regressão de grafos são cruciais nesse contexto, mas trazem desafios. Muitas vezes, os dados que a gente usa estão desequilibrados, ou seja, tem muitos exemplos para alguns valores de propriedade, mas pouquíssimos para outros.
Esse problema fica ainda mais claro quando pensamos no esforço pra reunir dados rotulados. Por exemplo, criar conjuntos de dados para propriedades de moléculas e polímeros requer experimentos e simulações que custam caro. Como resultado, os conjuntos de dados existentes costumam ser pequenos e muito inclinados para os valores de propriedade mais comuns. Essa situação é um desafio, especialmente quando tentamos prever propriedades que não estão bem representadas nos dados rotulados disponíveis.
Pra enfrentar essa questão, a gente apresenta uma abordagem semi-supervisionada que visa equilibrar os dados de treino e reduzir o viés do modelo, especialmente pra aqueles valores de propriedade menos representados. Nossa estrutura integra dois métodos principais: rotulagem pseudo e Aumento de Dados.
Entendendo o Problema
O desafio da desproporção de dados nas tarefas de regressão de grafos não é novo. As abordagens tradicionais geralmente se concentraram em propriedades categóricas e tarefas de classificação, deixando as tarefas de regressão um pouco de lado. No mundo real, os dados de grafos rotulados disponíveis costumam ser limitados. Coletar esses dados pode ser demorado e caro. Por exemplo, levou décadas pra juntar um número limitado de pontos de dados experimentais pra certas propriedades de polímeros.
Por outro lado, geralmente há um grande número de grafos não rotulados disponíveis. Esses exemplos não rotulados podem ser valiosos se conseguirmos aproveitá-los de forma eficaz pra melhorar nossas previsões sobre propriedades que são menos frequentemente representadas nos dados rotulados.
Estrutura Proposta
Pra lidar com os desafios trazidos pelos dados rotulados desequilibrados nas tarefas de regressão de grafos, propomos uma estrutura chamada SGIR, que significa Regressão Gráfica Imbalance Semi-supervisionada. A estrutura SGIR funciona aprimorando tanto o processo de aprendizado do modelo quanto a geração de dados de treino equilibrados.
Componentes-chave do SGIR
Estrutura de Auto-treinamento: O SGIR usa um método de auto-treinamento que permite que o modelo melhore de forma iterativa. Usando dados rotulados e não rotulados, o modelo pode gerar previsões mais confiáveis ao longo do tempo.
Confiança na Regressão: Pra garantir que os rótulos gerados para os dados não rotulados sejam de alta qualidade, definimos uma pontuação que mede a confiança das previsões de regressão. Essa pontuação ajuda a selecionar os melhores exemplos para o treinamento.
Amostragem Reversa: Pra enfrentar o problema do desequilíbrio diretamente, utilizamos a amostragem reversa. Esse método adiciona seletivamente mais exemplos não rotulados previstos nas faixas menos representadas, ajudando a equilibrar a distribuição dos dados de treino.
Mixup Ancorado em Rótulo: Essa técnica inovadora gera novos exemplos de grafos combinando pontos de dados rotulados existentes com pontos virtuais baseados em rótulos sub-representados.
Operações do SGIR
A operação do SGIR é baseada em um ciclo de treinamento e aumento de dados. Inicialmente, um modelo básico é treinado com os dados rotulados disponíveis. O modelo treinado é então usado pra fazer previsões em grafos não rotulados, gerando efetivamente pseudo-rótulos.
Gerando Pseudo-Rótulos
O primeiro passo no SGIR envolve gerar pseudo-rótulos a partir dos dados não rotulados. Aqui, focamos em exemplos onde temos um alto nível de confiança sobre as previsões. Pra quantificar essa confiança, observamos a consistência dos valores previstos em várias condições ou subgrafos dos dados originais. Essa consistência ajuda a filtrar previsões de baixa qualidade que podem introduzir ruído no processo de treinamento.
Depois de filtrar os pseudo-rótulos usando nossas medições de confiança, aplicamos a amostragem reversa pra priorizar os intervalos de rótulos menos representados. Isso garante que coletamos mais exemplos que podem ajudar a equilibrar a distribuição do treinamento.
Aumentando Dados
Com pseudo-rótulos de qualidade em mãos, o próximo passo é aumentar os dados usando o método mixup ancorado em rótulo. Essa técnica gera novas representações de grafos combinando pontos de dados do conjunto rotulado com pontos virtuais ancorados em valores específicos nas regiões sub-representadas. Ao fazer a média das representações dos grafos existentes e introduzir algumas novas variações, conseguimos criar novos exemplos que melhoram os dados de treinamento.
Melhoria Iterativa
Uma das ideias centrais por trás do SGIR é que o processo de aprendizado do modelo e a geração de dados de treinamento equilibrados se reforçam mutuamente. À medida que o modelo se torna menos tendencioso com dados de treinamento aprimorados, ele melhora ainda mais a qualidade dos pseudo-rótulos gerados nas iterações subsequentes.
Cada vez que o modelo é treinado com dados atualizados, notamos melhorias na precisão das previsões, especialmente nas faixas de rótulos menos representadas. Ao longo de várias iterações, o SGIR reduz gradualmente o viés do modelo e melhora o desempenho geral.
Validação Experimental
Realizamos uma série de experimentos pra avaliar a eficácia do SGIR em várias tarefas de regressão de grafos. Os resultados mostraram melhorias significativas na precisão das previsões em comparação com métodos existentes, especialmente para propriedades que estavam inicialmente sub-representadas.
Desempenho em Tarefas de Regressão de Grafos
Nos nossos experimentos, o SGIR foi testado em diferentes conjuntos de dados relacionados a moléculas e polímeros, além de outras aplicações como previsão de idade a partir de imagens. A estrutura consistently se saiu melhor do que métodos básicos, independentemente da faixa de rótulos avaliada.
Por exemplo, em um dos conjuntos de dados menores, o SGIR reduziu significativamente o erro médio de previsão, demonstrando seu potencial pra equilibrar efetivamente os dados de treinamento e melhorar o desempenho do modelo, especialmente em áreas de rótulos menos populadas.
Estudos de Ablation
Pra entender melhor as contribuições de diferentes componentes do SGIR, realizamos vários estudos de ablação. Esses estudos revelaram que cada aspecto-chave-confiança na regressão, amostragem reversa e mixup ancorado em rótulo-teve um papel vital no desempenho geral da estrutura.
Os resultados sugeriram que, quando combinamos esses elementos de forma estratégica, as melhorias na precisão do modelo foram substanciais. O processo de auto-treinamento iterativo se mostrou benéfico, pois permitiu que o modelo se tornasse mais eficaz enquanto abordava simultaneamente o desequilíbrio no conjunto de dados.
Conclusão
A estrutura SGIR representa um avanço significativo ao enfrentar os desafios trazidos por dados desequilibrados em tarefas de regressão de grafos. Ao empregar uma abordagem de aprendizado semi-supervisionado que foca na rotulagem de pseudo alta qualidade e no aumento de dados, essa estrutura oferece uma solução promissora pra melhorar a previsão de propriedades em moléculas e polímeros.
A validação empírica em várias tarefas indica que o SGIR tem o potencial de preencher as lacunas nos métodos existentes, tornando-se uma ferramenta valiosa para pesquisadores e profissionais que trabalham em áreas que dependem de previsões precisas de propriedades de grafos.
O trabalho futuro vai explorar conjuntos de dados ainda mais amplos e continuar a refinar os métodos pra garantir um desempenho melhor em cenários mais complexos. A promessa do SGIR está na sua capacidade de se adaptar e melhorar à medida que novos dados se tornam disponíveis, levando a previsões mais precisas e confiáveis em vários domínios.
Título: Semi-Supervised Graph Imbalanced Regression
Resumo: Data imbalance is easily found in annotated data when the observations of certain continuous label values are difficult to collect for regression tasks. When they come to molecule and polymer property predictions, the annotated graph datasets are often small because labeling them requires expensive equipment and effort. To address the lack of examples of rare label values in graph regression tasks, we propose a semi-supervised framework to progressively balance training data and reduce model bias via self-training. The training data balance is achieved by (1) pseudo-labeling more graphs for under-represented labels with a novel regression confidence measurement and (2) augmenting graph examples in latent space for remaining rare labels after data balancing with pseudo-labels. The former is to identify quality examples from unlabeled data whose labels are confidently predicted and sample a subset of them with a reverse distribution from the imbalanced annotated data. The latter collaborates with the former to target a perfect balance using a novel label-anchored mixup algorithm. We perform experiments in seven regression tasks on graph datasets. Results demonstrate that the proposed framework significantly reduces the error of predicted graph properties, especially in under-represented label areas.
Autores: Gang Liu, Tong Zhao, Eric Inae, Tengfei Luo, Meng Jiang
Última atualização: 2023-05-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.12087
Fonte PDF: https://arxiv.org/pdf/2305.12087
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.