Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico

Affrontare l'Imbalance dei Dati nella Regressione su Grafi

Un nuovo framework semi-supervisionato migliora le previsioni per le proprietà dei grafi poco rappresentate.

― 6 leggere min


Bilanciamento dei dati diBilanciamento dei dati diregressione graficasbilanciati.i dati delle proprietà di grafiIl framework migliora le previsioni per
Indice

Predire le proprietà dei grafi, come quelle delle molecole e dei polimeri, è diventato un argomento importante in settori come la scoperta di farmaci e la progettazione di materiali. Queste proprietà, che includono fattori come densità e temperatura di fusione, possono assumere vari valori continui. I compiti di regressione dei grafi sono fondamentali in questo contesto, ma presentano delle sfide. Spesso, i dati su cui ci basiamo sono sbilanciati, il che significa che ci sono molti esempi per alcuni valori di proprietà ma pochissimi per altri.

Questo problema diventa ancora più chiaro se consideriamo l'impegno necessario per raccogliere dati etichettati. Ad esempio, creare dataset per le proprietà di molecole e polimeri richiede esperimenti e simulazioni costosi. Di conseguenza, i dataset esistenti tendono ad essere piccoli e fortemente distorti verso i valori di proprietà più comuni. Questa situazione rappresenta una sfida, soprattutto quando si cerca di prevedere proprietà che non sono ben rappresentate nei dati etichettati disponibili.

Per affrontare questo problema, presentiamo un approccio semi-supervisionato che mira a bilanciare i dati di addestramento e ridurre il bias del modello, in particolare per quei valori di proprietà meno rappresentati. Il nostro framework integra due metodi chiave: Pseudo-etichettatura e Aumento dei Dati.

Comprendere il Problema

La sfida dell’imbalance nei dati nei compiti di regressione dei grafi non è nuova. Gli approcci tradizionali si sono tipicamente concentrati su proprietà categoriali e compiti di classificazione, lasciando i compiti di regressione in parte inesplorati. Nel mondo reale, i dati grafici etichettati disponibili sono spesso limitati. Raccogliere tali dati può essere dispendioso in termini di tempo e costoso. Ad esempio, ci sono voluti decenni per raccogliere un numero limitato di punti dati sperimentali per alcune proprietà dei polimeri.

Dall'altra parte, ci sono spesso molteplici grafi non etichettati disponibili. Questi esempi non etichettati potrebbero essere preziosi se riusciamo a sfruttarli efficacemente per migliorare le nostre previsioni per proprietà che sono rappresentate meno frequentemente nei dati etichettati.

Framework Proposto

Per affrontare le sfide poste dai dati etichettati sbilanciati nei compiti di regressione dei grafi, proponiamo un framework chiamato SGIR, che sta per Semi-supervised Graph Imbalanced Regression. Il framework SGIR opera migliorando sia il processo di apprendimento del modello che la generazione di dati di addestramento bilanciati.

Componenti Chiave di SGIR

  1. Framework di Auto-Addestramento: SGIR impiega un metodo di auto-addestramento che consente al modello di migliorare in modo iterativo. Utilizzando sia dati etichettati che non etichettati, il modello può generare previsioni più affidabili nel tempo.

  2. Confidenza nella Regressione: Per garantire che le etichette generate per i dati non etichettati siano di alta qualità, definiamo un punteggio che misura la confidenza delle previsioni di regressione. Questo punteggio aiuta a selezionare i migliori esempi per l'addestramento.

  3. Campionamento inverso: Per affrontare direttamente il problema dell'imbalance, utilizziamo il campionamento inverso. Questo metodo aggiunge selettivamente più esempi non etichettati previsti nelle fasce meno rappresentate, aiutando a bilanciare la distribuzione dei dati di addestramento.

  4. Mixup Ancorato all’Etichetta: Questa tecnica innovativa genera nuovi esempi di grafi combinando dati etichettati esistenti con punti virtuali basati su etichette sotto-rappresentate.

Operazioni di SGIR

L'operazione di SGIR si basa su un ciclo di addestramento e aumento dei dati. Inizialmente, un modello di base viene addestrato sui dati etichettati disponibili. Il modello addestrato viene poi utilizzato per fare previsioni sui grafi non etichettati, generando efficacemente pseudo-etichettature.

Generazione di Pseudo-Etichettature

Il primo passo in SGIR consiste nel generare pseudo-etichettature dai dati non etichettati. Qui, ci concentriamo su esempi per i quali abbiamo un alto livello di fiducia sulle previsioni. Per quantificare questa fiducia, osserviamo la coerenza dei valori previsti in diverse condizioni o sub-grafi dei dati originali. Questa coerenza aiuta a filtrare le previsioni di bassa qualità che potrebbero introdurre rumore nel processo di addestramento.

Dopo aver filtrato le pseudo-etichettature utilizzando le nostre misurazioni di fiducia, applichiamo quindi il campionamento inverso per dare priorità alle fasce di etichetta meno rappresentate. Questo garantisce che raccogliamo più esempi che possano aiutare a bilanciare la distribuzione del training.

Aumento dei Dati

Con le pseudo-etichettature di qualità a disposizione, il passo successivo è aumentare i dati utilizzando il metodo di mixup ancorato all’etichetta. Questa tecnica genera nuove rappresentazioni di grafi combinando punti dati dal dataset etichettato con punti virtuali ancorati a valori specifici nelle regioni sotto-rappresentate. Mediando le rappresentazioni dei grafi esistenti e introducendo nuove variazioni, possiamo creare efficacemente nuovi esempi che arricchiscono i dati di addestramento.

Miglioramento Iterativo

Una delle idee fondamentali dietro SGIR è che il processo di apprendimento del modello e la generazione di dati di addestramento bilanciati si rinforzano reciprocamente. Man mano che il modello diventa meno distorto attraverso dati di addestramento migliorati, aumenta ulteriormente la qualità delle pseudo-etichettature generate nelle iterazioni successive.

Ogni volta che il modello viene addestrato con dati aggiornati, osserviamo miglioramenti nell'accuratezza delle previsioni, soprattutto nelle fasce di etichette meno rappresentate. Attraverso più iterazioni, SGIR riduce gradualmente il bias del modello e migliora le prestazioni complessive.

Validazione Sperimentale

Abbiamo condotto una serie di esperimenti per valutare l'efficacia di SGIR in vari compiti di regressione dei grafi. I risultati hanno mostrato miglioramenti significativi nell'accuratezza delle previsioni rispetto ai metodi esistenti, in particolare per le proprietà che erano inizialmente sotto-rappresentate.

Prestazioni nei Compiti di Regressione dei Grafi

Nei nostri esperimenti, SGIR è stato testato su diversi dataset relativi a molecole e polimeri, nonché in altre applicazioni come la previsione dell'età da immagini. Il framework ha costantemente ottenuto risultati migliori rispetto ai metodi di base, indipendentemente dall'intervallo di etichette valutato.

Ad esempio, in uno dei dataset più piccoli, SGIR ha ridotto significativamente l'errore medio di previsione, dimostrando il suo potenziale per bilanciare efficacemente i dati di addestramento e migliorare le prestazioni del modello, soprattutto nelle aree a bassa popolazione di etichette.

Studi di Ablazione

Per comprendere meglio i contributi dei diversi componenti di SGIR, abbiamo effettuato diversi studi di ablazione. Questi studi hanno rivelato che ogni aspetto chiave-confidenza nella regressione, campionamento inverso e mixup ancorato all'etichetta-ha giocato un ruolo vitale nelle prestazioni complessive del framework.

I risultati hanno suggerito che quando combiniamo strategicamente questi elementi, i miglioramenti nell'accuratezza del modello sono stati notevoli. Il processo di auto-addestramento iterativo si è rivelato vantaggioso poiché ha permesso al modello di diventare più efficace mentre affrontava contemporaneamente l'imbalance nel dataset.

Conclusione

Il framework SGIR rappresenta un avanzamento significativo nell'affrontare le sfide poste dai dati sbilanciati nei compiti di regressione dei grafi. Utilizzando un approccio di apprendimento semi-supervisionato che si concentra sulla qualità delle pseudo-etichettature e sull'aumento dei dati, questo framework offre una soluzione promettente per migliorare la previsione delle proprietà in molecole e polimeri.

La validazione empirica attraverso vari compiti indica che SGIR ha il potenziale per colmare le lacune nei metodi esistenti, rendendolo uno strumento prezioso per ricercatori e professionisti che lavorano in settori che si basano su previsioni accurate delle proprietà dei grafi.

Il lavoro futuro esplorerà dataset ancora più ampi e continuerà a perfezionare i metodi per garantire migliori prestazioni in scenari più complessi. La promessa di SGIR risiede nella sua capacità di adattarsi e migliorare man mano che nuovi dati diventano disponibili, portando infine a previsioni più accurate e affidabili in diversi ambiti.

Fonte originale

Titolo: Semi-Supervised Graph Imbalanced Regression

Estratto: Data imbalance is easily found in annotated data when the observations of certain continuous label values are difficult to collect for regression tasks. When they come to molecule and polymer property predictions, the annotated graph datasets are often small because labeling them requires expensive equipment and effort. To address the lack of examples of rare label values in graph regression tasks, we propose a semi-supervised framework to progressively balance training data and reduce model bias via self-training. The training data balance is achieved by (1) pseudo-labeling more graphs for under-represented labels with a novel regression confidence measurement and (2) augmenting graph examples in latent space for remaining rare labels after data balancing with pseudo-labels. The former is to identify quality examples from unlabeled data whose labels are confidently predicted and sample a subset of them with a reverse distribution from the imbalanced annotated data. The latter collaborates with the former to target a perfect balance using a novel label-anchored mixup algorithm. We perform experiments in seven regression tasks on graph datasets. Results demonstrate that the proposed framework significantly reduces the error of predicted graph properties, especially in under-represented label areas.

Autori: Gang Liu, Tong Zhao, Eric Inae, Tengfei Luo, Meng Jiang

Ultimo aggiornamento: 2023-05-20 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.12087

Fonte PDF: https://arxiv.org/pdf/2305.12087

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili