Approcci automatizzati per l'apprendimento positivo-non etichettato
Introducendo nuovi sistemi automatizzati per un apprendimento efficace Positive-Unlabelled.
― 9 leggere min
Indice
- Cos'è l'Apprendimento Positivo-Non Etichettato?
- Applicazioni dell'Apprendimento PU
- Come Funziona l'Apprendimento PU?
- La Sfida di Valutare i Modelli di Apprendimento PU
- Cos'è l'Apprendimento Automatico Automatizzato (Auto-ML)?
- Tipi di Approcci Auto-ML
- Il Framework Auto-ML Proposto per l'Apprendimento PU
- Spazi di Ricerca
- Valutazione delle Soluzioni Candidati
- Panoramica dei Sistemi Auto-PU
- GA-Auto-PU
- BO-Auto-PU
- EBO-Auto-PU
- Metodologia Sperimentale
- Dataset Utilizzati
- Validazione Incrociata Annidata
- Analisi della Significatività Statistica
- Risultati e Discussione
- Risultati dallo Spazio di Ricerca Base
- Confronto con Metodi di Riferimento
- Risultati dallo Spazio di Ricerca Esteso
- Efficienza Computazionale
- Conclusione
- Fonte originale
- Link di riferimento
L'apprendimento Positivo-Non Etichettato (PU) è un ramo dell'apprendimento automatico che si concentra sull'addestrare modelli usando un mix di casi positivi identificati e quelli non etichettati. In questo contesto, i dati non etichettati possono appartenere sia al gruppo positivo che a quello negativo, ma non sappiamo quale sia quale. Per molte attività del mondo reale, ottenere dati completamente etichettati può essere difficile a causa dei costi o semplicemente perché non è pratico.
Negli anni, sono emersi vari metodi per affrontare le sfide dell'apprendimento PU. Selezionare il metodo migliore per una situazione specifica può essere complicato perché ci sono così tante opzioni disponibili. Per facilitare questo processo, è stato introdotto un nuovo sistema chiamato GA-Auto-PU, che automatizza l'approccio per l'apprendimento PU.
In questa panoramica, introduciamo due nuovi sistemi automatizzati per l'apprendimento PU: BO-Auto-PU, che usa l'Ottimizzazione Bayesiana, ed EBO-Auto-PU, che combina strategie evolutive con l'Ottimizzazione Bayesiana. Valuteremo questi sistemi rispetto alle opzioni esistenti e vedremo come si comportano su vari set di dati.
Cos'è l'Apprendimento Positivo-Non Etichettato?
Nell'apprendimento PU, abbiamo un insieme di esempi positivi confermati come positivi e un insieme di esempi non etichettati che potrebbero appartenere a una delle due classi. L'obiettivo è creare modelli che possano classificare accuratamente nuovi dati basandosi su questo mix. I metodi tradizionali di apprendimento automatico richiedono dati completamente etichettati, ma questo non è sempre disponibile. Questo porta alla necessità di metodi che possano imparare da dati parzialmente etichettati.
L'apprendimento PU rientra nell'ambito dell'apprendimento semi-supervisionato, un metodo che si basa su dati sia etichettati che non etichettati. È un caso più complesso perché, a differenza degli scenari tipici in cui sono disponibili anche esempi negativi, l'apprendimento PU ha solo positivi etichettati e etichette sconosciute.
Applicazioni dell'Apprendimento PU
L'apprendimento PU ha numerose applicazioni nella vita reale. Queste includono settori come la cybersecurity, la medicina e l'elaborazione del testo. Ad esempio, i ricercatori hanno usato l'apprendimento PU per prevedere geni associati a malattie. In questo caso, i geni confermati come correlati a malattie sono contrassegnati come positivi, mentre altri, senza conferma, rimangono non etichettati.
Un altro esempio è nella classificazione del testo, dove le pagine web possono essere raccolte facilmente, ma etichettarle è dispendioso in termini di tempo e costoso. Quindi, molte pagine finiscono per essere dati non etichettati. L'apprendimento PU diventa essenziale in situazioni in cui ci sono pochi casi positivi fidati, e il resto rimane incerto.
Come Funziona l'Apprendimento PU?
L'approccio più comune all'apprendimento PU prevede un processo in due fasi. Innanzitutto, è necessario identificare istanze negative affidabili dai dati non etichettati. Questo significa trovare elementi nel set non etichettato che probabilmente non siano positivi in base alle loro caratteristiche.
Nella seconda fase, viene addestrato un modello per differenziare tra le istanze positive confermate e quelle negative affidabili. Se le istanze negative identificate nella prima fase sono accurate, il modello può quindi prevedere se nuove istanze appartengono alla classe positiva o negativa.
Tuttavia, questo processo richiede alcune assunzioni. Ad esempio, si assume che gli esempi positivi e negativi siano separati tra loro nei dati. Si assume anche che gli elementi vicini tra loro nel set di dati probabilmente condividano etichette di classe.
La Sfida di Valutare i Modelli di Apprendimento PU
Valutare i modelli nell'apprendimento PU è una sfida perché non possiamo valutare le performance usando metodi standard. I tassi di accuratezza tradizionali si basano su etichette di classe conosciute, ma nell'apprendimento PU, conosciamo solo l'etichetta per alcune istanze. Questo porta alla necessità di stimare le performance del modello senza informazioni complete.
Per far fronte a questo, i ricercatori testano spesso i loro modelli usando set di dati ingegnerizzati, creati da set completi nascondendo un certo numero di esempi positivi. Questo li aiuta a valutare le performance anche quando operano in condizioni PU.
Apprendimento Automatico Automatizzato (Auto-ML)?
Cos'è l'L'Apprendimento Automatico Automatizzato (Auto-ML) mira a creare modelli di apprendimento automatico con il minimo coinvolgimento umano. Consente agli utenti di generare automaticamente modelli specificamente adattati ai loro dati. Questo rende più facile per chi non ha una profonda conoscenza dell'apprendimento automatico utilizzare strumenti complessi in modo efficace.
Questo coinvolge una serie di metodi di ottimizzazione per trovare il miglior pipeline di apprendimento automatico per un compito specifico.
Tipi di Approcci Auto-ML
Ci sono vari approcci nell'Auto-ML. In questo contesto, ci concentriamo su tre tipi usati per l'apprendimento PU, ovvero algoritmi genetici, ottimizzazione bayesiana e un approccio evolutivo combinato chiamato Ottimizzazione Bayesiana Evolutiva.
Algoritmi Genetici (GA): Questo metodo imita la selezione naturale evolvendo soluzioni in base ai loro punteggi di idoneità. Nel nostro caso, una soluzione rappresenta un pipeline di apprendimento automatico adattato per l'apprendimento PU.
Ottimizzazione Bayesiana (BO): Questo approccio è basato su modelli e usa modelli surrogati per trovare i migliori parametri per un compito specifico in modo efficiente. Identifica aree nello spazio di ricerca che sono promettenti per alte performance.
Ottimizzazione Bayesiana Evolutiva (EBO): Questo metodo ibrido combina elementi degli algoritmi genetici con l'ottimizzazione bayesiana per ottenere migliori performance senza alti costi computazionali.
Il Framework Auto-ML Proposto per l'Apprendimento PU
Questo framework delinea i metodi utilizzati per trovare i migliori candidati per l'apprendimento PU. Ci concentriamo sugli spazi di ricerca utilizzati e sulle funzioni obiettivo per valutare le soluzioni potenziali.
Spazi di Ricerca
Nell'Auto-ML, uno spazio di ricerca contiene tutte le possibili soluzioni. Per l'apprendimento PU, i nostri candidati consistono in un framework PU in due fasi. Ognuna delle fasi ha iperparametri che definiscono il suo funzionamento.
La nostra esplorazione ha due tipi di spazi di ricerca: un base e un esteso. Lo spazio di ricerca base consente metodi più semplici senza l'uso di tecniche avanzate.
Spazio di Ricerca Base
Questo spazio consiste in sette iperparametri che delineano come operano i metodi di apprendimento PU in due fasi. Include opzioni come il numero di sottoinsiemi per suddividere i dati non etichettati e i classificatori da utilizzare.
Spazio di Ricerca Esteso
Lo spazio di ricerca esteso introduce nuovi iperparametri che consentono l'uso di metodi basati su spia. Questi metodi forniscono punti dati aggiuntivi dagli esempi positivi nascondendone alcuni nei dati non etichettati.
Valutazione delle Soluzioni Candidati
Per determinare la qualità di una data configurazione, valutiamo le sue performance su un set di addestramento. Questo processo implica l'utilizzo di una validazione incrociata interna, suddividendo i dati di addestramento in fold e valutando ripetutamente il modello predittivo.
Panoramica dei Sistemi Auto-PU
Ora presentiamo i tre sistemi Auto-PU: GA-Auto-PU, BO-Auto-PU ed EBO-Auto-PU.
GA-Auto-PU
Questo sistema utilizza algoritmi genetici per ottimizzare i metodi di apprendimento PU. Crea una popolazione di soluzioni potenziali e valuta ciascuna in base alle loro performance. Gli individui più idonei vengono selezionati per produrre una nuova generazione di soluzioni.
BO-Auto-PU
Questo sistema impiega l'ottimizzazione bayesiana per trovare configurazioni efficaci per l'apprendimento PU con meno spese computazionali rispetto agli algoritmi genetici. Inizia con un insieme di configurazioni casuali e valuta le loro performance usando un modello surrogato.
EBO-Auto-PU
EBO-Auto-PU unisce i vantaggi dei due sistemi precedenti. Usa una popolazione di candidati per creare diversità applicando anche una selezione basata su modelli per mantenere bassi i costi computazionali.
Metodologia Sperimentale
Dataset Utilizzati
Per testare i sistemi Auto-PU, abbiamo utilizzato 20 set di dati biomedici che riguardano la salute e la previsione delle malattie. Ogni set di dati consiste in varie istanze e caratteristiche, fornendo una vasta gamma di scenari per la valutazione.
Per creare un ambiente adatto all'apprendimento PU, abbiamo creato più versioni nascondendo un certo numero di esempi positivi nei dati. Questo crea vari scenari per valutare la performance di ciascun modello di apprendimento.
Validazione Incrociata Annidata
Durante gli esperimenti, abbiamo usato un approccio di validazione incrociata annidata. Questo prevede due livelli: un livello esterno per misurare le performance predittive e un livello interno per valutare le soluzioni candidate.
Questo metodo assicura che ciascun sistema Auto-PU funzioni in modo equo, utilizzando le stesse suddivisioni dei dati per il confronto.
Analisi della Significatività Statistica
Per i risultati ottenuti, utilizziamo test statistici per garantire che le differenze osservate tra i metodi siano genuine e non dovute a variazioni casuali. Questo aiuta a solidificare i risultati riguardo a quali sistemi performano meglio.
Risultati e Discussione
Risultati dallo Spazio di Ricerca Base
Inizialmente, abbiamo valutato i sistemi utilizzando lo spazio di ricerca base. I risultati hanno mostrato che le performance dei sistemi Auto-PU sono simili, in particolare quando il rapporto di istanze positive nascoste è basso.
Man mano che aumentavamo la percentuale di dati non etichettati, iniziavano a emergere differenze nelle performance, mostrando in particolare che EBO-Auto-PU performava meglio a livelli più alti di dati non etichettati.
Confronto con Metodi di Riferimento
I sistemi Auto-PU hanno performato costantemente meglio delle approcci di riferimento. Tutti e tre i sistemi Auto-PU hanno superato sia DF-PU che S-EM su varie metriche, dimostrando la loro efficacia.
Risultati dallo Spazio di Ricerca Esteso
Quando ci siamo spostati allo spazio di ricerca esteso, i risultati sono diventati più variabili. GA-Auto-PU ha eccelso in alcuni scenari, mentre EBO-Auto-PU ha superato in altri. I confronti hanno evidenziato la capacità di questi nuovi metodi di adattarsi e trovare soluzioni in contesti diversi.
Efficienza Computazionale
Uno degli aspetti più vitali di questi sistemi Auto-PU è la loro efficienza. BO-Auto-PU è significativamente più veloce, impiegando solo una frazione del tempo rispetto a GA-Auto-PU. Questo lo rende un'opzione desiderabile per gli utenti che cercano un equilibrio tra performance e tempo.
Conclusione
Questa esplorazione ha introdotto nuovi metodi automatizzati per affrontare l'apprendimento PU. I risultati chiave suggeriscono che mentre tutti e tre i sistemi Auto-PU mostrano buone performance, EBO-Auto-PU si distingue per offrire solide performance predittive insieme a un calcolo efficiente.
Ci sono ancora aree per ulteriori ricerche, come espandere gli spazi di ricerca o ottimizzare gli iperparametri degli stessi sistemi Auto-PU. Questo può aiutare a continuare a spingere i confini di ciò che è possibile con l'apprendimento automatico automatizzato in scenari positivi-non etichettati.
Titolo: Automated Machine Learning for Positive-Unlabelled Learning
Estratto: Positive-Unlabelled (PU) learning is a growing field of machine learning that aims to learn classifiers from data consisting of labelled positive and unlabelled instances, which can be in reality positive or negative, but whose label is unknown. An extensive number of methods have been proposed to address PU learning over the last two decades, so many so that selecting an optimal method for a given PU learning task presents a challenge. Our previous work has addressed this by proposing GA-Auto-PU, the first Automated Machine Learning (Auto-ML) system for PU learning. In this work, we propose two new Auto-ML systems for PU learning: BO-Auto-PU, based on a Bayesian Optimisation approach, and EBO-Auto-PU, based on a novel evolutionary/Bayesian optimisation approach. We also present an extensive evaluation of the three Auto-ML systems, comparing them to each other and to well-established PU learning methods across 60 datasets (20 real-world datasets, each with 3 versions in terms of PU learning characteristics).
Autori: Jack D. Saunders, Alex A. Freitas
Ultimo aggiornamento: 2024-01-12 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2401.06452
Fonte PDF: https://arxiv.org/pdf/2401.06452
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.