Rilevamento di campioni fuori distribuzione usando la similarità coseno
Un nuovo metodo per identificare i dati OOD nei modelli di machine learning.
― 5 leggere min
Indice
Rilevare dati Fuori distribuzione (OOD) è super importante nel machine learning. Questo aiuta a garantire che i modelli funzionino bene, anche quando i dati su cui vengono testati sono diversi da quelli su cui sono stati addestrati. Quando un modello incontra dati che non ha mai visto prima o che provengono da una distribuzione diversa, potrebbe avere delle difficoltà. Questo è conosciuto come cambiamento di distribuzione. Per esempio, se un modello è addestrato per riconoscere certi oggetti in immagini chiare ma viene testato con immagini sfocate o scattate in ambienti diversi, potrebbe faticare.
La Sfida del Cambiamento di Distribuzione
Nella vita reale, i dati possono cambiare nel tempo. Questo significa che i modelli devono adattarsi a questi cambiamenti per continuare a lavorare in modo efficace. Un modo comune per affrontare questo problema è identificare i campioni OOD-quelli che provengono da una distribuzione diversa da quella su cui il modello è stato addestrato. Rilevando questi campioni, possiamo rimuoverli dai dati di test, permettendo al modello di prendere decisioni migliori.
Ci sono molti metodi per rilevare campioni OOD. Alcuni si basano su metodi di classificazione, che catalogano i dati come OOD o in distribuzione (ID) a seconda di quanto il modello è sicuro delle sue previsioni. Altri metodi si concentrano sulla densità dei dati o sulle distanze tra i punti dati.
Tra questi metodi, le tecniche post hoc sono spesso preferite. Questi metodi ci permettono di utilizzare un modello già addestrato, il che li rende facili da implementare. L'approccio che discutiamo in questo articolo si basa sulla misurazione della somiglianza tra le caratteristiche dei campioni di dati.
Somiglianza Coseno per la Rilevazione OOD
In questo articolo, presentiamo un metodo che utilizza la somiglianza coseno per rilevare campioni OOD. La somiglianza coseno misura quanto sono simili due vettori, indipendentemente dalla loro grandezza. Questo significa che possiamo confrontare la direzione dei vettori per vedere quanto siano correlati. Il nostro approccio si concentra sulla somiglianza coseno tra le caratteristiche dei campioni di test e le caratteristiche tipiche dei campioni ID.
Questo metodo si distingue da altri metodi post hoc che si basano spesso su distanza euclidea. Invece, utilizziamo la somiglianza coseno per calcolare i punteggi OOD, suggerendo che l'angolo tra le caratteristiche fornisce informazioni preziose per la rilevazione.
Impostazione Sperimentale
Per testare il nostro metodo, abbiamo condotto vari esperimenti utilizzando diversi set di dati. Il primo set di dati includeva CIFAR-10 e CIFAR-100 come set ID, insieme a sei set di dati OOD come SVHN e Places365. Per test più ampi, abbiamo utilizzato ImageNet-1k come set ID e diversi set OOD come iNaturalist e SUN.
I modelli usati nei nostri esperimenti erano pre-addestrati. Non abbiamo modificato i parametri del modello durante il test per la rilevazione OOD. Questo ha permesso una valutazione equa dei metodi.
Metriche di Valutazione
Per misurare le performance del nostro metodo di rilevazione OOD, abbiamo guardato a diversi criteri:
Tasso di Falsi Positivi (FPR95): Questo misura quanti immagini OOD sono state etichettate erroneamente come immagini ID quando il 95% degli esempi ID sono stati identificati correttamente.
Area sotto la curva Receiver Operating Characteristic (AUROC): Questo ci dà un'idea delle performance complessive del metodo di rilevazione.
Area sotto la curva Precision-Recall (AUPR): Questo valuta il compromesso tra precisione e richiamo su diverse soglie.
Risultati sui Benchmark
Il nostro metodo, basato sulla somiglianza coseno, ha mostrato performance competitive rispetto ad altre tecniche consolidate che non richiedono cambiamenti nel processo di addestramento. Quando testato su CIFAR-10, il nostro metodo ha ottenuto un punteggio AUROC del 96,40% e un punteggio AUROC dell'89,11% su CIFAR-100. Questa performance era comparabile ai metodi KNN.
Nei nostri test con il set di dati di grandi dimensioni ImageNet, il nostro metodo basato sulla somiglianza coseno ha ridotto il FPR95 del 15,43% rispetto a KNN. Questo evidenzia l'efficacia dell'uso della somiglianza coseno per la rilevazione OOD.
Modifiche al Processo di Predizione
Abbiamo anche apportato alcune modifiche al processo di predizione dei nostri modelli addestrati per testare l'impatto della somiglianza coseno. Una modifica ha riguardato la rimozione del bias e la normalizzazione delle caratteristiche prima di darli in pasto al modello. Un'altra modifica si è concentrata sull'uso della media delle caratteristiche di addestramento per ciascuna classe invece delle caratteristiche grezze.
Questi cambiamenti hanno mostrato risultati promettenti, indicando che fare affidamento solo sulla direzione delle caratteristiche (informazioni angolari) ha mantenuto le performance del compito di rilevazione OOD senza influire significativamente sui compiti di classificazione.
Comprendere l'Influenza della Somiglianza Coseno
Per comprendere perché la somiglianza coseno funziona bene per rilevare dati OOD, abbiamo esaminato la sua influenza. La somiglianza coseno ci aiuta a vedere quanto l'output di una funzione a un input cambia quando modifichiamo i valori dell'input in un altro punto. Scegliendo un punto di riferimento che rappresenta la classe, possiamo misurare l'influenza tra la caratteristica tipica ID e la caratteristica dell'input di test.
Se l'input di test è tipico di una classe ID, le modifiche nella previsione del modello saranno più pronunciate. Tuttavia, se l'input è OOD, le modifiche avranno meno impatto, rendendo la somiglianza coseno uno strumento efficace per la rilevazione.
Conclusione
Questo articolo introduce un metodo per rilevare campioni fuori distribuzione utilizzando la somiglianza coseno. Abbiamo dimostrato la sua efficacia attraverso ampi esperimenti su più set di dati. I risultati mostrano che la somiglianza coseno è un forte indicatore di campioni OOD e può essere un approccio prezioso per future ricerche in questo campo. La nostra speranza è che questo lavoro stimoli maggior esplorazione delle informazioni angolari nei compiti di rilevazione OOD.
Note Aggiuntive
Tutti gli esperimenti sono stati condotti utilizzando PyTorch su GPU NVIDIA RTX3090. Ci siamo assicurati che la dimensione del set di dati OOD corrispondesse a quella del set di dati ID nelle nostre valutazioni. Questa selezione attenta ci ha permesso di eseguire più prove per ciascun metodo e riportare i risultati medi, aumentando l'affidabilità delle nostre scoperte.
Guardando al futuro, intendiamo continuare a perfezionare il nostro approccio ed esplorare nuovi modi per sfruttare la somiglianza coseno per una rilevazione OOD più robusta in una varietà di applicazioni.
Titolo: A Cosine Similarity-based Method for Out-of-Distribution Detection
Estratto: The ability to detect OOD data is a crucial aspect of practical machine learning applications. In this work, we show that cosine similarity between the test feature and the typical ID feature is a good indicator of OOD data. We propose Class Typical Matching (CTM), a post hoc OOD detection algorithm that uses a cosine similarity scoring function. Extensive experiments on multiple benchmarks show that CTM outperforms existing post hoc OOD detection methods.
Autori: Nguyen Ngoc-Hieu, Nguyen Hung-Quang, The-Anh Ta, Thanh Nguyen-Tang, Khoa D Doan, Hoang Thanh-Tung
Ultimo aggiornamento: 2023-06-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.14920
Fonte PDF: https://arxiv.org/pdf/2306.14920
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.