Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Intelligenza artificiale# Visione artificiale e riconoscimento di modelli

Migliorare l'apprendimento auto-supervisionato con la messa a punto dei prompt a gate

Un nuovo metodo migliora i Vision Transformers auto-supervisionati con prompt specifici per il compito.

― 7 leggere min


Gated Prompt TuningGated Prompt TuningLiberatocon tecniche di prompt mirate.Potenziare modelli auto-supervisionati
Indice

La Visual Prompt Tuning (VPT) è un metodo che aiuta ad adattare modelli esistenti, in particolare i Vision Transformers (ViTs), per vari compiti usando dei token apprendibili extra chiamati prompts. Questi prompts guidano il modello, già addestrato su grandi quantità di dati, senza cambiare la sua struttura principale. Anche se il VPT si è rivelato utile per modelli addestrati con apprendimento supervisionato, non ha funzionato così bene per quelli addestrati con Apprendimento Auto-Supervisionato (SSL).

L'apprendimento auto-supervisionato è una tecnica che permette ai modelli di imparare dai dati senza bisogno di etichette specifiche. Questo approccio ha dimostrato grandi prestazioni in vari compiti visivi come la classificazione e la segmentazione delle immagini. Tuttavia, il successo di questi modelli dipende molto da come vengono affinati per compiti specifici. Ad esempio, c'è una differenza significativa nelle prestazioni tra l'addestramento completo di un modello e l'uso di metodi più semplici come il linear probing.

Studi hanno mostrato che dove posizioni i token di prompt nel modello può influenzare significativamente le prestazioni. Ad esempio, usando modelli specifici auto-supervisionati, posizionare i prompt negli strati più alti porta a risultati migliori rispetto a metterli nel primo strato. Tuttavia, trovare il miglior posizionamento per questi token è un lavoro complesso e richiede tempo.

Per semplificare questo processo, proponiamo un metodo che include un meccanismo di apprendimento che permette a ogni strato del modello di regolare quanto influisce sui prompt. In questo modo, i prompt interagiranno di più con gli strati che contano di più per il compito specifico. Il nostro metodo mostra risultati migliori rispetto alle versioni precedenti di VPT in vari benchmark.

Contesto

Il campo dell'apprendimento auto-supervisionato ha guadagnato molta attenzione per la sua capacità di addestrare modelli usando dati non etichettati in modo efficace. I modelli auto-supervisionati sono particolarmente bravi a generalizzare a diversi compiti visivi perché sono addestrati per apprendere caratteristiche utili senza fare affidamento su etichette di compito specifiche. Tuttavia, quanto bene questi modelli trasferiscono il loro apprendimento a nuovi compiti può variare notevolmente a seconda delle strategie di affinamento utilizzate.

I compiti di classificazione, come quelli che coinvolgono i dataset CUB e KITTI, rivelano che le prestazioni possono migliorare significativamente se i token di prompt vengono posizionati in particolari strati del modello. Ad esempio, regolando la posizione dei token in determinati strati, modelli come MAE e MoCo v3 possono raggiungere una precisione migliore.

La Visual Prompt Tuning nasce da tecniche utilizzate nell'elaborazione del linguaggio naturale, dove i prompt possono aiutare a guidare le risposte di un modello. L'idea è di anteporre questi token apprendibili all'input del modello e addestrarli per rappresentare istruzioni specifiche per il compito. Anche se il VPT ha mostrato forti prestazioni con modelli supervisionati, non ha avuto lo stesso successo con modelli auto-supervisionati.

I Vision Transformers auto-supervisionati, come MAE e MoCo v3, forniscono una ricca fonte di conoscenza appresa, ma richiedono metodi di affinamento efficaci per eccellere nei compiti secondari. Strati diversi in questi modelli catturano aspetti diversi dei dati, il che significa che posizionare i token di prompt senza comprendere queste dinamiche può portare a risultati subottimali.

Metodo Proposto

Date le sfide con gli approcci esistenti, proponiamo il Gated Prompt Tuning, un metodo che apprende a controllare come i prompt interagiscono con i diversi strati del modello. Introducendo porte apprendibili per ogni strato, permettiamo ai prompt di regolare il loro focus in base a ciò che richiede il compito.

Queste porte aiutano a dirigere i prompt verso gli strati più rilevanti per il compito specifico. Invece di costringere i prompt a interagire con ogni strato, ora possono impegnarsi selettivamente con quelli che forniscono informazioni utili. Questa operazione assicura che i compiti siano meglio supportati dalla conoscenza preesistente del modello.

Inoltre, introduciamo l'Adaptive Attention Shaping, che affina il modo in cui funziona l'attenzione del modello durante il compito, migliorando ulteriormente l'efficacia dei prompt.

Risultati Sperimentali

Abbiamo testato il nostro metodo su diversi benchmark per vedere quanto bene si comporta rispetto alle tecniche esistenti. Nei compiti di classificazione sul benchmark FGVC, il nostro metodo ha mostrato miglioramenti rispetto alle versioni precedenti di VPT su più dataset.

Quando valutiamo sul benchmark VTAB-1K, che include una gamma di compiti di classificazione, il nostro approccio ha anche superato il VPT in varie condizioni, dimostrando la sua versatilità. Abbiamo notato i miglioramenti più significativi nelle attività impegnative che richiedevano al modello di comprendere diversi contesti e dettagli.

Inoltre, abbiamo testato il nostro metodo sulla segmentazione semantica utilizzando il dataset ADE20K. I guadagni di prestazione sono stati notevoli, il che indica che il nostro metodo non solo funziona bene per la classificazione, ma eccelle anche nei compiti di previsione densa.

Analisi delle Porte Apprendibili

Uno degli aspetti chiave del nostro metodo sono le porte apprendibili. Queste porte determinano quanto influsso ogni strato dovrebbe avere sulla rappresentazione del prompt. Analizzando il contributo di ogni strato durante l'addestramento, possiamo osservare che i prompt appresi variano in base ai compiti specifici e al tipo di modello SSL utilizzato.

Per alcuni compiti, i prompt mostrano una forte dipendenza da strati più alti, mentre in altri contesti, devono impegnarsi anche con strati più bassi. Questa adattabilità è fondamentale poiché significa che i prompt possono concentrarsi sulle informazioni più rilevanti a seconda della natura del compito.

I risultati enfatizzano anche che diversi metodi di pre-addestramento portano a variazioni nel modo in cui le informazioni vengono trasmesse tra gli strati. Usando le porte apprese, i prompt possono dirigere efficacemente il loro focus sugli strati importanti, portando a una migliore prestazione.

Attenzione Auto-Regolata

Nel nostro approccio, abbiamo anche regolato i meccanismi di Auto-attenzione all'interno del modello. Affinando il modo in cui vengono calcolati i punteggi di attenzione, possiamo guidare il focus del modello verso i dati necessari. Questa regolazione consente ai prompt di catturare più efficacemente istruzioni utili.

Le nostre visualizzazioni delle mappe di auto-attenzione illustrano come le nostre modifiche cambiano il comportamento del modello. Ad esempio, si può notare che il modello presta più attenzione alle aree chiave rilevanti per il compito, migliorando le prestazioni complessive.

Confronto con Tecniche Esistenti

Il nostro metodo mostra chiari vantaggi rispetto ai metodi esistenti come VPT-deep e VPT-shallow. Anche se VPT-deep utilizza più parametri per ottenere risultati simili, il nostro metodo funziona meglio con meno token di prompt. Questa efficienza evidenzia la capacità del nostro approccio di utilizzare i prompt efficacemente senza sovraccaricare il modello con parametri eccessivi.

Inoltre, abbiamo scoperto che il nostro metodo può gestire un numero inferiore di token pur superando alternative più complesse. Questo risultato sottolinea l'efficacia di concentrare l'attenzione del modello sugli strati rilevanti e adattare il processo di apprendimento attraverso il gating.

Conclusioni

In questo lavoro, abbiamo introdotto un metodo innovativo basato sui prompt per il trasferimento adattato ai Vision Transformers auto-supervisionati. Il nostro Gated Prompt Tuning dirige con successo i prompt a concentrarsi sugli strati rilevanti per il compito utilizzando porte apprendibili. Questo metodo consente al modello di adattarsi efficacemente a vari compiti sfruttando la sua conoscenza preesistente.

Attraverso esperimenti approfonditi, abbiamo dimostrato che il nostro approccio migliora significativamente le prestazioni su diversi benchmark. I nostri risultati indicano che un adattamento efficace ai compiti è possibile guidando selettivamente i prompt, garantendo prestazioni solide in compiti visivi diversificati.

In generale, il nostro metodo proposto non solo migliora le capacità dei ViT auto-supervisionati, ma contribuisce anche alla discussione in corso sulle strategie di trasferimento efficace nel campo della visione artificiale. Il futuro di questa ricerca potrebbe concentrarsi su ulteriori ottimizzazioni di queste tecniche ed esplorare le loro applicazioni su dataset ancora più grandi e complessi.

Fonte originale

Titolo: Improving Visual Prompt Tuning for Self-supervised Vision Transformers

Estratto: Visual Prompt Tuning (VPT) is an effective tuning method for adapting pretrained Vision Transformers (ViTs) to downstream tasks. It leverages extra learnable tokens, known as prompts, which steer the frozen pretrained ViTs. Although VPT has demonstrated its applicability with supervised vision transformers, it often underperforms with self-supervised ones. Through empirical observations, we deduce that the effectiveness of VPT hinges largely on the ViT blocks with which the prompt tokens interact. Specifically, VPT shows improved performance on image classification tasks for MAE and MoCo v3 when the prompt tokens are inserted into later blocks rather than the first block. These observations suggest that there exists an optimal location of blocks for the insertion of prompt tokens. Unfortunately, identifying the optimal blocks for prompts within each self-supervised ViT for diverse future scenarios is a costly process. To mitigate this problem, we propose a simple yet effective method that learns a gate for each ViT block to adjust its intervention into the prompt tokens. With our method, prompt tokens are selectively influenced by blocks that require steering for task adaptation. Our method outperforms VPT variants in FGVC and VTAB image classification and ADE20K semantic segmentation. The code is available at https://github.com/ryongithub/GatedPromptTuning.

Autori: Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon

Ultimo aggiornamento: 2023-06-08 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.05067

Fonte PDF: https://arxiv.org/pdf/2306.05067

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili