Sviluppi nella rilevazione delle violazioni delle politiche usando modelli di base

Indice

Fonte originale
Link di riferimento

I modelli fondazionali sono grandi reti neurali addestrate su enormi quantità di testo. Hanno cambiato molto il modo in cui gestiamo l'elaborazione del linguaggio naturale (NLP). Questi modelli possono ricevere istruzioni dirette, conosciute come hard prompting. Possono anche essere adattati con dati minimi, chiamati Soft Prompting. Il nostro obiettivo è usare questi modelli per identificare rapidamente le violazioni delle politiche.

Contributi Chiave

Abbiamo creato un hard prompt che personalizza il prompting basato sul chain-of-thought per rilevare le violazioni delle politiche. Questo prompt aiuta a classificare se un testo viola le politiche e fornisce motivazioni per queste classificazioni.
Abbiamo combinato hard prompts con soft-Prompt Tuning in modo che il nostro classificatore possa raggiungere alta accuratezza con poca supervisione. Il classificatore può anche fornire spiegazioni. Anche se la supervisione influisce solo sulle classificazioni, le spiegazioni modificate sono coerenti con le risposte del modello.
Durante il nostro lavoro, abbiamo trovato diverse caratteristiche sorprendenti dei modelli fondazionali. Per esempio, fornire troppi esempi da una classe specifica può portare a meno previsioni per quella classe. Abbiamo anche notato che il modo in cui il testo viene suddiviso in token influisce sul punteggio.

Basandoci su queste scoperte, proponiamo un processo semplice per i team di prodotto per creare strumenti efficaci per rilevare rapidamente le violazioni delle politiche.

Modelli Fondazionali e Loro Applicazioni

I grandi modelli di linguaggio addestrati su ampie collezioni di testo sono conosciuti come modelli fondazionali. Questi modelli performano davvero bene in vari compiti, tra cui traduzione, rispondere a domande fattuali, risolvere problemi matematici e usare il buon senso.

I modelli fondazionali possono essere istruiti a eseguire compiti specifici tramite prompting. Possono anche essere raffinati utilizzando una piccola quantità di dati, spesso chiamata soft-prompt tuning.

Focus sulla Rilevazione di Tossicità

Vogliamo utilizzare i modelli fondazionali per individuare le violazioni delle politiche, specificamente attraverso un compito di rilevazione della tossicità. Questo compito implica identificare se un testo è offensivo, pieno di odio o contiene riferimenti osceni. Potrebbe includere commenti su articoli di notizie, video o discussioni in forum online. Attualmente, questo compito viene svolto attraverso un mix di sforzo umano e elaborazione automatica. Gli umani etichettano i dati e le macchine utilizzano questi dati per classificarli.

Raccogliere dati, guidare i valutatori e creare modelli usando l'apprendimento supervisionato è un processo laborioso. Usare i prompt può aiutare in compiti una tantum dove i costi di raccolta dei dati sono alti, o quando sono necessari cambiamenti rapidi nelle istruzioni, o quando si testano nuove istruzioni per i valutatori.

Ci aspettiamo che i modelli fondazionali abbiano alcune conoscenze su cosa costituisce tossicità poiché sono stati addestrati su vari testi del web, articoli di notizie e social media.

Stato Attuale della Rilevazione di Tossicità

Altri modelli, come BERT, hanno raggiunto risultati ottimali nella rilevazione della tossicità. Tuttavia, non ci sono stati benchmark precedenti usando modelli di queste dimensioni con supervisione minima.

Progettazione del Prompt

Un hard prompt include istruzioni testuali e può avere alcuni esempi di input e output desiderati. Questo prompt viene aggiunto all'input fornito al modello fondazionale.

Struttura dell'Hard Prompt

Il nostro hard prompt ha linee guida per il compito, seguite da alcuni esempi, che includono un commento, una risposta, una spiegazione, citazioni e parole chiave. Questa struttura consente al modello di alternare tra la generazione di spiegazioni e la fornitura di parole chiave o citazioni specifiche.

Spiegazioni Estraibili

Le citazioni e le parole chiave fungono da spiegazioni estrattive in questo metodo di prompting. Le spiegazioni estrattive consistono in porzioni del testo di input create insieme alla risposta del modello. Questi estratti aiutano a chiarire o giustificare la classificazione del modello.

Catene di Ragionamento Fondamentato

Il layout del nostro prompt è simile ai prompting basati sul chain-of-thought dove i modelli affrontano compiti di ragionamento o matematica. Il nostro ragionamento è diviso in tre fasi. Due fasi coinvolgono l'estrazione di parole chiave rilevanti dal commento e citazioni applicabili dalle linee guida. L'ultima fase è una spiegazione che delinea l'argomento. Anche le nostre esigenze di soft-prompt tuning plasmano la progettazione del prompt.

Tag XML

Altre ricerche hanno usato intestazioni di sezione per organizzare i prompt, ma abbiamo trovato che questo approccio era instabile con commenti più lunghi. Abbiamo optato per un markup in stile XML per definire chiaramente le diverse parti del prompt, ottenendo risposte del modello più coerenti.

Soft Prompt Tuning Spiegato

Il soft prompt tuning implica l'addestramento di un modello su alcune centinaia o migliaia di esempi. In questo approccio, i parametri del modello rimangono invariati. Invece, aggiungiamo alcuni token artificiali all'inizio di ogni input e regoliamo le rappresentazioni di questi token attraverso la discesa del gradiente.

Questo metodo ci consente di applicare un unico, costoso modello fondazionale a vari compiti.

Dimensione del Dataset di Addestramento

Selezioniamo un piccolo set di esempi di addestramento per il processo di tuning del prompt. Questo riflette come intendiamo applicare i modelli fondazionali in situazioni reali. Se sono disponibili dati di addestramento sufficienti, potremmo usare modelli più piccoli come BERT. Anche se i modelli BERT sono più economici da eseguire, richiedono più supervisione. Pertanto, utilizziamo modelli fondazionali quando i dati etichettati sono limitati, lavorando tipicamente con dataset di dimensioni comprese tra 50 e 5.000 esempi.

Combinare il Prompt Tuning con Spiegazioni

Supponiamo che la supervisione sia presente solo per la classificazione del modello (tossico o meno). Non c'è supervisione per le spiegazioni estrattive poiché generare tale supervisione è più difficile. Tuttavia, vogliamo che il modello messo a punto produca spiegazioni estrattive, quindi includiamo l'hard prompt durante le fasi di tuning e inferenza.

Abbiamo scoperto che usare l'hard prompt durante l'inferenza non era efficace quando il soft prompt veniva usato da solo, poiché non generava spiegazioni; continuava solo a produrre output 'Sì' o 'No'.

Sperimentazione con la Rilevazione di Tossicità

Abbiamo testato i nostri metodi sul dataset di rilevazione della tossicità, dove l'obiettivo è classificare il testo come tossico o non tossico. Il dataset consiste di circa 2 milioni di esempi. Abbiamo ridotto il campione dei casi negativi per creare suddivisioni bilanciate di addestramento, validazione e test. Abbiamo campionato casualmente varie dimensioni del set di addestramento da 50, 100, 200, 500, 1.000, 2.000 e 5.000 per valutare le prestazioni.

Risultati degli Esperimenti

Ci siamo concentrati su tre modelli di dimensioni diverse: 62B FLAN-cont-PaLM, 540B FLAN-PaLM e 540B FLAN-U-PaLM. Questi modelli includono l'istruzione tuning da FLAN, rendendoli efficaci per prestazioni few-shot e zero-shot su diversi benchmark.

Revisione delle Prestazioni

Abbiamo condotto studi di ablazione utilizzando il modello 540B FLAN-U-PaLM. Gli studi hanno confrontato le prestazioni del nostro prompt in diverse condizioni. Il 'baseline' si riferisce alla nostra configurazione standard, e abbiamo regolato elementi del prompt per vedere come influenzavano le prestazioni.

Processo di Tuning del Prompt

Abbiamo messo a punto un prompt con 100 token per il modello da 62B e 40 token per i modelli da 540B. L'addestramento ha coinvolto un metodo di ottimizzazione di base chiamato Adam e abbiamo mantenuto un tasso di apprendimento costante.

Testare dimensioni di dataset variabili ha mostrato che le nostre prestazioni sono migliorate significativamente anche con esempi minimi, aumentando gradualmente con l'aggiunta di dati.

Comprendere il Ruolo degli Esempi

Nell'apprendimento automatico tradizionale, gli esempi determinano come vengono impostate le frontiere decisionali. Fornire più esempi generalmente aumenta le previsioni per quella classe. Tuttavia, con i modelli fondazionali, gli esempi forniti agiscono come casi tipici. Aggiungere esempi estremi potrebbe portare a meno previsioni per quella classe, risultando in mancanza di casi sfumati.

Approfondimenti sulle Predizioni e Valutazioni del Modello

Il modello di linguaggio opera prima producendo "Sì" o "No". La probabilità associata al token "Sì" può servire come punteggio di confidenza per l'esempio, aiutando a filtrare i casi incerti per la revisione umana.

Sensibilità alla Tokenizzazione

Il punteggio del modello può cambiare in base a come viene tokenizzato il testo. Ad esempio, se modifichiamo lo spazio nei nostri tag XML, le risposte e il punteggio del modello potrebbero cambiare, rendendo importante mantenere un formato coerente.

Utilizzare i Modelli per Identificare Commenti Etichettati Ingiustamente

Possiamo utilizzare i modelli fondazionali per individuare esempi che sono stati etichettati in modo errato. Analizzando le previsioni, possiamo concentrarci su commenti che presentano un significativo divario tra le valutazioni umane e i punteggi del modello.

Conclusione

In sintesi, i modelli fondazionali sono molto efficaci per rilevare violazioni delle politiche con supervisione minima. Il flusso di lavoro proposto si basa su meno esempi etichettati, consentendo ai team di implementare nuove politiche più rapidamente.

Il primo passo prevede di utilizzare una descrizione di una politica insieme a pochi esempi etichettati per creare un prompt. Questo viene testato sui dati per affinare il prompt in base alle sue prestazioni.

I prossimi passi prevedono la creazione di un set di addestramento per il soft-prompt tuning. Dopo l'addestramento, il modello viene valutato e possono essere apportate modifiche prima del dispiegamento.

Se il modello mostra alta confidenza, il suo output può essere accettato. Gli esempi meno certi possono essere inviati per valutazione umana, aggiungendo dati preziosi per futuri addestramenti.

Questo approccio porta a un miglioramento nell'efficienza e nell'accuratezza nella rilevazione delle violazioni delle politiche.

Sviluppi nella rilevazione delle violazioni delle politiche usando modelli di base

Sfruttare i modelli di base per rilevare le violazioni delle politiche in modo efficiente con minima supervisione.

Contributi Chiave

Modelli Fondazionali e Loro Applicazioni

Focus sulla Rilevazione di Tossicità

Stato Attuale della Rilevazione di Tossicità

Progettazione del Prompt

Struttura dell'Hard Prompt

Spiegazioni Estraibili

Catene di Ragionamento Fondamentato

Tag XML

Soft Prompt Tuning Spiegato

Dimensione del Dataset di Addestramento

Combinare il Prompt Tuning con Spiegazioni

Sperimentazione con la Rilevazione di Tossicità

Risultati degli Esperimenti

Revisione delle Prestazioni

Processo di Tuning del Prompt

Comprendere il Ruolo degli Esempi

Approfondimenti sulle Predizioni e Valutazioni del Modello

Sensibilità alla Tokenizzazione

Utilizzare i Modelli per Identificare Commenti Etichettati Ingiustamente

Conclusione

Link di riferimento

Argomenti citati

Sviluppi nella rilevazione delle violazioni delle politiche usando modelli di base

Sfruttare i modelli di base per rilevare le violazioni delle politiche in modo efficiente con minima supervisione.

#Contributi Chiave

#Modelli Fondazionali e Loro Applicazioni

#Focus sulla Rilevazione di Tossicità

#Stato Attuale della Rilevazione di Tossicità

#Progettazione del Prompt

#Struttura dell'Hard Prompt

#Spiegazioni Estraibili

#Catene di Ragionamento Fondamentato

#Tag XML

#Soft Prompt Tuning Spiegato

#Dimensione del Dataset di Addestramento

#Combinare il Prompt Tuning con Spiegazioni

#Sperimentazione con la Rilevazione di Tossicità

#Risultati degli Esperimenti

#Revisione delle Prestazioni

#Processo di Tuning del Prompt

#Comprendere il Ruolo degli Esempi

#Approfondimenti sulle Predizioni e Valutazioni del Modello

#Sensibilità alla Tokenizzazione

#Utilizzare i Modelli per Identificare Commenti Etichettati Ingiustamente

#Conclusione

Link di riferimento

Argomenti citati

Contributi Chiave

Modelli Fondazionali e Loro Applicazioni

Focus sulla Rilevazione di Tossicità

Stato Attuale della Rilevazione di Tossicità

Progettazione del Prompt

Struttura dell'Hard Prompt

Spiegazioni Estraibili

Catene di Ragionamento Fondamentato

Tag XML

Soft Prompt Tuning Spiegato

Dimensione del Dataset di Addestramento

Combinare il Prompt Tuning con Spiegazioni

Sperimentazione con la Rilevazione di Tossicità

Risultati degli Esperimenti

Revisione delle Prestazioni

Processo di Tuning del Prompt

Comprendere il Ruolo degli Esempi

Approfondimenti sulle Predizioni e Valutazioni del Modello

Sensibilità alla Tokenizzazione

Utilizzare i Modelli per Identificare Commenti Etichettati Ingiustamente

Conclusione