Sviluppi nella rilevazione delle violazioni delle politiche usando modelli di base
Sfruttare i modelli di base per rilevare le violazioni delle politiche in modo efficiente con minima supervisione.
― 8 leggere min
I modelli fondazionali sono grandi reti neurali addestrate su enormi quantità di testo. Hanno cambiato molto il modo in cui gestiamo l'elaborazione del linguaggio naturale (NLP). Questi modelli possono ricevere istruzioni dirette, conosciute come hard prompting. Possono anche essere adattati con dati minimi, chiamati Soft Prompting. Il nostro obiettivo è usare questi modelli per identificare rapidamente le violazioni delle politiche.
Contributi Chiave
Abbiamo creato un hard prompt che personalizza il prompting basato sul chain-of-thought per rilevare le violazioni delle politiche. Questo prompt aiuta a classificare se un testo viola le politiche e fornisce motivazioni per queste classificazioni.
Abbiamo combinato hard prompts con soft-Prompt Tuning in modo che il nostro classificatore possa raggiungere alta accuratezza con poca supervisione. Il classificatore può anche fornire spiegazioni. Anche se la supervisione influisce solo sulle classificazioni, le spiegazioni modificate sono coerenti con le risposte del modello.
Durante il nostro lavoro, abbiamo trovato diverse caratteristiche sorprendenti dei modelli fondazionali. Per esempio, fornire troppi esempi da una classe specifica può portare a meno previsioni per quella classe. Abbiamo anche notato che il modo in cui il testo viene suddiviso in token influisce sul punteggio.
Basandoci su queste scoperte, proponiamo un processo semplice per i team di prodotto per creare strumenti efficaci per rilevare rapidamente le violazioni delle politiche.
Modelli Fondazionali e Loro Applicazioni
I grandi modelli di linguaggio addestrati su ampie collezioni di testo sono conosciuti come modelli fondazionali. Questi modelli performano davvero bene in vari compiti, tra cui traduzione, rispondere a domande fattuali, risolvere problemi matematici e usare il buon senso.
I modelli fondazionali possono essere istruiti a eseguire compiti specifici tramite prompting. Possono anche essere raffinati utilizzando una piccola quantità di dati, spesso chiamata soft-prompt tuning.
Focus sulla Rilevazione di Tossicità
Vogliamo utilizzare i modelli fondazionali per individuare le violazioni delle politiche, specificamente attraverso un compito di rilevazione della tossicità. Questo compito implica identificare se un testo è offensivo, pieno di odio o contiene riferimenti osceni. Potrebbe includere commenti su articoli di notizie, video o discussioni in forum online. Attualmente, questo compito viene svolto attraverso un mix di sforzo umano e elaborazione automatica. Gli umani etichettano i dati e le macchine utilizzano questi dati per classificarli.
Raccogliere dati, guidare i valutatori e creare modelli usando l'apprendimento supervisionato è un processo laborioso. Usare i prompt può aiutare in compiti una tantum dove i costi di raccolta dei dati sono alti, o quando sono necessari cambiamenti rapidi nelle istruzioni, o quando si testano nuove istruzioni per i valutatori.
Ci aspettiamo che i modelli fondazionali abbiano alcune conoscenze su cosa costituisce tossicità poiché sono stati addestrati su vari testi del web, articoli di notizie e social media.
Stato Attuale della Rilevazione di Tossicità
Altri modelli, come BERT, hanno raggiunto risultati ottimali nella rilevazione della tossicità. Tuttavia, non ci sono stati benchmark precedenti usando modelli di queste dimensioni con supervisione minima.
Progettazione del Prompt
Un hard prompt include istruzioni testuali e può avere alcuni esempi di input e output desiderati. Questo prompt viene aggiunto all'input fornito al modello fondazionale.
Struttura dell'Hard Prompt
Il nostro hard prompt ha linee guida per il compito, seguite da alcuni esempi, che includono un commento, una risposta, una spiegazione, citazioni e parole chiave. Questa struttura consente al modello di alternare tra la generazione di spiegazioni e la fornitura di parole chiave o citazioni specifiche.
Spiegazioni Estraibili
Le citazioni e le parole chiave fungono da spiegazioni estrattive in questo metodo di prompting. Le spiegazioni estrattive consistono in porzioni del testo di input create insieme alla risposta del modello. Questi estratti aiutano a chiarire o giustificare la classificazione del modello.
Catene di Ragionamento Fondamentato
Il layout del nostro prompt è simile ai prompting basati sul chain-of-thought dove i modelli affrontano compiti di ragionamento o matematica. Il nostro ragionamento è diviso in tre fasi. Due fasi coinvolgono l'estrazione di parole chiave rilevanti dal commento e citazioni applicabili dalle linee guida. L'ultima fase è una spiegazione che delinea l'argomento. Anche le nostre esigenze di soft-prompt tuning plasmano la progettazione del prompt.
Tag XML
Altre ricerche hanno usato intestazioni di sezione per organizzare i prompt, ma abbiamo trovato che questo approccio era instabile con commenti più lunghi. Abbiamo optato per un markup in stile XML per definire chiaramente le diverse parti del prompt, ottenendo risposte del modello più coerenti.
Soft Prompt Tuning Spiegato
Il soft prompt tuning implica l'addestramento di un modello su alcune centinaia o migliaia di esempi. In questo approccio, i parametri del modello rimangono invariati. Invece, aggiungiamo alcuni token artificiali all'inizio di ogni input e regoliamo le rappresentazioni di questi token attraverso la discesa del gradiente.
Questo metodo ci consente di applicare un unico, costoso modello fondazionale a vari compiti.
Dimensione del Dataset di Addestramento
Selezioniamo un piccolo set di esempi di addestramento per il processo di tuning del prompt. Questo riflette come intendiamo applicare i modelli fondazionali in situazioni reali. Se sono disponibili dati di addestramento sufficienti, potremmo usare modelli più piccoli come BERT. Anche se i modelli BERT sono più economici da eseguire, richiedono più supervisione. Pertanto, utilizziamo modelli fondazionali quando i dati etichettati sono limitati, lavorando tipicamente con dataset di dimensioni comprese tra 50 e 5.000 esempi.
Combinare il Prompt Tuning con Spiegazioni
Supponiamo che la supervisione sia presente solo per la classificazione del modello (tossico o meno). Non c'è supervisione per le spiegazioni estrattive poiché generare tale supervisione è più difficile. Tuttavia, vogliamo che il modello messo a punto produca spiegazioni estrattive, quindi includiamo l'hard prompt durante le fasi di tuning e inferenza.
Abbiamo scoperto che usare l'hard prompt durante l'inferenza non era efficace quando il soft prompt veniva usato da solo, poiché non generava spiegazioni; continuava solo a produrre output 'Sì' o 'No'.
Sperimentazione con la Rilevazione di Tossicità
Abbiamo testato i nostri metodi sul dataset di rilevazione della tossicità, dove l'obiettivo è classificare il testo come tossico o non tossico. Il dataset consiste di circa 2 milioni di esempi. Abbiamo ridotto il campione dei casi negativi per creare suddivisioni bilanciate di addestramento, validazione e test. Abbiamo campionato casualmente varie dimensioni del set di addestramento da 50, 100, 200, 500, 1.000, 2.000 e 5.000 per valutare le prestazioni.
Risultati degli Esperimenti
Ci siamo concentrati su tre modelli di dimensioni diverse: 62B FLAN-cont-PaLM, 540B FLAN-PaLM e 540B FLAN-U-PaLM. Questi modelli includono l'istruzione tuning da FLAN, rendendoli efficaci per prestazioni few-shot e zero-shot su diversi benchmark.
Revisione delle Prestazioni
Abbiamo condotto studi di ablazione utilizzando il modello 540B FLAN-U-PaLM. Gli studi hanno confrontato le prestazioni del nostro prompt in diverse condizioni. Il 'baseline' si riferisce alla nostra configurazione standard, e abbiamo regolato elementi del prompt per vedere come influenzavano le prestazioni.
Processo di Tuning del Prompt
Abbiamo messo a punto un prompt con 100 token per il modello da 62B e 40 token per i modelli da 540B. L'addestramento ha coinvolto un metodo di ottimizzazione di base chiamato Adam e abbiamo mantenuto un tasso di apprendimento costante.
Testare dimensioni di dataset variabili ha mostrato che le nostre prestazioni sono migliorate significativamente anche con esempi minimi, aumentando gradualmente con l'aggiunta di dati.
Comprendere il Ruolo degli Esempi
Nell'apprendimento automatico tradizionale, gli esempi determinano come vengono impostate le frontiere decisionali. Fornire più esempi generalmente aumenta le previsioni per quella classe. Tuttavia, con i modelli fondazionali, gli esempi forniti agiscono come casi tipici. Aggiungere esempi estremi potrebbe portare a meno previsioni per quella classe, risultando in mancanza di casi sfumati.
Approfondimenti sulle Predizioni e Valutazioni del Modello
Il modello di linguaggio opera prima producendo "Sì" o "No". La probabilità associata al token "Sì" può servire come punteggio di confidenza per l'esempio, aiutando a filtrare i casi incerti per la revisione umana.
Sensibilità alla Tokenizzazione
Il punteggio del modello può cambiare in base a come viene tokenizzato il testo. Ad esempio, se modifichiamo lo spazio nei nostri tag XML, le risposte e il punteggio del modello potrebbero cambiare, rendendo importante mantenere un formato coerente.
Utilizzare i Modelli per Identificare Commenti Etichettati Ingiustamente
Possiamo utilizzare i modelli fondazionali per individuare esempi che sono stati etichettati in modo errato. Analizzando le previsioni, possiamo concentrarci su commenti che presentano un significativo divario tra le valutazioni umane e i punteggi del modello.
Conclusione
In sintesi, i modelli fondazionali sono molto efficaci per rilevare violazioni delle politiche con supervisione minima. Il flusso di lavoro proposto si basa su meno esempi etichettati, consentendo ai team di implementare nuove politiche più rapidamente.
Il primo passo prevede di utilizzare una descrizione di una politica insieme a pochi esempi etichettati per creare un prompt. Questo viene testato sui dati per affinare il prompt in base alle sue prestazioni.
I prossimi passi prevedono la creazione di un set di addestramento per il soft-prompt tuning. Dopo l'addestramento, il modello viene valutato e possono essere apportate modifiche prima del dispiegamento.
Se il modello mostra alta confidenza, il suo output può essere accettato. Gli esempi meno certi possono essere inviati per valutazione umana, aggiungendo dati preziosi per futuri addestramenti.
Questo approccio porta a un miglioramento nell'efficienza e nell'accuratezza nella rilevazione delle violazioni delle politiche.
Titolo: Using Foundation Models to Detect Policy Violations with Minimal Supervision
Estratto: Foundation models, i.e. large neural networks pre-trained on large text corpora, have revolutionized NLP. They can be instructed directly (e.g. (arXiv:2005.14165)) - this is called hard prompting - and they can be tuned using very little data (e.g. (arXiv:2104.08691)) - this technique is called soft prompting. We seek to leverage their capabilities to detect policy violations. Our contributions are: We identify a hard prompt that adapts chain-of-thought prompting to policy violation tasks. This prompt produces policy violation classifications, along with extractive explanations that justify the classification. We compose the hard-prompts with soft prompt tuning to produce a classifier that attains high accuracy with very little supervision; the same classifier also produces explanations. Though the supervision only acts on the classifications, we find that the modified explanations remain consistent with the (tuned) model's response. Along the way, we identify several unintuitive aspects of foundation models. For instance, adding an example from a specific class can actually reduce predictions of that class, and separately, the effects of tokenization on scoring etc. Based on our technical results, we identify a simple workflow for product teams to quickly develop effective policy violation detectors.
Autori: Sid Mittal, Vineet Gupta, Frederick Liu, Mukund Sundararajan
Ultimo aggiornamento: 2023-06-09 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.06234
Fonte PDF: https://arxiv.org/pdf/2306.06234
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://q.uiver.app/?q=WzAsMTAsWzAsMCwiQ3JlYXRlXFwgR3VpZGVsaW5lc1xcXFwgYW5kXFwgRXhhbXBsZXMiXSxbMCwxLCJFdmFsdWF0ZSJdLFsxLDEsIkZpeFxcIHByb21wdCJdLFswLDIsIlNjb3JlXFwgZXhhbXBsZXMiXSxbMCwzLCJTZWxlY3QvbGFiZWxcXCBleGFtcGxlcyJdLFswLDQsIlRyYWluXFxcXCBzb2Z0LXByb21wdCAiXSxbMCw1LCJFdmFsdWF0ZSJdLFsyLDQsIlNjb3JlXFwgbmV3XFxcXCBleGFtcGxlcyJdLFs0LDQsIkFjY2VwdCJdLFsyLDMsIkh1bWFuXFxcXCBldmFsIl0sWzAsMV0sWzEsMiwiRXJyb3JzPyJdLFsxLDMsIk9LPyJdLFszLDRdLFs0LDVdLFs1LDZdLFs2LDIsIkVycm9ycz8iLDAseyJsYWJlbF9wb3NpdGlvbiI6ODAsImN1cnZlIjo1fV0sWzYsNCwiQWRkXFwgdG9cXFxcIHNldCIsMCx7Im9mZnNldCI6LTQsImN1cnZlIjotNX1dLFs1LDcsIiIsMCx7ImNvbG91ciI6WzIyOCw5OSw2MF19XSxbNyw4LCJoaWdoXFxcXCBjZXJ0YWludHkiLDAseyJjb2xvdXIiOlsyMjgsOTksNjBdfSxbMjI4LDk5LDYwLDFdXSxbNyw5LCJVbmNlcnRhaW4iLDAseyJjb2xvdXIiOlsyMjksOTEsNjBdfSxbMjI5LDkxLDYwLDFdXSxbOSw0LCJBZGRcXCB0b1xcIHRyYWluaW5nIiwwLHsiY29sb3VyIjpbMjI5LDkxLDYwXX0sWzIyOSw5MSw2MCwxXV0sWzIsMSwiIiwyLHsiY3VydmUiOjN9XV0=