Avanzamenti nella classificazione dell'intento del parlato e nel riempimento degli slot
Questo articolo esplora un nuovo modello per l'identificazione dell'intento e dei slot nel parlato.
― 6 leggere min
Indice
- Panoramica sulla classificazione dell'intento vocale e il riempimento degli slot
- L'importanza del pre-addestramento
- Modello Conformer-Transformer
- Risultati chiave
- L'approccio proposto
- Dataset e impostazioni
- Confronto delle prestazioni
- Dettagli sull'implementazione
- Ulteriori studi sull'efficienza dei parametri
- Analisi delle tecniche di pre-addestramento
- Dimensione del vocabolario
- Conclusione
- Fonte originale
- Link di riferimento
Nel campo dell'intelligenza artificiale conversazionale, capire il linguaggio parlato è fondamentale. Questo processo implica identificare l'intento dell'utente e riempire i dettagli necessari, un compito noto come classificazione dell'intento vocale e riempimento degli slot (SICSF). Questo articolo discute un metodo che utilizza efficacemente un tipo di modello chiamato Conformer-Transformer, che inizia con un encoder di riconoscimento vocale pre-addestrato per raggiungere un'alta precisione in quest'area.
Panoramica sulla classificazione dell'intento vocale e il riempimento degli slot
La classificazione dell'intento vocale cerca di determinare cosa vuole un utente, mentre il riempimento degli slot estrae informazioni specifiche dal suo discorso. Questo processo è parte della comprensione del linguaggio parlato (SLU), che mira a derivare dati significativi dalle parole pronunciate. Lo SLU può coprire varie attività, tra cui il riconoscimento delle emozioni nel discorso o rispondere a domande.
Ci sono principalmente due tipi di modelli per lo SLU:
Modelli a cascata: Questi prima convertono le parole pronunciate in testo usando il riconoscimento vocale automatico (ASR), e poi applicano un modello di comprensione del linguaggio naturale (NLU) per analizzare il testo.
Modelli end-to-end (E2E): Questi prevedono direttamente l'intento e i dettagli dall'audio senza prima convertirlo in testo.
I modelli E2E possono essere vantaggiosi perché eliminano gli errori potenziali che potrebbero verificarsi nel trasferire informazioni da ASR a NLU nei modelli a cascata. Tuttavia, hanno limitazioni poiché non possono utilizzare grandi modelli linguistici pre-addestrati come BERT, che possono migliorare la comprensione.
L'importanza del pre-addestramento
In questo studio, il pre-addestramento si riferisce all'uso di un modello addestrato su un compito diverso prima di adattarlo per SICSF. Ci concentriamo sull'uso di un modello inizializzato con dati di riconoscimento vocale. Questo approccio è diverso dall'apprendimento auto-supervisionato (SSL), in cui un modello impara a distinguere elementi all'interno dei suoi input. La somiglianza del compito ASR con SICSF rende i modelli pre-addestrati con ASR più efficaci.
Modello Conformer-Transformer
Il modello proposto utilizza un framework Conformer-Transformer. Il Conformer funge da encoder, estraendo caratteristiche dall'input audio, mentre il Transformer serve come decoder, convertendo queste caratteristiche negli output desiderati di intento e slot.
Il processo che utilizziamo implica trattare il compito SICSF come un'assegnazione audio-testo. Pertanto, partiamo da un encoder pre-addestrato con ASR, che è più appropriato per questo compito rispetto a un encoder pre-addestrato con SSL.
Risultati chiave
Efficacia
Il nostro modello Conformer-Transformer supera i benchmark precedenti nel dataset SLURP, raggiungendo un'accuratezza del 90,14% per la rilevazione dell'intento e dell'82,27% per il riempimento degli slot. Questo vantaggio conferma che utilizzare un encoder pre-addestrato con ASR è vantaggioso grazie alle somiglianze del compito.
Efficienza
Abbiamo anche esaminato quanto efficacemente il nostro modello utilizza i parametri. Congelando l'encoder e incorporando moduli Adapter, dimostriamo che l'efficienza del modello può essere massimizzata partendo da un encoder pre-addestrato con ASR. In confronto, i modelli che partono da un encoder pre-addestrato con SSL richiedono un riaddestramento completo per ottenere buoni risultati.
E2E vs. Modelli a cascata
Quando confrontiamo il nostro modello E2E con i modelli a cascata, troviamo che il nostro modello si comporta altrettanto bene rispetto ai modelli a cascata dotati di un sistema ASR ideale. Al contrario, la maggior parte dei modelli E2E precedenti è indietro in termini di prestazioni.
L'approccio proposto
Il nostro approccio ha incorporato il Conformer come encoder poiché è ampiamente riconosciuto nel settore. Questa scelta deriva dalla sua forte prestazione nei compiti ASR. A differenza dei tipici compiti ASR, il compito SICSF non insiste nel mantenere un ordine rigoroso nell'output, consentendoci di utilizzare il Transformer come decoder per una migliore comprensione del contesto.
Strutturiamo la semantica dell'output in un formato facilmente elaborabile e valutabile come un dizionario Python prima di convertirlo nuovamente nel formato necessario durante l'inferenza.
Dataset e impostazioni
Per valutare le prestazioni del nostro modello, abbiamo utilizzato il dataset SLURP, che consiste in registrazioni audio nelle fasi di addestramento, sviluppo e test. Ci siamo concentrati sull'accuratezza dell'intento e sulle metriche SLURP per la valutazione.
Confronto delle prestazioni
Nei nostri assessment, abbiamo confrontato il nostro modello E2E con diversi modelli standard, sia E2E che a cascata. I risultati hanno indicato che mentre i modelli a cascata con sistemi ASR ideali si sono comportati bene, il nostro modello E2E ha raggiunto prestazioni comparabili senza necessitare di ampie regolazioni dei parametri o di riaddestramento.
Il nostro modello si distingue anche per l'uso efficiente dei parametri, dimostrando alte prestazioni con meno parametri rispetto ad altri modelli.
Dettagli sull'implementazione
La nostra implementazione ha utilizzato framework popolari come PyTorch e NeMo. Abbiamo impostato adeguatamente la dimensione del vocabolario e le dimensioni dei token per il compito. Utilizzando Adam come ottimizzatore, abbiamo applicato una strategia di learning rate adatta sia per i componenti encoder che decoder.
I risultati di vari confronti hanno messo in evidenza l'efficacia di utilizzare un modello ASR ben preparato rispetto ai modelli SSL meno preparati.
Ulteriori studi sull'efficienza dei parametri
Gli Adapter sono stati introdotti per massimizzare l'efficienza dei parametri. Aggiungendo un piccolo numero di parametri mentre congeliamo il modello principale, abbiamo mirato a raggiungere livelli di prestazione che rivaleggiano con l'addestramento completo del modello.
Per gli encoder pre-addestrati con SSL, congelare semplicemente il modello ha ridotto significativamente le prestazioni, evidenziando la necessità di parametri extra. Al contrario, l'encoder pre-addestrato con ASR si è comportato molto meglio anche quando congelato, indicando che era già ben equipaggiato per il compito.
I risultati suggeriscono che un encoder pre-addestrato con ASR ben preparato può fornire un vantaggio in termini di prestazioni minimizzando il numero di parametri richiesti.
Analisi delle tecniche di pre-addestramento
La nostra esplorazione delle tecniche di pre-addestramento ha confermato che partire da un solido encoder pre-addestrato con ASR produce risultati migliori rispetto a SSL o partire da zero. Il vantaggio è rimasto significativo anche con diverse dimensioni del dataset, mostrando l'efficienza del pre-addestramento ASR quando applicato a questo compito.
Dimensione del vocabolario
Abbiamo anche esaminato in che modo la dimensione del vocabolario influenzasse le prestazioni dei nostri modelli. Abbiamo scoperto che una dimensione del vocabolario più piccola era preferibile per raggiungere punteggi F1 più elevati nel nostro modello, a differenza delle prestazioni dei modelli a cascata, che tendono a migliorare con dimensioni del vocabolario più grandi.
Conclusione
In sintesi, il nostro modello Conformer-Transformer dimostra l'efficacia di utilizzare un encoder pre-addestrato con ASR per la classificazione dell'intento vocale e il riempimento degli slot. Raggiunge risultati all'avanguardia nel dataset SLURP e mostra che i modelli E2E possono competere con i modelli a cascata quando si utilizzano sistemi ASR robusti. Inoltre, il nostro lavoro evidenzia l'efficienza del pre-addestramento ASR rispetto a SSL e il valore di metodi di efficienza dei parametri come gli Adapter.
Questo studio fornisce una solida base per future ricerche nell'area della comprensione del linguaggio parlato, mostrando il potenziale per migliorare l'IA conversazionale attraverso una progettazione attenta dei modelli e approcci di pre-addestramento.
Titolo: Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
Estratto: We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to initialize an end-to-end (E2E) Conformer-Transformer model, which achieves the new state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and 82.27% SLURP-F1. We compare our model with encoders pretrained on self-supervised learning (SSL), and show that ASR pretraining is much more effective than SSL for SICSF. To explore parameter efficiency, we freeze the encoder and add Adapter modules, and show that parameter efficiency is only achievable with an ASR-pretrained encoder, while the SSL encoder needs full finetuning to achieve comparable results. In addition, we provide an in-depth comparison on end-to-end models versus cascading models (ASR+NLU), and show that E2E models are better than cascaded models unless an oracle ASR model is provided. Last but not least, our model is the first E2E model that achieves the same performance as cascading models with oracle ASR. Code, checkpoints and configs are available.
Autori: He Huang, Jagadeesh Balam, Boris Ginsburg
Ultimo aggiornamento: 2023-07-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.07057
Fonte PDF: https://arxiv.org/pdf/2307.07057
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/NVIDIA/NeMo/tree/main/examples/slu/speech_intent_slot
- https://github.com/NVIDIA/NeMo
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/ssl_en_conformer_large
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_en_conformer_ctc_large
- https://cloud.google.com/speech-to-text/docs/latest-models
- https://docs.nvidia.com/deeplearning/riva/user-guide/docs/reference/models/asr.html
- https://openai.com/blog/chatgpt