Melhorando o Reconhecimento de Fala com Modelos Avançados
Novos métodos melhoram o processamento de fala em modelos de linguagem.
― 6 min ler
Índice
Modelos de Linguagem Grande (LLMs) são programas de computador feitos pra entender e gerar linguagem humana. Recentemente, esses modelos começaram a ser usados em fala, que é como a gente se comunica verbalmente. Mas, tem alguns desafios quando se usa LLMs pra fala, porque eles às vezes não entendem direito o que foi dito, resultando em erros. Pra melhorar como esses modelos lidam com fala, a gente desenvolveu um novo método que junta processamento de fala e texto.
O Problema
Em muitos sistemas de fala, primeiro um programa chamado Reconhecimento Automático de Fala (ASR) escuta o que tá sendo dito e depois transforma isso em texto escrito. Esse texto é então processado por outro programa chamado Compreensão de Linguagem Natural (NLU), que ajuda o computador a entender o significado. Mas, se o ASR escuta algo errado, o NLU não vai ter as informações certas pra trabalhar. Isso pode levar a mal-entendidos e erros.
Outro problema é que tanto ASR quanto LLMs podem ter dificuldades com palavras ou entidades que eles não foram treinados, especialmente termos raros ou específicos. Por exemplo, se alguém mencionar o nome de um restaurante incomum, o modelo pode não saber o que é.
Nossa Abordagem
Pra resolver esses problemas, a gente introduziu um modelo que processa fala e texto ao mesmo tempo. Criamos um tipo de modelo chamado adaptador de Fala pra Texto (STT). Esse adaptador pega as palavras faladas e traduz pra um formato que os LLMs conseguem entender facilmente, mantendo o significado das palavras.
Além disso, criamos outro componente chamado recuperador de Fala pra Entidade (STE). O trabalho desse recuperador é identificar nomes ou termos importantes do que foi dito. Ele compara a fala com um banco de dados de entidades conhecidas pra encontrar as informações mais relevantes e usa isso pra melhorar o desempenho do modelo em entender a fala.
Contexto da Tarefa de Compreensão da Fala
Nosso foco é numa tarefa específica conhecida como rastreamento de estado de diálogo (DST). Essa tarefa envolve acompanhar o que um usuário tá dizendo e entender os pedidos dele em conversas. Usamos um conjunto de dados bem conhecido chamado MultiWoz pra treinar nosso modelo. Esse conjunto é composto por conversas entre pessoas discutindo vários tópicos, como reservas de hotel e horários de trem.
Nesse desafio, a gente trocou as respostas escritas por faladas. Essa mudança deixou a tarefa mais desafiadora porque a linguagem falada muitas vezes tem nuances diferentes em comparação com a linguagem escrita.
Como o Modelo Funciona
Nosso modelo leva em consideração tanto a entrada falada quanto o texto das trocas anteriores. Ele usa a própria fala junto com um histórico de conversas passadas pra gerar respostas.
A cada turno de uma conversa, nosso modelo prevê o que o usuário tá perguntando ou pedindo com base na fala dele e no contexto dado pelos turnos anteriores.
Adaptador de Fala pra Texto
O adaptador STT funciona como uma ponte entre palavras faladas e texto. Ele usa camadas de auto-atendimento pra converter a entrada de fala em embeddings de texto – um termo mais técnico pra uma representação matemática do texto. Filtrando partes desnecessárias da fala, o adaptador ajuda a agilizar o processo.
Antes do modelo ser totalmente treinado, o adaptador STT precisa passar por uma fase de pré-treinamento pra garantir que ele mapeie a fala de forma eficaz pro texto. Durante esse tempo, o modelo aprende a reconhecer padrões e relações entre as palavras faladas e suas formas escritas.
Recuperador de Fala pra Entidade
O recuperador STE extrai entidades importantes como nomes de hotéis ou restaurantes da entrada de fala. Ele usa um sistema de codificação dupla, onde compara as características acústicas da fala com uma lista de possíveis entidades. Medindo o quão semelhante a fala é a essas entidades, o recuperador consegue encontrar e selecionar as mais relevantes.
O recuperador é treinado em um conjunto de entidades conhecidas pra garantir que ele reconheça e recupere as certas da entrada falada. Durante o processo de escuta, ele pode rapidamente buscar as entidades mais relevantes, o que ajuda a melhorar a capacidade do modelo de entender pedidos relacionados a essas entidades.
Experimentação e Resultados
Pra ver se nosso modelo funciona melhor do que os métodos anteriores, testamos ele na tarefa de DST. Avaliamos o desempenho do modelo em reconhecer fala e em entender o que os usuários estavam pedindo.
Comparamos várias configurações, incluindo se o adaptador STT estava incluído ou se usamos o recuperador STE. Nossos resultados mostraram melhorias significativas no desempenho quando usamos ambos os componentes juntos.
Desempenho no Rastreamento de Estado de Diálogo
A gente mediu o quão bem nosso modelo conseguiu entender os estados de diálogo usando métricas como Precisão de Objetivo Conjunto (JGA) e Taxa de Erro de Slot (SER). A JGA mede com que frequência o modelo entendeu corretamente a intenção do usuário, enquanto a SER analisa quantos erros foram cometidos ao reconhecer informações específicas.
Os resultados mostraram que quando incluímos o adaptador STT e o recuperador STE em nosso modelo, vimos melhorias marcantes nas pontuações de JGA e SER. Isso significa que nosso modelo ficou mais preciso com menos erros ao rastrear os estados de diálogo.
Desempenho no Reconhecimento de Fala
A gente também avaliou como nosso modelo se saiu na tarefa de reconhecer fala. Comparando a taxa de erro de palavras (WER) – que mede com que frequência as palavras reconhecidas diferem do que foi realmente dito – descobrimos que nosso modelo superou os modelos de referência existentes.
A inclusão do adaptador STT melhorou muito o desempenho em geral, enquanto o recuperador STE trouxe melhorias adicionais ao focar nas entidades relevantes.
Conclusão
Nossa abordagem de combinar compreensão de fala com modelos de linguagem grande mostrou resultados promissores. Integrando o adaptador de Fala pra Texto e o recuperador de Fala pra Entidade, melhoramos a precisão e a compreensão de pedidos falados em conversas.
Esse novo método permite uma comunicação mais eficaz entre humanos e máquinas, fechando a lacuna que muitas vezes existe na fala processada. À medida que continuamos a aperfeiçoar nosso modelo, esperamos avançar ainda mais na melhoria de como as máquinas compreendem a fala humana, levando a interações mais suaves e precisas no futuro.
A pesquisa e o desenvolvimento contínuos nessa área não só vão melhorar os sistemas de reconhecimento de fala, mas também podem expandir suas aplicações em diversas indústrias, tornando-os mais úteis e eficazes para o uso diário.
Título: Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding
Resumo: Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.
Autores: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey
Última atualização: 2023-06-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.07944
Fonte PDF: https://arxiv.org/pdf/2306.07944
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.