Sci Simple

New Science Research Articles Everyday

# Engenharia Eletrotécnica e Ciência dos Sistemas # Computação e linguagem # Som # Processamento de Áudio e Fala

GLM-4-Voice: O Próximo Passo nos Chatbots

Um novo chatbot que oferece conversas parecidas com as humanas e com consciência emocional.

Aohan Zeng, Zhengxiao Du, Mingdao Liu, Kedong Wang, Shengmin Jiang, Lei Zhao, Yuxiao Dong, Jie Tang

― 3 min ler


Chatbots Transformados: Chatbots Transformados: GLM-4-Voz verdade. parecem humanos e têm emoção de Tenha conversas com chatbots que
Índice

Nos últimos anos, os chatbots viraram uma ferramenta comum no atendimento ao cliente, assistentes virtuais e várias aplicações. Eles conseguem se comunicar por texto ou voz, deixando as interações mais legais. Mas, muitos desses chatbots têm dificuldade em imitar conversas humanas naturais, especialmente em entender emoções e sutilezas.

O que é o GLM-4-Voice?

O GLM-4-Voice é um chatbot feito pra oferecer uma experiência de fala mais parecida com a humana. Ele consegue conversar tanto em chinês quanto em inglês, permitindo que os usuários tenham conversas por voz em tempo real. O legal desse chatbot é que ele pode ajustar características da voz, como emoção, tom e velocidade, com base nas preferências do usuário.

Como Funciona?

Esse chatbot processa o que é falado e gera respostas usando um método sofisticado. No fundo, ele usa um Tokenizador de Fala especial que converte áudio em partes que dá pra manejar, permitindo que ele entenda e gere fala de um jeito eficiente. Esse tokenizador opera com uma taxa de bits ultra baixa de 175bps, garantindo uma representação compacta da fala.

Pra garantir que o chatbot melhore com o tempo, ele é treinado com uma porção de dados de texto e fala. O Treinamento inclui dados supervisionados (onde as respostas certas são fornecidas) e dados de fala não supervisionados (onde o modelo aprende com conversas reais). Essa combinação ajuda ele a desenvolver habilidades de linguagem bem ricas.

Principais Funcionalidades

  1. Interação em tempo real: Os usuários podem conversar com o chatbot de forma natural, já que ele responde rápido durante as conversas.
  2. Consciência Emocional: O chatbot ajusta seu tom e ritmo de acordo com os comandos falados do usuário, deixando as interações mais pessoais.
  3. Processamento de fala avançado: O tokenizador de fala permite uma geração de fala de alta qualidade, garantindo clareza e expressividade nas respostas.

Vantagens sobre Modelos Tradicionais

Os chatbots tradicionais geralmente dependem de vários sistemas para reconhecimento e geração de fala, o que pode atrasar as respostas e reduzir a precisão. O GLM-4-Voice junta essas funções em um processo mais simples. Essa integração reduz erros e melhora a capacidade de transmitir emoções.

Desafios no Desenvolvimento

Apesar dos avanços, ainda rola um desafio em obter dados de fala suficientes para o treinamento. Diferente do texto, que é abundante na internet, dados de fala de qualidade são mais difíceis de achar. Mas, estão rolando esforços pra melhorar a eficácia do chatbot através de métodos inovadores.

Desenvolvimentos Futuros

Conforme a tecnologia continua a evoluir, os chatbots como o GLM-4-Voice também vão evoluir. A ideia é criar interações ainda mais naturais, possivelmente incluindo mais idiomas e dialetos. Ao melhorar a inteligência emocional, os chatbots vão conseguir ter conversas mais significativas, aproximando humanos e máquinas.

Conclusão

O GLM-4-Voice se destaca como um desenvolvimento empolgante nos chatbots baseados em fala. Com suas habilidades de conversa parecidas com as humanas e resposta emocional, ele representa um grande passo pra tornar as interações virtuais mais relacionáveis e agradáveis. Com a pesquisa avançando, podemos esperar melhorias que vão tornar os companheiros de IA mais acessíveis e interessantes pra todo mundo.

Fonte original

Título: GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

Resumo: We introduce GLM-4-Voice, an intelligent and human-like end-to-end spoken chatbot. It supports both Chinese and English, engages in real-time voice conversations, and varies vocal nuances such as emotion, intonation, speech rate, and dialect according to user instructions. GLM-4-Voice uses an ultra-low bitrate (175bps), single-codebook speech tokenizer with 12.5Hz frame rate derived from an automatic speech recognition (ASR) model by incorporating a vector-quantized bottleneck into the encoder. To efficiently transfer knowledge from text to speech modalities, we synthesize speech-text interleaved data from existing text pre-training corpora using a text-to-token model. We continue pre-training from the pre-trained text language model GLM-4-9B with a combination of unsupervised speech data, interleaved speech-text data, and supervised speech-text data, scaling up to 1 trillion tokens, achieving state-of-the-art performance in both speech language modeling and spoken question answering. We then fine-tune the pre-trained model with high-quality conversational speech data, achieving superior performance compared to existing baselines in both conversational ability and speech quality. The open models can be accessed through https://github.com/THUDM/GLM-4-Voice and https://huggingface.co/THUDM/glm-4-voice-9b.

Autores: Aohan Zeng, Zhengxiao Du, Mingdao Liu, Kedong Wang, Shengmin Jiang, Lei Zhao, Yuxiao Dong, Jie Tang

Última atualização: 2024-12-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.02612

Fonte PDF: https://arxiv.org/pdf/2412.02612

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes