GLM-4-Voice : La prochaine étape des chatbots
Un nouveau chatbot qui propose des conversations comme des humains avec une conscience émotionnelle.
Aohan Zeng, Zhengxiao Du, Mingdao Liu, Kedong Wang, Shengmin Jiang, Lei Zhao, Yuxiao Dong, Jie Tang
― 3 min lire
Table des matières
Ces dernières années, les chatbots sont devenus un outil courant dans le service client, les assistants virtuels et diverses applications. Ils peuvent communiquer par texte ou par voix, rendant les interactions plus engageantes. Cependant, beaucoup de ces chatbots ont du mal à imiter les conversations humaines naturelles, surtout pour comprendre les émotions et les nuances.
Qu'est-ce que GLM-4-Voice ?
GLM-4-Voice est un chatbot conçu pour offrir une expérience de conversation plus humaine. Il peut discuter en chinois et en anglais, ce qui permet aux utilisateurs d'avoir des conversations vocales en temps réel. Ce qui rend ce chatbot unique, c'est sa capacité à ajuster des caractéristiques vocales, comme l'émotion, le ton et la vitesse, selon les préférences des utilisateurs.
Comment ça fonctionne ?
Ce chatbot traite les entrées vocales et génère des réponses grâce à une méthode sophistiquée. Au cœur de son fonctionnement, il utilise un tokenizer de discours spécial qui convertit l'audio en morceaux faciles à gérer, permettant ainsi de comprendre et de générer du discours efficacement. Ce tokenizer fonctionne à un bitrate ultra-bas de 175bps, garantissant une représentation compacte de la parole.
Pour s'améliorer avec le temps, le chatbot est formé sur une grande quantité de données textuelles et vocales. La formation inclut des données supervisées (où les bonnes réponses sont fournies) et des données vocales non supervisées (où le modèle apprend à partir de vraies conversations). Cette combinaison lui permet d'apprendre des compétences linguistiques riches.
Caractéristiques clés
- Interaction en temps réel : Les utilisateurs peuvent discuter naturellement avec le chatbot, qui répond rapidement pendant les conversations.
- Sensibilité émotionnelle : Le chatbot ajuste son ton et son rythme en fonction des commandes vocales de l'utilisateur, ce qui rend les interactions plus personnelles.
- Traitement de la parole avancé : Le tokenizer de discours permet de générer un discours de haute qualité, assurant clarté et expressivité dans les réponses.
Avantages par rapport aux modèles traditionnels
Les chatbots traditionnels dépendent souvent de plusieurs systèmes pour la reconnaissance et la génération de la parole, ce qui peut retarder les réponses et réduire la précision. GLM-4-Voice intègre ces fonctions dans un processus simplifié. Cette intégration réduit les erreurs et améliore la capacité à transmettre des émotions.
Défis dans le développement
Malgré les avancées, il reste un défi d'obtenir suffisamment de données vocales pour l'Entraînement. Contrairement au texte, qui est abondant en ligne, les données vocales de qualité se font rares. Cependant, des efforts sont en cours pour améliorer l'efficacité du chatbot grâce à des méthodes innovantes.
Développements futurs
À mesure que la technologie continue d'évoluer, les chatbots comme GLM-4-Voice aussi. L'objectif est de créer des interactions encore plus naturelles, en incorporant peut-être davantage de langues et de dialectes. En améliorant l'intelligence émotionnelle, les chatbots seront capables de conversations plus significatives, comblant le fossé entre les humains et les machines.
Conclusion
GLM-4-Voice se démarque comme un développement passionnant dans le domaine des chatbots basés sur la parole. Avec ses capacités de conversation semblables à celles d'un humain et sa réactivité émotionnelle, il représente un pas significatif vers des interactions virtuelles plus accessibles et agréables. Au fur et à mesure que la recherche progresse, on peut s'attendre à d'autres améliorations qui rendront les compagnons IA plus accessibles et engageants pour tout le monde.
Source originale
Titre: GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
Résumé: We introduce GLM-4-Voice, an intelligent and human-like end-to-end spoken chatbot. It supports both Chinese and English, engages in real-time voice conversations, and varies vocal nuances such as emotion, intonation, speech rate, and dialect according to user instructions. GLM-4-Voice uses an ultra-low bitrate (175bps), single-codebook speech tokenizer with 12.5Hz frame rate derived from an automatic speech recognition (ASR) model by incorporating a vector-quantized bottleneck into the encoder. To efficiently transfer knowledge from text to speech modalities, we synthesize speech-text interleaved data from existing text pre-training corpora using a text-to-token model. We continue pre-training from the pre-trained text language model GLM-4-9B with a combination of unsupervised speech data, interleaved speech-text data, and supervised speech-text data, scaling up to 1 trillion tokens, achieving state-of-the-art performance in both speech language modeling and spoken question answering. We then fine-tune the pre-trained model with high-quality conversational speech data, achieving superior performance compared to existing baselines in both conversational ability and speech quality. The open models can be accessed through https://github.com/THUDM/GLM-4-Voice and https://huggingface.co/THUDM/glm-4-voice-9b.
Auteurs: Aohan Zeng, Zhengxiao Du, Mingdao Liu, Kedong Wang, Shengmin Jiang, Lei Zhao, Yuxiao Dong, Jie Tang
Dernière mise à jour: 2024-12-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.02612
Source PDF: https://arxiv.org/pdf/2412.02612
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.