Sci Simple

New Science Research Articles Everyday

# Ingeniería Eléctrica y Ciencia de Sistemas # Computación y lenguaje # Sonido # Procesado de Audio y Voz

GLM-4-Voice: El Siguiente Paso en Chatbots

Un nuevo chatbot que ofrece conversaciones como las de humanos con conciencia emocional.

Aohan Zeng, Zhengxiao Du, Mingdao Liu, Kedong Wang, Shengmin Jiang, Lei Zhao, Yuxiao Dong, Jie Tang

― 3 minilectura


Chatbots Transformados: Chatbots Transformados: GLM-4-Voz profundidad emocional. que son como humanos y tienen Experimenta conversaciones con chatbots
Tabla de contenidos

En los últimos años, los chatbots se han vuelto una herramienta común en el servicio al cliente, asistentes virtuales y varias aplicaciones. Pueden comunicarse usando texto o voz, haciendo que las interacciones sean más atractivas. Sin embargo, muchos de estos chatbots tienen problemas para imitar conversaciones humanas naturales, especialmente en entender emociones y matices.

¿Qué es GLM-4-Voice?

GLM-4-Voice es un chatbot diseñado para ofrecer una experiencia de habla más parecida a la humana. Puede conversar en chino e inglés, permitiendo a los usuarios tener conversaciones de voz en tiempo real. Lo único de este chatbot es su capacidad para ajustar características vocales, como emoción, tono y velocidad, según las preferencias del usuario.

¿Cómo funciona?

Este chatbot procesa la entrada hablada y genera respuestas usando un método sofisticado. En su núcleo, utiliza un tokenizador de voz especial que convierte el audio en piezas manejables, permitiéndole entender y generar habla de manera eficiente. Este tokenizador opera a una tasa de bits ultra baja de 175bps, asegurando una representación compacta del habla.

Para asegurarse de que el chatbot mejore con el tiempo, se entrena con una gran cantidad de datos de texto y habla. El Entrenamiento incluye datos supervisados (donde se proporcionan respuestas correctas) y datos de discurso no supervisados (donde el modelo aprende de conversaciones reales). Esta combinación le permite aprender habilidades lingüísticas ricas.

Características clave

  1. Interacción en tiempo real: Los usuarios pueden interactuar con el chatbot de manera natural, ya que responde rápidamente durante las conversaciones.
  2. Conciencia Emocional: El chatbot ajusta su tono y ritmo según los comandos hablados del usuario, haciendo que las interacciones se sientan más personales.
  3. Procesamiento de habla avanzado: El tokenizador de habla permite una generación de habla de alta calidad, asegurando claridad y expresividad en las respuestas.

Ventajas sobre modelos tradicionales

Los chatbots tradicionales a menudo dependen de múltiples sistemas para el reconocimiento y la generación de voz, lo que puede retrasar las respuestas y reducir la precisión. GLM-4-Voice integra estas funciones en un proceso simplificado. Esta integración reduce errores y mejora la capacidad de transmitir emociones.

Desafíos en el desarrollo

A pesar de los avances, todavía hay un desafío en obtener suficientes datos de habla para el entrenamiento. A diferencia del texto, que abunda en línea, los datos de habla de calidad son menos disponibles. Sin embargo, se están realizando esfuerzos para mejorar la efectividad del chatbot mediante métodos innovadores.

Desarrollos futuros

A medida que la tecnología sigue evolucionando, también lo harán los chatbots como GLM-4-Voice. El objetivo es crear interacciones aún más naturales, posiblemente incorporando más idiomas y dialectos. Al mejorar la inteligencia emocional, los chatbots serán capaces de tener conversaciones más significativas, cerrando la brecha entre humanos y máquinas.

Conclusión

GLM-4-Voice se destaca como un desarrollo emocionante en chatbots basados en voz. Con sus habilidades de conversación similares a las humanas y su capacidad de respuesta emocional, representa un gran avance para hacer que las interacciones virtuales sean más relacionadas y agradables. A medida que la investigación continúa, podemos esperar más mejoras que harán que los compañeros de IA sean más accesibles y atractivos para todos.

Fuente original

Título: GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

Resumen: We introduce GLM-4-Voice, an intelligent and human-like end-to-end spoken chatbot. It supports both Chinese and English, engages in real-time voice conversations, and varies vocal nuances such as emotion, intonation, speech rate, and dialect according to user instructions. GLM-4-Voice uses an ultra-low bitrate (175bps), single-codebook speech tokenizer with 12.5Hz frame rate derived from an automatic speech recognition (ASR) model by incorporating a vector-quantized bottleneck into the encoder. To efficiently transfer knowledge from text to speech modalities, we synthesize speech-text interleaved data from existing text pre-training corpora using a text-to-token model. We continue pre-training from the pre-trained text language model GLM-4-9B with a combination of unsupervised speech data, interleaved speech-text data, and supervised speech-text data, scaling up to 1 trillion tokens, achieving state-of-the-art performance in both speech language modeling and spoken question answering. We then fine-tune the pre-trained model with high-quality conversational speech data, achieving superior performance compared to existing baselines in both conversational ability and speech quality. The open models can be accessed through https://github.com/THUDM/GLM-4-Voice and https://huggingface.co/THUDM/glm-4-voice-9b.

Autores: Aohan Zeng, Zhengxiao Du, Mingdao Liu, Kedong Wang, Shengmin Jiang, Lei Zhao, Yuxiao Dong, Jie Tang

Última actualización: 2024-12-03 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.02612

Fuente PDF: https://arxiv.org/pdf/2412.02612

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Física de altas energías - Experimento Decaimiento del Charmonium: Un Descubrimiento Importante en la Física de Partículas

Los investigadores observan la descomposición del charmonio, mejorando nuestro conocimiento sobre las interacciones de partículas.

BESIII Collaboration, M. Ablikim, M. N. Achasov

― 5 minilectura

Artículos similares