Haciendo que la voz de la máquina suene humana
Llevando los tics de conversación naturales al habla generada por IA.
Syed Zohaib Hassan, Pierre Lison, Pål Halvorsen
― 6 minilectura
Tabla de contenidos
En el mundo de chatear y conversar, la gente a menudo tropieza con sus palabras, dice "eh," o se repite. Estos pequeños tropiezos en el habla, conocidos como Disfluencias, son solo parte de ser humano. Sin embargo, cuando las computadoras, especialmente los modelos de lenguaje, tratan de hablar como nosotros, suelen saltarse estos tropiezos. Esto hace que su discurso suene menos natural, lo cual no es genial si quieres que un robot parezca una persona de verdad.
Este artículo examina una forma de hacer que el habla generada por computadora suene más como una Conversación humana real. Se trata de cómo agregar esos pequeños errores de habla puede ayudar a que una conversación se sienta más auténtica.
Por Qué Importan las Disfluencias
Las disfluencias son más que simples peculiaridades divertidas en el habla. Ayudan a llenar los espacios mientras un hablante piensa o planea qué decir a continuación. Ya sabes, esas veces cuando intentas averiguar cómo explicar algo y tus palabras se enredan. Algunos ejemplos comunes incluyen tartamudear o usar muletillas como "eh" o "como."
En conversaciones casuales, estas pausas pueden hacer que el intercambio se sienta más relajado y espontáneo. Los estudios muestran que cuando escuchamos este tipo de muletillas, a menudo pensamos que la conversación es más genuina. Entonces, si un robot puede aprender a incluir estas disfluencias, podría sonar más humano y menos como un robot recitando un guion.
Una Solución Ingeniosa
Para abordar este problema, los investigadores han ideado una solución ingeniosa. Decidieron ajustar un gran Modelo de Lenguaje, que es esencialmente un programa de computadora que entiende y produce texto. Este proceso de ajuste implica enseñar al modelo cómo agregar varios tipos de disfluencias en su habla generada.
El método incluye dos pasos principales. Primero, entrenan al modelo de lenguaje con una técnica especial para hacerlo bueno en incluir estos errores del habla. Luego, utilizan tecnología de Texto a voz para convertir el texto escrito (con disfluencias añadidas) de nuevo en forma de audio. De esta manera, el habla suena más natural y parecida a la humana.
Probando el Agua
Para averiguar qué tan bien funciona esto, un equipo de investigadores estableció un estudio con usuarios. Querían ver cómo reaccionaban las personas al habla que incluía disfluencias frente a la que era perfectamente fluida. En términos simples, querían saber si agregar algunos "ehs" y "comos" hacía que el habla sonara más real o menos clara.
Reprodujeron a los participantes una serie de clips de audio de conversaciones. Algunos clips eran disfluentes, lo que significaba que incluían esos pequeños errores, mientras que otros eran tan suaves como la mantequilla. Después de escuchar, los participantes tuvieron que calificar cada clip en función de la Claridad y cuán natural sonaba.
Los Resultados
¡Los hallazgos fueron bastante interesantes! Los participantes encontraron que las conversaciones con disfluencias obtuvieron una puntuación más alta en la escala de "naturalidad," lo que significa que se sentían más como charlas de la vida real. Sin embargo, hubo un pequeño compromiso: los mismos clips fueron calificados como un poco más difíciles de entender. Así que, aunque podríamos obtener una vibra más realista de una conversación con un par de "ehs" incluidos, podría hacer que las cosas sean un poco confusas.
Dónde Usarlo
La capacidad de hacer que el habla generada por máquina suene más natural tiene muchas aplicaciones en el mundo real. Por ejemplo, esta tecnología puede ser utilizada en avatares o personajes virtuales diseñados para ayudar a entrenar a personas en conversaciones delicadas. Imagina un chatbot ayudando a alguien a practicar dar malas noticias. Sería beneficioso si ese chatbot sonara realista, incluyendo todos esos patrones naturales de disfluencias.
Modelos así también podrían ser valiosos en áreas como los videojuegos y la educación, donde conversaciones atractivas pueden mejorar la experiencia.
Desafíos Enfrentados
A pesar de que este método suena prometedor, no está exento de desafíos. Una preocupación importante es que, aunque agregar disfluencias puede hacer que el habla suene más humana, también corre el riesgo de confundir a los oyentes. Si el discurso está demasiado lleno de "ehs," podría resultar poco claro o molesto.
Además, al elegir un modelo de voz para leer este texto, los investigadores enfrentaron dificultades. La tecnología a veces puede producir sonidos extraños o pausas, lo que puede restar valor a la experiencia en general. Por eso tuvieron que elegir y seleccionar el mejor modelo para asegurar un habla clara y de buen sonido.
Consideraciones Éticas
Como con muchas tecnologías modernas, hay preocupaciones éticas que vienen con el uso de estos tipos de modelos de lenguaje. Si una computadora puede sonar más humana, puede crear situaciones donde la gente podría confundirse sobre si están conversando con una máquina o una persona real. Esto podría llevar a problemas de confianza, especialmente si los usuarios no son conscientes de que están interactuando con un sistema automatizado.
Además, existe el riesgo de que la máquina pueda amplificar involuntariamente sesgos encontrados en sus datos de entrenamiento. En conversaciones reales, la forma en que las personas se expresan varía ampliamente, y la IA podría imitar solo ciertos patrones de disfluencias, tal vez vinculándolos a grupos específicos de personas.
Para ayudar a protegerse contra estos riesgos, la transparencia es clave. Cualquiera que utilice esta tecnología debería dejar claro cuándo las personas no están hablando con una persona real, sino con una IA. Esto ayuda a mantener la confianza entre humanos y máquinas.
Mirando Hacia Adelante
La investigación continua sobre cómo mejorar el habla generada por computadora seguirá evolucionando. La forma en que percibimos el habla espontánea es subjetiva, y las interacciones individuales pueden variar, creando un campo rico para la exploración futura. Muchas aplicaciones podrían beneficiarse de ajustar las disfluencias para que coincidan con contextos específicos, como simular estrés o situaciones de alta presión en escenarios de entrenamiento.
El objetivo es equilibrar el realismo y la comprensión, asegurando que el habla se mantenga atractiva y clara al mismo tiempo. Esta tecnología puede llevar a avances emocionantes en áreas como los videojuegos, la educación, la realidad virtual y más.
Conclusión
En el mundo del habla y la conversación, las disfluencias son solo parte de cómo la gente se comunica. Al enseñar a las máquinas a incluir estas pequeñas peculiaridades, podemos crear interacciones más creíbles y atractivas. Aunque hay desafíos por delante, el potencial de esta tecnología para mejorar la comunicación es vasto. Los días de charlas demasiado suaves y robóticas están contados, mientras abrazamos un enfoque más humano para hablar con nuestros contrapartes digitales.
Título: Enhancing Naturalness in LLM-Generated Utterances through Disfluency Insertion
Resumen: Disfluencies are a natural feature of spontaneous human speech but are typically absent from the outputs of Large Language Models (LLMs). This absence can diminish the perceived naturalness of synthesized speech, which is an important criteria when building conversational agents that aim to mimick human behaviours. We show how the insertion of disfluencies can alleviate this shortcoming. The proposed approach involves (1) fine-tuning an LLM with Low-Rank Adaptation (LoRA) to incorporate various types of disfluencies into LLM-generated utterances and (2) synthesizing those utterances using a text-to-speech model that supports the generation of speech phenomena such as disfluencies. We evaluated the quality of the generated speech across two metrics: intelligibility and perceived spontaneity. We demonstrate through a user study that the insertion of disfluencies significantly increase the perceived spontaneity of the generated speech. This increase came, however, along with a slight reduction in intelligibility.
Autores: Syed Zohaib Hassan, Pierre Lison, Pål Halvorsen
Última actualización: Dec 17, 2024
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.12710
Fuente PDF: https://arxiv.org/pdf/2412.12710
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.