Presentamos a Emilia: Un nuevo conjunto de datos para generación de habla
Emilia ofrece un conjunto de datos diverso para mejorar los modelos de generación de voz.
― 7 minilectura
Tabla de contenidos
Los avances recientes en la generación de voz han mostrado resultados impresionantes gracias a grandes conjuntos de datos de entrenamiento. Sin embargo, crear una voz que suene espontánea y humana sigue siendo un reto para los investigadores. Esto se debe principalmente a la falta de datos de voz diversos y que suenen naturales. Para abordar esto, presentamos Emilia, un nuevo conjunto de datos diseñado para la generación de voz que incluye una variedad de lenguaje hablado del mundo real en diferentes contextos. Junto con este conjunto de datos, ofrecemos Emilia-Pipe, una herramienta gratuita que procesa datos de voz en bruto en datos de entrenamiento de alta calidad listos para usar.
¿Qué es Emilia?
Emilia es un conjunto de datos de generación de voz que contiene más de 101,000 horas de voz grabada en seis idiomas: inglés, chino, alemán, francés, japonés y coreano. Lo que diferencia a Emilia de otros conjuntos de datos es que presenta conversaciones y discusiones reales. Estos datos en bruto provienen de varias fuentes, incluidos pódcast y videos, capturando cómo habla la gente en situaciones cotidianas.
¿Por qué es importante Emilia?
Los modelos actuales de generación de voz a menudo dependen de conjuntos de datos compuestos por lecturas formales, como audiolibros. Estas grabaciones suelen presentar un estilo de habla constante y no reflejan la manera en que la gente habla en conversaciones informales. El habla humana real implica cambios en la velocidad, pausas y emociones, lo que hace que la conversación casual sea más variada. Emilia busca llenar ese vacío proporcionando un conjunto de datos que refleja esta variedad natural, lo que ayuda a mejorar la capacidad de los modelos para generar voz que suene auténtica.
Desafíos con los datos de voz en bruto
Usar datos de voz en bruto de la vida real presenta algunos desafíos. Las grabaciones pueden variar mucho en calidad y longitud, pueden tener ruido de fondo, música o múltiples hablantes. Además, a menudo no hay transcripciones de texto precisas disponibles para esta voz, lo que dificulta aún más su uso para entrenamiento. Entrenar modelos con estos datos ruidosos y desordenados puede llevar a un rendimiento deficiente.
Muchos de los métodos existentes para procesar este tipo de datos no están disponibles abiertamente para todos y a menudo dependen de modelos específicos que pueden no ser accesibles. Por lo tanto, se necesita una herramienta rápida y efectiva para el preprocesamiento que haga que grandes volúmenes de datos de voz sean utilizables para la investigación.
Presentando Emilia-Pipe
Para superar los desafíos de lidiar con datos de voz en bruto, desarrollamos Emilia-Pipe, la primera herramienta de código abierto diseñada específicamente para este propósito. Emilia-Pipe consta de seis pasos que transforman grabaciones de voz desordenadas en datos de entrenamiento de alta calidad con anotaciones adecuadas.
Estandarización: El primer paso es estandarizar el audio en bruto. Esto implica convertir todos los archivos a un formato consistente, asegurando que tengan una calidad de audio similar y ajustando el volumen para evitar distorsiones.
Separación de fuentes: Muchas grabaciones contienen ruido de fondo o música. Para centrarnos en la voz humana, utilizamos técnicas especiales para separar las voces de cualquier distracción.
Diarización de hablantes: Después de aislar las voces, identificamos cuándo hablan diferentes hablantes. Este proceso descompone grabaciones más largas en segmentos más pequeños, facilitando su manejo.
Segmentación fina: A veces, los segmentos que tenemos siguen siendo demasiado largos. Usamos detección de actividad de voz para descomponer estos segmentos en trozos aún más pequeños, manteniendo solo las partes donde alguien está hablando.
Reconocimiento automático de voz (ASR): A continuación, necesitamos convertir la voz en texto. Usamos modelos avanzados para transcribir el audio con precisión, permitiendo que los investigadores trabajen tanto con texto como con audio.
Filtrado: Para asegurar alta calidad, aplicamos varias verificaciones para eliminar grabaciones de baja calidad. Esto garantiza que solo queden datos utilizables.
Emilia-Pipe puede procesar grandes cantidades de datos de voz en bruto rápidamente, transformándolos en archivos listos para entrenamiento.
Beneficios de Emilia
El conjunto de datos de Emilia ofrece varias ventajas:
Tamaño y variedad: Es uno de los conjuntos de datos más grandes disponibles para la generación de voz, con más de 101,000 horas de datos que cubren múltiples idiomas.
Diversidad: Emilia incluye principalmente habla espontánea, capturando una amplia gama de estilos de habla. Esta diversidad es esencial para crear modelos que puedan producir voz que suene natural.
Procesamiento dinámico: La herramienta Emilia-Pipe permite una fácil expansión simplemente añadiendo nuevas fuentes de audio. Esta característica la hace adaptable y útil para la investigación continua.
Probando la efectividad de Emilia
Para evaluar la efectividad de Emilia, entrenamos dos modelos con la parte en inglés del conjunto de datos y los comparamos con modelos entrenados en otros conjuntos de datos de alta calidad. Observamos varios factores, incluyendo cuán similar sonaba la voz generada a la voz humana real y cuán bien se entendía la voz.
Los resultados mostraron que los modelos entrenados con Emilia tuvieron un rendimiento tan bueno como aquellos que usaron conjuntos de datos tradicionales. De hecho, produjeron voz que sonaba más espontánea y natural. Esto sugiere que Emilia es un recurso valioso para los investigadores enfocados en mejorar la generación de voz.
Calidad del conjunto de datos de Emilia
Para tener una idea de la calidad de Emilia, medimos cuán clara y comprensible era la voz. Usamos un sistema llamado DNSMOS, que ayuda a determinar la calidad general de las grabaciones. Las puntuaciones mostraron que la calidad de Emilia es comparable a la de conjuntos de datos existentes que han sido obtenidos de grabaciones en estudio.
Además, analizamos la diversidad de Emilia, comparándola con conjuntos de datos tradicionales. Al examinar tanto las propiedades sonoras como el contenido textual de las grabaciones, encontramos que Emilia incluyó una variedad más amplia de estilos de habla y temas. Esto indica que Emilia puede ayudar a los modelos a aprender una gama más amplia de patrones de habla.
Evaluación del rendimiento
Realizamos experimentos para probar qué tan bien los modelos TTS podrían generar voz usando Emilia en comparación con otros conjuntos de datos. Nos centramos en dos experimentos principales: uno dirigido a voz solo en inglés y el otro que cubría múltiples idiomas.
En las pruebas solo en inglés, encontramos que los modelos que usaron Emilia produjeron voz que era igual de clara y natural que aquellos entrenados en conjuntos de datos tradicionales. Esto fue evidente tanto en medidas objetivas, como tasas de error, como en medidas subjetivas, donde la gente calificó la calidad de la voz generada.
En nuestras pruebas multilingües, entrenamos modelos usando el conjunto completo de Emilia y encontramos que aún así tuvieron un buen rendimiento en diferentes idiomas. Esto muestra que Emilia no solo es efectiva para inglés, sino también adecuada para otros idiomas, convirtiéndola en un recurso versátil para la investigación en generación de voz.
Conclusión
En resumen, Emilia representa un gran avance en la creación de un conjunto de datos de voz diverso y completo para la investigación. Al utilizar Emilia-Pipe, los investigadores pueden procesar de manera eficiente grandes cantidades de datos de voz cotidiana, transformándolos en material de entrenamiento de alta calidad. Con más de 101,000 horas de voz multilingüe, Emilia está lista para ayudar a los investigadores a crear modelos de generación de voz que produzcan voces más auténticas y humanas. Animamos a la comunidad investigadora a usar Emilia y Emilia-Pipe para ampliar los límites de lo que la generación de voz puede lograr.
Título: Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation
Resumen: Recent advancements in speech generation models have been significantly driven by the use of large-scale training data. However, producing highly spontaneous, human-like speech remains a challenge due to the scarcity of large, diverse, and spontaneous speech datasets. In response, we introduce Emilia, the first large-scale, multilingual, and diverse speech generation dataset. Emilia starts with over 101k hours of speech across six languages, covering a wide range of speaking styles to enable more natural and spontaneous speech generation. To facilitate the scale-up of Emilia, we also present Emilia-Pipe, the first open-source preprocessing pipeline designed to efficiently transform raw, in-the-wild speech data into high-quality training data with speech annotations. Experimental results demonstrate the effectiveness of both Emilia and Emilia-Pipe. Demos are available at: https://emilia-dataset.github.io/Emilia-Demo-Page/.
Autores: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
Última actualización: 2024-09-07 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.05361
Fuente PDF: https://arxiv.org/pdf/2407.05361
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://emilia-dataset.github.io/Emilia-Demo-Page/
- https://github.com/open-mmlab/Amphion/tree/main/preprocessors/Emilia
- https://github.com/Anjok07/ultimatevocalremovergui
- https://github.com/TRvlvr/model_repo/releases/tag/all_public_uvr_models
- https://github.com/pyannote/pyannote-audio
- https://github.com/snakers4/silero-vad
- https://github.com/SYSTRAN/faster-whisper
- https://github.com/OpenNMT/CTranslate2
- https://huggingface.co/microsoft/wavlm-base-plus
- https://github.com/UKPLab/sentence-transformers
- https://github.com/bootphon/phonemizer
- https://huggingface.co/facebook/hubert-large-ls960-ft
- https://huggingface.co/openai/whisper-medium
- https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification
- https://github.com/ddlBoJack/emotion2vec/tree/main