Construyendo Mejores Conjuntos de Datos de Habla para Idiomas Desatendidos
Un proyecto que desarrolla conjuntos de datos de voz y texto para idiomas con recursos limitados.
― 6 minilectura
Tabla de contenidos
La Colección ParlaSpeech es un conjunto de datasets de habla y texto creados a partir de grabaciones de reuniones parlamentarias. Está pensada para ayudar a los idiomas que tienen menos recursos disponibles para tecnología de voz. El objetivo es proporcionar mejor acceso a datos hablados y escritos para la investigación y tecnología en estos idiomas.
Necesidad de Datasets de Habla y Texto
En los últimos años, ha habido grandes mejoras en cómo las máquinas procesan el habla y el lenguaje. Estas mejoras a menudo vienen de métodos auto-supervisados utilizando un montón de datos en bruto. Sin embargo, tener conexiones claras entre las palabras habladas y el texto escrito sigue siendo muy importante. Muchos idiomas no tienen suficientes datos de este tipo, lo que dificulta la creación de buenas tecnologías para procesar el habla.
Para abordar este problema, nos enfocamos en usar Transcripciones de procedimientos parlamentarios y sus grabaciones. Los registros parlamentarios son una buena fuente de datos confiables porque a menudo se requiere que estén disponibles al público. Esto significa que las grabaciones de los procedimientos suelen ser accesibles, lo que ayuda a evitar preocupaciones de privacidad.
El Desafío
Los diferentes idiomas tienen diferentes niveles de datasets de habla y texto disponibles. Algunos idiomas tienen mucho material, mientras que otros tienen muy poco o ninguno. El polaco, por ejemplo, tiene alrededor de 180 horas de material, que no es mucho para un idioma hablado por más de 40 millones de personas. El croata, que tiene 4 millones de hablantes, no tenía un dataset disponible públicamente antes de este proyecto.
El principal desafío que enfrentamos al alinear las transcripciones con las grabaciones de audio fue que no había una consistencia general entre ellas. A veces, partes de las grabaciones no estaban transcritas, o las transcripciones no coincidían con lo que realmente se dijo. También hubo problemas con las fechas de las sesiones que no coincidían y el orden de los textos que no coincidía con el orden de los eventos en las grabaciones.
Trabajo Anterior
Usar datos parlamentarios para crear datasets de habla no es una idea nueva. Se han creado proyectos exitosos para idiomas como el alemán suizo, islandés, danés y finlandés. Sin embargo, este proyecto es único porque busca crear un enfoque escalable que se pueda usar para muchos idiomas. El proyecto ParlaMint, que recopila transcripciones parlamentarias, es una parte crucial de este esfuerzo.
Descripción del Proceso
Nuestro enfoque para alinear los datos de voz con el texto involucra varios pasos. Primero, recopilamos grabaciones de audio y transcripciones para los idiomas de interés. Necesitamos emparejar cada archivo de audio con un texto adecuado que cubra su contenido. Esto implica métodos estadísticos para asegurarnos de que estamos emparejando las grabaciones correctas con las transcripciones correctas.
Procesamiento de Audio
Para procesar las grabaciones de audio, necesitamos identificar partes que contengan habla. Usamos una técnica llamada Detección de Actividad de Voz (VAD) para encontrar estos segmentos. También hacemos cálculos para analizar el habla de manera más efectiva. Las salidas de estos cálculos se almacenan para su reutilización en pasos posteriores.
Preprocesamiento de Texto
Al mismo tiempo, preparamos el texto para emparejar. Esto implica limpiar el texto eliminando signos de puntuación y mayúsculas. Esto asegura que el texto coincida con el formato de lo que típicamente produce los sistemas de reconocimiento de voz. Dado que los idiomas con los que estamos trabajando no tienen herramientas de alta calidad disponibles, desarrollamos nuestras propias soluciones para preparar el texto.
Modelado del Lenguaje y Reconocimiento de Voz
Una vez que el texto está listo, creamos un modelo de lenguaje que ayuda al sistema de reconocimiento de voz a entender el contexto de las palabras. Este modelo se construye utilizando todas las transcripciones disponibles, lo que mejora su precisión.
Emparejamiento de Texto y Audio
Después de procesar tanto el audio como el texto, intentamos emparejarlos. Buscamos similitudes entre las transcripciones automáticas generadas por el sistema de reconocimiento de voz y las transcripciones de referencia. Usamos varias técnicas para identificar los mejores emparejamientos y abordar cualquier falta que pueda quedar.
Alineación Final
Una vez que hemos identificado los emparejamientos, necesitamos crear una salida estructurada que incluya marcas de tiempo para cada palabra pronunciada en el audio. Esto nos permite alinear de cerca el habla con su texto correspondiente y asegurar un dataset coherente.
Filtrado y Segmentación de Datos
Para hacer nuestros datasets útiles para diferentes aplicaciones, pasamos por pasos adicionales de filtrado y segmentación. Eliminamos cualquier transcripción que no tenga un segmento de audio correspondiente o aquellas que tengan altas tasas de error en su alineación. Cada segmento se divide luego en partes más pequeñas, facilitando el trabajo a investigadores y desarrolladores.
Lanzamientos de Dataset
Proporcionamos nuestros datasets en tres formatos diferentes para satisfacer diversas necesidades:
Entradas del Repositorio FAIR: Estas entradas contienen información completa y se pueden acceder para uso a largo plazo.
Datasets de HuggingFace: Este formato está diseñado para usuarios que quieren integrar fácilmente estos datos en proyectos de tecnología de voz.
Corpora Habladas a través de Concordancer: Esta opción permite a lingüistas realizar búsquedas detalladas dentro de las transcripciones y escuchar segmentos de audio correspondientes.
Estos lanzamientos ayudarán a investigadores y desarrolladores a hacer uso de los datos de muchas maneras creativas, incluyendo entrenar modelos de reconocimiento automático de voz y realizar estudios lingüísticos.
Conclusión
Nuestro trabajo demuestra un enfoque práctico para crear datasets de habla y texto alineados que pueden beneficiar a idiomas con recursos limitados. Con más de 5,000 horas de datos de habla y texto alineados disponibles para tres idiomas eslavos, este proyecto sienta las bases para futuras expansiones. A medida que continuamos desarrollando nuestros métodos, esperamos añadir aún más idiomas y mejorar nuestras contribuciones a la comunidad de investigación.
Los datasets creados a través de este proyecto no solo ayudarán en el desarrollo de tecnología de voz, sino que también proporcionarán recursos valiosos para la investigación lingüística. Los desafíos que hemos enfrentado resaltan las complejidades involucradas, pero los beneficios potenciales de la Colección ParlaSpeech son vastos.
Título: The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
Resumen: Recent significant improvements in speech and language technologies come both from self-supervised approaches over raw language data as well as various types of explicit supervision. To ensure high-quality processing of spoken data, the most useful type of explicit supervision is still the alignment between the speech signal and its corresponding text transcript, which is a data type that is not available for many languages. In this paper, we present our approach to building large and open speech-and-text-aligned datasets of less-resourced languages based on transcripts of parliamentary proceedings and their recordings. Our starting point are the ParlaMint comparable corpora of transcripts of parliamentary proceedings of 26 national European parliaments. In the pilot run on expanding the ParlaMint corpora with aligned publicly available recordings, we focus on three Slavic languages, namely Croatian, Polish, and Serbian. The main challenge of our approach is the lack of any global alignment between the ParlaMint texts and the available recordings, as well as the sometimes varying data order in each of the modalities, which requires a novel approach in aligning long sequences of text and audio in a large search space. The results of this pilot run are three high-quality datasets that span more than 5,000 hours of speech and accompanying text transcripts. Although these datasets already make a huge difference in the availability of spoken and textual data for the three languages, we want to emphasize the potential of the presented approach in building similar datasets for many more languages.
Autores: Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
Última actualización: 2024-11-26 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2409.15397
Fuente PDF: https://arxiv.org/pdf/2409.15397
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/kensho-technologies/pyctcdecode
- https://www.clarin.si/repository/xmlui/
- https://www.clarin.eu
- https://hdl.handle.net/11356/1914
- https://hdl.handle.net/11356/1686
- https://hdl.handle.net/11356/1834
- https://huggingface.co/datasets
- https://huggingface.co/datasets/classla/ParlaSpeech-HR
- https://huggingface.co/datasets/classla/ParlaSpeech-PL
- https://huggingface.co/datasets/classla/ParlaSpeech-RS
- https://www.clarin.si/ske/