Un nuevo modelo mejora la precisión en las capacidades de conversión de voz a texto en varios idiomas.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un nuevo modelo mejora la precisión en las capacidades de conversión de voz a texto en varios idiomas.
― 6 minilectura
Avances en la predicción de la calidad del habla usando métodos eficientes para dispositivos móviles.
― 6 minilectura
Un método para mejorar el timbre en la producción musical a través de sintetizadores.
― 7 minilectura
Este estudio evalúa la tecnología de voz en lenguas de bajos recursos como el árabe tunecino.
― 6 minilectura
La investigación revela riesgos en modelos de habla multitarea como Whisper.
― 5 minilectura
TokenVerse simplifica el análisis de conversaciones habladas al integrar múltiples tareas en un solo modelo.
― 7 minilectura
Nuevo conjunto de datos mejora la generación de audio a partir de descripciones de texto detalladas.
― 6 minilectura
Un enfoque nuevo para que los artistas conecten la creatividad con la generación de audio por IA.
― 7 minilectura
Explorando el impacto de los modelos TTM en la creación musical y en las experiencias de los usuarios.
― 8 minilectura
Este artículo examina la latencia de varios sistemas de diarización de locutores en el procesamiento de audio.
― 7 minilectura
Mejorando la síntesis de voz para generar voces más naturales y expresivas.
― 6 minilectura
Un nuevo conjunto de datos busca mejorar el reconocimiento de voz para hablantes de inglés no nativos.
― 7 minilectura
Un nuevo marco, BiosERC, mejora el reconocimiento de emociones al considerar las características del hablante.
― 7 minilectura
Este estudio examina cómo varían las preferencias de voz entre diferentes oyentes.
― 5 minilectura
Un nuevo modelo aborda sesgos y mejora las predicciones de precios de acciones usando datos diversos.
― 6 minilectura
Este artículo presenta un método para generar sonido preciso a partir de videos y texto.
― 8 minilectura
Un nuevo modelo mejora la simulación de instrumentos de cuerda para un sonido más realista.
― 8 minilectura
Presentamos un método para tener mejor control en la edición de audio.
― 6 minilectura
Un estudio sobre cómo clasificar la música según su época usando características de audio y opiniones de artistas.
― 7 minilectura
Un nuevo modelo mejora el estudio de la comunicación animal usando datos de audio en bruto.
― 7 minilectura
Emilia ofrece un conjunto de datos diverso para mejorar los modelos de generación de voz.
― 7 minilectura
Un nuevo sistema mejora la eficiencia del procesamiento de señales a través de métodos de codificación innovadores.
― 6 minilectura
Un equipo enfrenta los desafíos de identificación de cantos de aves en la competencia BirdCLEF 2024.
― 7 minilectura
Presentamos datasets MERGE para mejorar la clasificación de emociones en la música.
― 7 minilectura
Un nuevo método ayuda a que los modelos más pequeños funcionen mejor usando pistas de modelos más grandes.
― 7 minilectura
Explora las actualizaciones en la versión 3 del conjunto de datos Divide and Remaster.
― 7 minilectura
Una visión general de los conjuntos de datos utilizados en modelos de audio-lenguaje y su importancia.
― 12 minilectura
Un sistema de auriculares confiable monitorea las tasas de respiración durante varias actividades diarias.
― 7 minilectura
Mejorando los sistemas de reconocimiento de voz para idiomas con pocos datos en línea.
― 6 minilectura
Este estudio analiza cómo las redes neuronales interpretan el habla usando espectrogramas.
― 8 minilectura
Combinando sonido e imágenes para sistemas de reconocimiento más inteligentes.
― 8 minilectura
Un método para mejorar la detección de deepfakes de audio mediante la augmentación de datos.
― 6 minilectura
Beat-It genera movimientos de baile sincronizados para mejorar la coreografía sin esfuerzo.
― 7 minilectura
Los investigadores buscan crear sonidos que coincidan con videos en silencio, mejorando la experiencia de los espectadores.
― 6 minilectura
Este estudio aborda los problemas con los sistemas de SLU y su capacidad para generalizar.
― 7 minilectura
Una herramienta auto-supervisada para estimar las tonalidades musicales, reduciendo la necesidad de anotaciones de expertos.
― 6 minilectura
Diff-MST mejora la mezcla de música aplicando transferencia de estilo de pistas de referencia.
― 7 minilectura
ElasticAST permite procesar audio de longitud variable de manera eficiente sin perder detalles importantes.
― 6 minilectura
Analizando métodos de identificación de cantantes en medio de crecientes preocupaciones sobre el clonaje de voces.
― 7 minilectura
Un enfoque nuevo mejora la detección de clips de audio reales y falsos mezclados.
― 7 minilectura