Este estudio evalúa el rendimiento de los sistemas de ASR con personas que tartamudean.
― 10 minilectura
Ciencia de vanguardia explicada de forma sencilla
Este estudio evalúa el rendimiento de los sistemas de ASR con personas que tartamudean.
― 10 minilectura
Un clip de audio universal puede silenciar modelos de ASR avanzados como Whisper.
― 7 minilectura
Un dispositivo ayuda a enfocarse en voces específicas en lugares concurridos.
― 7 minilectura
Un nuevo método mejora la edición de audio usando modelos de difusión para cambios precisos.
― 6 minilectura
SpeechVerse conecta la comprensión de audio y el procesamiento del lenguaje para mejorar la interacción humano-computadora.
― 7 minilectura
Un nuevo conjunto de datos destaca las diferencias de rendimiento entre grupos demográficos que utilizan asistentes de voz.
― 8 minilectura
Este artículo investiga las vulnerabilidades en los modelos de voz y formas de mejorar su seguridad.
― 6 minilectura
El reconocimiento de voz mejorado para aulas usando técnicas de entrenamiento avanzadas mejora el aprendizaje.
― 8 minilectura
Entender y mitigar las alucinaciones en la IA para un rendimiento confiable.
― 9 minilectura
Un nuevo enfoque utiliza redes neuronales de convolución gráfica para un análisis eficiente de datos de música.
― 11 minilectura
Nuevos métodos mejoran las conexiones entre clips de audio y descripciones de texto.
― 7 minilectura
ROSVOT mejora la precisión al transcribir voces cantando, incluso en ambientes ruidosos.
― 7 minilectura
Nuevas técnicas mejoran la reconstrucción de voz en entornos difíciles usando datos limitados.
― 9 minilectura
Presentando un modelo que genera audio y video sincronizados con niveles de ruido mezclados.
― 6 minilectura
Un nuevo sistema mejora las interacciones de los robots al filtrar el habla superpuesta.
― 7 minilectura
Este artículo habla de un nuevo modelo sencillo para generar audio a partir de imágenes y viceversa.
― 6 minilectura
Los modelos de lenguaje de eliminación de ruido mejoran la corrección de errores en los sistemas de reconocimiento de voz usando datos sintéticos.
― 9 minilectura
El nuevo modelo VPIDM mejora la claridad del habla en ambientes ruidosos.
― 7 minilectura
NeRAF crea sonidos y visuales sincronizados para experiencias inmersivas en varios ámbitos.
― 7 minilectura
Un nuevo método mejora la alineación de audio y video usando modelos preentrenados.
― 7 minilectura
Zipper combina de manera efectiva diferentes tipos de datos para tener modelos de IA más inteligentes.
― 7 minilectura
Usando deep learning para mejorar la monitorización de emisiones acústicas en uniones atornilladas.
― 9 minilectura
Un nuevo enfoque para combinar canto y baile a través de técnicas informáticas avanzadas.
― 7 minilectura
Descubre cómo la pintura de voz está restaurando la calidad del audio en varios campos.
― 8 minilectura
Un nuevo sistema mejora la claridad del habla en entornos con múltiples hablantes.
― 6 minilectura
Nuevos métodos mejoran cómo las máquinas reconocen emociones en el habla.
― 7 minilectura
El modelo Frieren mejora la calidad de audio y la sincronización para videos.
― 7 minilectura
Un nuevo método genera sonidos únicos a partir de texto usando un sintetizador sencillo.
― 9 minilectura
Un nuevo método mejora la traducción de voz en entornos ruidosos y mantiene la expresividad.
― 5 minilectura
Un nuevo conjunto de datos mejora el estudio de la identificación de Raga en la música india.
― 7 minilectura
Seed-TTS crea habla realista a partir de texto para varias aplicaciones.
― 5 minilectura
Un nuevo método mejora la conversión de voz a canto usando aprendizaje auto-supervisado.
― 8 minilectura
StreamSpeech mejora la traducción de voz en tiempo real con eficiencia y calidad.
― 5 minilectura
Un nuevo modelo mejora el reconocimiento de voz usando múltiples métodos de decodificación.
― 8 minilectura
Un estudio sobre cómo mejorar el reconocimiento de voz automática (ASR) para dialectos árabes usando técnicas de modelos eficientes.
― 6 minilectura
Te presento BLSP-Emo, un modelo que entiende el habla y las emociones para tener mejores interacciones.
― 6 minilectura
Un estudio reciente replica hallazgos clave sobre la interpretación de datos usando sonido y visuales.
― 7 minilectura
Un nuevo modelo genera música usando tanto texto como información visual.
― 8 minilectura
Un sistema que conecta sonidos con imágenes, mejorando la comprensión de las máquinas.
― 7 minilectura
El nuevo modelo ARDiT mejora la síntesis de texto a voz y la edición de audio.
― 7 minilectura