AlignAtt mejora la traducción de voz simultánea con mayor velocidad y calidad.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
AlignAtt mejora la traducción de voz simultánea con mayor velocidad y calidad.
― 6 minilectura
Un nuevo método asegura la privacidad en la clasificación de voz sin sacrificar el rendimiento.
― 7 minilectura
Este estudio muestra cómo adaptar la tecnología TTS a diferentes acentos de manera eficiente.
― 6 minilectura
El modelo AMII mejora la comunicación para agentes socialmente interactivos a través de un mejor comportamiento no verbal.
― 6 minilectura
Presentamos un modelo que integra varios tipos de datos para tareas complejas.
― 6 minilectura
Los investigadores están mejorando cómo detectamos los sonidos de los animales de forma automática.
― 8 minilectura
Descubre cómo Whisper se adapta a diferentes tareas de habla usando ingeniería de prompts.
― 6 minilectura
FastFit mejora la velocidad de generación de voz sin perder calidad de sonido.
― 6 minilectura
Un nuevo método mejora la detección de palabras clave en grabaciones de audio.
― 7 minilectura
El sistema AED-EEND mejora la diarización de hablantes al integrar técnicas avanzadas para una mejor precisión.
― 6 minilectura
Pengi combina la comprensión de audio y la generación de texto en un solo modelo.
― 8 minilectura
Un nuevo método mejora los sistemas de detección de palabras clave para un mejor rendimiento en audio cambiante.
― 5 minilectura
Un nuevo sistema TTS mejora la generación de voz en varios idiomas con datos limitados.
― 7 minilectura
CoDi permite generar al mismo tiempo diferentes tipos de contenido a partir de varias entradas.
― 5 minilectura
Nuevas técnicas mejoran la separación de sonido en mezclas de Ambisonics para unas experiencias de audio mejores.
― 8 minilectura
Nuevos métodos que usan el habla muestran promesas para identificar patrones de respiración y condiciones de salud.
― 6 minilectura
MIDI-Draw permite a cualquiera hacer música dibujando melodías de forma intuitiva.
― 6 minilectura
Nuevas técnicas que toman prestado del procesamiento de imágenes mejoran la evaluación de la calidad del audio.
― 8 minilectura
Nuevos métodos mejoran la comprensión del habla por parte de las máquinas usando señales de audio y visuales.
― 6 minilectura
Nuevo modelo mejora el reconocimiento de palabras clave en entornos acústicos desafiantes.
― 7 minilectura
Un nuevo método mejora los modelos de habla al transferir conocimiento de los modelos de texto.
― 6 minilectura
Una colección de sonidos respiratorios ayuda a identificar casos de COVID-19.
― 5 minilectura
Un nuevo modelo mejora la verificación de hablantes con técnicas eficientes.
― 7 minilectura
Una mirada detallada a las técnicas de reconocimiento de hablantes desarrolladas para la competencia de 2022.
― 6 minilectura
Un nuevo enfoque entrena a la IA para reconocer mejor el habla y las emociones en entornos ruidosos.
― 6 minilectura
Nuevos métodos buscan mejorar la comprensión de la dinámica familiar y la salud mental de los niños.
― 7 minilectura
Nuevos métodos de aprendizaje profundo mejoran las predicciones del movimiento del diafragma del hablante.
― 6 minilectura
Explorando cómo ciwGAN puede aprender y representar características fonológicas como la nasalidad.
― 5 minilectura
Un nuevo modelo mejora la eficiencia y precisión del reconocimiento de voz.
― 6 minilectura
Un nuevo método mejora la precisión del reconocimiento de voz usando información contextual.
― 6 minilectura
Los investigadores usan GANs para generar audio ruidoso a partir de audio limpio, mejorando los modelos de voz.
― 7 minilectura
El corpus JNV captura sonidos emocionales diversos en japonés, enriqueciendo las colecciones existentes.
― 7 minilectura
Nuevos métodos mejoran la generación de risas para interacciones realistas entre humanos y computadoras.
― 6 minilectura
Una mirada a cómo identificar audio falso en el mundo tecnológico de hoy.
― 5 minilectura
Un nuevo método mejora la detección de emociones en el habla mediante técnicas avanzadas de transformadores.
― 6 minilectura
Usando modelos de texto para mejorar la generación de voz y así entender mejor.
― 9 minilectura
C-MCR simplifica el aprendizaje multimodal al conectar el conocimiento existente de manera eficiente.
― 7 minilectura
FluentSpeech ofrece una solución automática para editar el habla de manera más fluida.
― 8 minilectura
MDA mejora el reconocimiento de voz al optimizar modelos para áreas de datos específicas.
― 6 minilectura
Investigaciones muestran que las señales del cerebro pueden ayudar a predecir los movimientos de la lengua durante el habla.
― 7 minilectura