El modelo TOGGL mejora la precisión de la transcripción en situaciones de habla superpuesta.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
El modelo TOGGL mejora la precisión de la transcripción en situaciones de habla superpuesta.
― 6 minilectura
Un método para mejorar la calidad del reconocimiento de voz en entornos ruidosos.
― 8 minilectura
Los investigadores desarrollan SaSLaW para mejorar la adaptación del habla de las máquinas en diferentes entornos.
― 6 minilectura
Un nuevo conjunto de datos resalta los sesgos en los modelos de lenguaje según el género y la edad.
― 9 minilectura
La investigación revela cómo hacer que los modelos de voz sean más pequeños y eficientes.
― 6 minilectura
El entrenamiento adversarial mejora la precisión del reconocimiento de palabras clave en habla sintética y real.
― 6 minilectura
Un nuevo estándar mejora la evaluación de los sistemas de reconocimiento de emociones en el habla a través de distintos idiomas y emociones.
― 7 minilectura
Nuevos métodos mejoran los modelos de ASR para múltiples idiomas, preservando el conocimiento pasado.
― 6 minilectura
Un nuevo enfoque mejora el reconocimiento de frases en código mezclado en el habla bilingüe.
― 6 minilectura
Un nuevo método para manejar mejor las secuencias de datos largas.
― 5 minilectura
Examinando cómo los patrones de voz afectan el significado y el rendimiento tecnológico.
― 6 minilectura
Una mirada a las complejidades de identificar pistas de audio mezcladas.
― 7 minilectura
O-HuBERT mejora el reconocimiento de voz al separar la información del contenido y la información expresiva.
― 7 minilectura
Un nuevo método mejora el reconocimiento de voz para Hindi usando técnicas de pseudoetiquetado.
― 5 minilectura
Un sistema para clasificar los dialectos literarios y coloquiales del tamil usando características de sonido.
― 6 minilectura
Nuevos métodos mejoran la comprensión de la computadora sobre el habla susurrada y normal.
― 6 minilectura
Una mirada a la recorte de micro-lotes y sus beneficios para el entrenamiento de modelos.
― 6 minilectura
La investigación muestra cómo los LLMs mejoran el reconocimiento automático de voz en japonés.
― 7 minilectura
Este artículo examina cómo los modelos reconocen el tono, el estrés y los acentos de pitch.
― 6 minilectura
SALSA mejora la precisión del reconocimiento de voz para lenguas de pocos recursos al integrar ASR y modelos de lenguaje.
― 6 minilectura
Nuevo método mejora la precisión de ASR usando modelos de lenguaje para mejores transcripciones.
― 4 minilectura
Un nuevo sistema corrige errores de identificación de hablantes para tener transcripciones de conversación más claras.
― 9 minilectura
Mejorando la claridad del habla a través de filtros híbridos y redes neuronales.
― 6 minilectura
Un nuevo modelo mejora el reconocimiento de voz al combinar de manera efectiva las entradas de audio y visuales.
― 6 minilectura
Nuevos métodos mejoran el reconocimiento de voz en situaciones difíciles con varios hablantes.
― 5 minilectura
Un nuevo método mejora el reconocimiento automático de voz al preservar el orden del sonido en la transferencia de conocimiento.
― 5 minilectura
Este estudio examina cómo el ruido puede mejorar la resistencia del reconocimiento del habla frente a desafíos.
― 6 minilectura
Un transductor innovador y liviano mejora la eficiencia y precisión del reconocimiento de voz.
― 7 minilectura
Este artículo compara las representaciones de voz discretas y continuas para un reconocimiento de voz efectivo.
― 6 minilectura
La investigación revela cómo las neuronas en los modelos de habla reconocen las características clave del sonido.
― 8 minilectura
Este estudio examina cómo la autoatención afecta el reconocimiento del habla en turco e inglés.
― 6 minilectura
Un enfoque de aprendizaje auto-supervisado reduce la necesidad de datos de audio etiquetados.
― 7 minilectura
TF-Mamba mejora la localización del sonido usando un enfoque novedoso que integra datos de tiempo y frecuencia.
― 6 minilectura
La investigación sobre sistemas ASR modulares busca mejorar el rendimiento en entornos ruidosos.
― 5 minilectura
Te presentamos DENSE, un método que mejora la extracción de habla objetivo usando embeddings dinámicos.
― 7 minilectura
Este método mejora la precisión del reconocimiento para nombres poco comunes en las salidas de voz.
― 7 minilectura
Mejorando la identificación de palabras habladas a través de señales visuales en idiomas con pocos recursos.
― 8 minilectura
BigCodec mejora la calidad de sonido en la transmisión de audio a baja tasa de bits.
― 6 minilectura
Este artículo habla sobre los beneficios de simplificar modelos de transformers para tareas de voz.
― 5 minilectura
Sortformer integra diarización de hablantes y ASR para mejorar el procesamiento de audio.
― 6 minilectura