Últimos artículos para Reconocimiento de voz

Computación y lenguaje Presentamos Prak: Una Herramienta para la Alineación Fonética

Prak simplifica la alineación fonética para la investigación en lengua checa.

2025-11-20T10:38:10+00:00 ― 5 minilectura

Procesado de Audio y Voz Nuevo conjunto de datos de audio para la investigación en dereverberación

Un conjunto de datos de audio completo busca mejorar los métodos de dereverberación para un sonido más claro.

2025-11-20T05:46:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en Modelos de Reconocimiento de Voz Unificada

Nuevas técnicas mejoran la precisión en el reconocimiento de voz en tiempo real y fuera de línea.

2025-11-19T23:18:00+00:00 ― 6 minilectura

Sonido Avances en el Reconocimiento de Palabras Sesgadas en el Habla

CB-Conformer mejora el reconocimiento de voz para palabras sesgadas con técnicas innovadoras.

2025-11-19T11:57:50+00:00 ― 6 minilectura

Procesado de Audio y Voz Defendiendo el Reconocimiento Automático del Habla de Ataques Adversariales de Audio

Un nuevo método mejora las defensas contra ataques adversarios de audio en sistemas de reconocimiento de voz.

2025-11-18T22:11:55+00:00 ― 7 minilectura

Aprendizaje automático Avances en Análisis de Datos Funcionales

Un nuevo método mejora el análisis de datos funcionales complejos.

2025-11-18T10:07:44+00:00 ― 9 minilectura

Sonido Avanzando el Reconocimiento Automático de Voz con Técnicas Multimodales

Un nuevo modelo combina datos de audio y texto para mejorar la precisión del reconocimiento de voz.

2025-11-18T00:43:36+00:00 ― 6 minilectura

Aprendizaje automático Nuevo método para detectar énfasis en el habla

Un nuevo enfoque usa tecnología deepfake para identificar énfasis en el lenguaje hablado.

2025-11-17T15:22:42+00:00 ― 6 minilectura

Computación y lenguaje Avances en el Aprendizaje de Habla Autodirigido

Un nuevo método mejora la comprensión del habla por parte de las máquinas usando datos de audio sin etiquetar.

2025-11-15T20:19:24+00:00 ― 6 minilectura

Computación y lenguaje Presentamos SpeechGPT: un nuevo modelo multimodal

SpeechGPT conecta el habla y el texto para interacciones avanzadas de IA.

2025-11-14T22:12:12+00:00 ― 5 minilectura

Sonido Mejorando la detección de palabras clave con CosMix

Un nuevo método mejora los sistemas de detección de palabras clave en condiciones de pocos recursos.

2025-11-14T21:50:30+00:00 ― 6 minilectura

Computación y lenguaje Avanzando en la comprensión del habla y texto con SPECTRA

Un nuevo modelo mejora la comprensión de diálogos hablados al combinar el habla y el texto.

2025-11-14T07:35:18+00:00 ― 7 minilectura

Computación y lenguaje Avances en modelos de lenguaje basados en energía para el reconocimiento de voz

Los modelos de lenguaje basados en energía muestran potencial para mejorar la precisión del reconocimiento de voz.

2025-11-13T20:23:48+00:00 ― 6 minilectura

Aprendizaje automático Mejorando las predicciones con adaptación de mejor esfuerzo

Este artículo habla sobre cómo mejorar las predicciones adaptando datos de diferentes dominios.

2025-11-13T18:18:48+00:00 ― 6 minilectura

Computación y lenguaje Avances en sistemas de comprensión del lenguaje hablado

Un nuevo enfoque mejora la comprensión del lenguaje hablado usando procesamiento de audio eficiente.

2025-11-13T02:07:00+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Grande en Tareas en Árabe

Este estudio analiza el rendimiento de los LLMs en tareas de NLP y de habla en árabe.

2025-11-11T09:40:24+00:00 ― 5 minilectura

Sonido Avances en la separación de audio con AudioSlots

AudioSlots mejora la claridad del sonido al separar las grabaciones de audio mezcladas de manera efectiva.

2025-11-11T03:57:45+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en la tecnología de reconocimiento automático de voz

Nuevo método mejora modelos de reconocimiento de voz y reduce la pérdida de conocimiento.

2025-11-09T22:48:45+00:00 ― 5 minilectura

Probabilidad Filtrado Bayesiano: Actualizando Creencias con Nueva Evidencia

Aprende cómo el filtrado bayesiano ayuda a afinar la comprensión en sistemas inciertos.

2025-11-09T15:25:38+00:00 ― 8 minilectura

Computación y lenguaje Avances en la tecnología de reconocimiento de voz

Explorando métodos para mejorar la adaptación de modelos de lenguaje en sistemas de reconocimiento de voz.

2025-11-09T08:25:48+00:00 ― 6 minilectura

Comportamiento animal y cognición Adaptando Whisper para la Detección de Actividad Vocal en Humanos y Animales

Este estudio adapta el modelo Whisper para detectar vocalizaciones entre especies.

2025-11-08T17:32:51+00:00 ― 6 minilectura

Sonido Avances en técnicas de separación de voz

Un nuevo enfoque no supervisado mejora la isolación de voces en mezclas de audio.

2025-11-07T23:50:55+00:00 ― 5 minilectura

Sonido ML-SUPERB: Evaluando Modelos de Voz Multilingües

Un nuevo estándar para evaluar modelos de aprendizaje automático en la comprensión del habla entre idiomas.

2025-11-07T23:02:20+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la clasificación de fonemas en el reconocimiento de voz

Este artículo habla sobre métodos para mejorar la clasificación de teléfonos usando características de audio.

2025-11-07T21:25:10+00:00 ― 8 minilectura

Sonido Equilibrando la privacidad y la eficiencia en los modelos de voz

Un nuevo método asegura la privacidad en la clasificación de voz sin sacrificar el rendimiento.

2025-11-07T10:05:00+00:00 ― 7 minilectura

Computación y lenguaje Cómo los Modelos de Lenguaje Hablado Entienden la Sintaxis

La investigación examina la comprensión de la sintaxis en modelos de lenguaje hablado usando varios métodos.

2025-11-07T07:34:54+00:00 ― 7 minilectura

Computación y lenguaje Identificación de dialectos árabes con técnicas modernas

Este estudio se centra en reconocer dialectos árabes usando métodos avanzados y datos limitados.

2025-11-07T06:02:05+00:00 ― 5 minilectura

Computación y lenguaje Mejorando el Reconocimiento de Voz para Idiomas Minoritarios

Este estudio examina formas de mejorar el ASR para lenguas de pocos recursos utilizando técnicas de datos.

2025-11-07T01:59:10+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en la detección de palabras clave con TACos

Un nuevo método mejora la detección de palabras clave en grabaciones de audio.

2025-11-06T23:33:25+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en técnicas de compresión de modelos de voz

Un nuevo método mejora los modelos de voz y reduce las necesidades de recursos.

2025-11-06T11:24:40+00:00 ― 7 minilectura

Sonido Avances en el Monitoreo de Salud Basado en Voz

Nuevos métodos que usan el habla muestran promesas para identificar patrones de respiración y condiciones de salud.

2025-11-06T10:36:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando el Reconocimiento de Voz: Nuevas Técnicas para Velocidad y Precisión

Nuevos métodos mejoran la eficiencia en los sistemas de reconocimiento de voz sin perder precisión.

2025-11-06T08:10:20+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la detección de palabras clave en entornos ruidosos

Nuevo modelo mejora el reconocimiento de palabras clave en entornos acústicos desafiantes.

2025-11-06T04:07:25+00:00 ― 7 minilectura

Aprendizaje automático Deformación de Transporte Óptimo: Un Nuevo Método para el Análisis de Series Temporales

OTW ofrece una alternativa más rápida que DTW para comparar datos de series temporales.

2025-11-06T00:06:48+00:00 ― 6 minilectura

Sonido Avances en los sistemas de reconocimiento de voz para el reto VoxCeleb

Una mirada detallada a las técnicas de reconocimiento de hablantes desarrolladas para la competencia de 2022.

2025-11-05T21:38:45+00:00 ― 6 minilectura

Computación y lenguaje Avances en los modelos de reconocimiento de lenguaje hablado

Mejorando el reconocimiento de idiomas con modelos más pequeños y rápidos para aplicaciones del mundo real.

2025-11-05T17:00:12+00:00 ― 6 minilectura

Computación y lenguaje Aprovechando ciwGAN para el Análisis Fonológico

Explorando cómo ciwGAN puede aprender y representar características fonológicas como la nasalidad.

2025-11-05T15:10:05+00:00 ― 5 minilectura

Sonido Simulando habla ruidosa para mejor reconocimiento

Los investigadores usan GANs para generar audio ruidoso a partir de audio limpio, mejorando los modelos de voz.

2025-11-05T12:44:20+00:00 ― 7 minilectura

Computación y lenguaje Avanzando Modelos de Habla a Través del Conocimiento Textual

Usando modelos de texto para mejorar la generación de voz y así entender mejor.

2025-11-05T09:30:00+00:00 ― 9 minilectura

Computación y lenguaje Mejorando la precisión del ASR con técnicas de datos sintéticos

La investigación muestra cómo el texto sintético puede mejorar efectivamente los sistemas de ASR.

2025-11-05T04:38:30+00:00 ― 6 minilectura