Joon Son Chung

FlexiAST permite que los modelos se adapten de manera eficiente a diferentes tamaños de parches de audio.

2025-10-07T09:56:55+00:00 ― 7 minilectura

Mejorando la forma en que identificamos fuentes de sonido usando datos audio-visuales.

2025-09-08T12:49:35+00:00 ― 8 minilectura

Un nuevo método mejora la verificación de hablantes al manejar la variabilidad de las sesiones de manera efectiva.

2025-09-03T08:56:20+00:00 ― 7 minilectura

Este artículo habla sobre un método automatizado para generar tráileres de películas de manera eficiente.

2025-08-22T11:59:06+00:00 ― 8 minilectura

Nuevos métodos mejoran la resumencia de videos usando grandes conjuntos de datos y modelos avanzados.

2025-08-22T11:11:42+00:00 ― 8 minilectura

ElasticAST permite procesar audio de longitud variable de manera eficiente sin perder detalles importantes.

2025-07-18T02:31:05+00:00 ― 6 minilectura

Un estudio sobre cómo mejorar la localización de fuentes de sonido aprovechando mejor la información auditiva y visual.

2025-07-14T06:12:35+00:00 ― 9 minilectura

Una visión general de los avances en el reconocimiento de voz a través del VoxCeleb Challenge.

2025-06-23T13:02:25+00:00 ― 5 minilectura