Boris Ginsburg

Cet article explore un nouveau modèle pour l'identification de l'intention de discours et des slots.

2025-10-09T12:09:05+00:00 ― 8 min lire

Un nouveau modèle améliore la reconnaissance vocale dans des environnements bruyants en se concentrant sur un seul locuteur.

2025-09-28T08:08:00+00:00 ― 5 min lire

Les modèles de langue modernes améliorent la précision et la qualité de la normalisation du texte.

2025-09-22T20:03:54+00:00 ― 5 min lire

La famille Nemotron-4 340B propose des modèles puissants pour des applications diverses et la génération de données synthétiques.

2025-07-27T18:43:54+00:00 ― 10 min lire

Un nouveau modèle améliore la clarté de la voix en s'attaquant au bruit et aux échos.

2025-07-12T15:20:35+00:00 ― 8 min lire

NEST propose une approche plus rapide et efficace pour les tâches de parole auto-supervisées.

2025-06-25T20:06:05+00:00 ― 7 min lire

Sortformer intègre la diarisation des locuteurs et l'ASR pour un meilleur traitement audio.

2025-06-15T09:05:15+00:00 ― 6 min lire

Explorer le défi GenSEC pour améliorer la précision de la transcription vocale.

2025-06-10T18:57:55+00:00 ― 6 min lire

Un nouveau cadre simplifie la reconnaissance vocale dans des environnements bruyants.

2025-06-07T20:31:10+00:00 ― 6 min lire

Une nouvelle méthode pour les modèles de langage parlés réduit le besoin de données massives.

2025-05-29T17:50:26+00:00 ― 8 min lire

NeKo améliore la communication entre machines en corrigeant les erreurs de parole, de traduction et de texte.

2025-05-22T13:26:47+00:00 ― 8 min lire

Star Attention améliore la façon dont les modèles linguistiques gèrent les longues séquences de texte.

2025-05-05T12:49:20+00:00 ― 6 min lire