Derniers articles pour Reconnaissance vocale

Calcul et langage Avancées dans l'apprentissage des mots parlés avec MAMLCon

Une nouvelle méthode améliore la compréhension des ordres parlés par les ordinateurs avec moins d'exemples.

2025-11-04T22:09:50+00:00 ― 6 min lire

Calcul et langage Amélioration de la diarisation des locuteurs grâce à l'analyse des mots

Améliorer l'identification des locuteurs en combinant le son et les mots prononcés dans l'audio.

2025-11-04T18:55:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de détection de locuteur actif

Un nouveau cadre améliore la détection du locuteur actif en utilisant des indices audio et visuels.

2025-11-04T16:29:45+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer les modèles audio généraux pour les tâches de parole

Une nouvelle méthode améliore les modèles audio généraux pour une reconnaissance vocale efficace.

2025-11-04T05:58:10+00:00 ― 9 min lire

Traitement de l'audio et de la parole Faire avancer la compréhension du langage parlé avec l'apprentissage continu

Cette recherche traite de l'oubli en IA à travers l'apprentissage continu dans la compréhension du langage parlé.

2025-11-04T00:18:05+00:00 ― 10 min lire

Son Développer des assistants vocaux empathiques avec CALLS

CALLS a pour but d'améliorer la capacité des assistants vocaux à gérer les interactions avec les clients.

2025-11-03T19:26:35+00:00 ― 6 min lire

Traitement de l'audio et de la parole Faire avancer la reconnaissance vocale avec l'apprentissage faiblement supervisé

De nouvelles méthodes exploitent l'identité du locuteur pour améliorer la performance de la reconnaissance vocale.

2025-11-03T01:37:45+00:00 ― 6 min lire

Calcul et langage Faire avancer la reconnaissance vocale slovaque avec des connaissances tchèques

Utiliser le transfert de connaissances des modèles tchèques améliore la précision de la reconnaissance vocale slovaque.

2025-11-02T21:19:36+00:00 ― 5 min lire

Traitement de l'audio et de la parole Faire avancer la synthèse vocale pour les langues turques

Créer des systèmes TTS pour des langues turciques moins connues en utilisant des données kazakhes.

2025-11-02T18:20:30+00:00 ― 6 min lire

Son Avancées dans la séparation de la parole avec S4M

Un nouveau modèle améliore l'isolation vocale dans les environnements bruyants.

2025-11-02T10:14:40+00:00 ― 6 min lire

Calcul et langage Avancées dans la technologie de lecture labiale avec OpenSR

OpenSR améliore les modèles de lecture labiale en utilisant des données audio pour plus de précision et d'accessibilité.

2025-11-01T17:48:30+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale avec la correction des disfluences

Des recherches montrent un modèle pour améliorer la correction des disfluences dans les systèmes de reconnaissance vocale.

2025-11-01T17:32:42+00:00 ― 7 min lire

Interaction homme-machine L'impact de la mauvaise reconnaissance de la parole sur l'apprentissage avec des agents enseignants

Une étude sur comment les erreurs de langage affectent l'apprentissage avec des agents pédagogiques.

2025-11-01T15:42:06+00:00 ― 6 min lire

Son S'attaquer aux défis de la reconnaissance vocale avec des mots enharmoniques

Une nouvelle méthode améliore la reconnaissance vocale pour les noms qui se ressemblent.

2025-11-01T14:48:40+00:00 ― 7 min lire

Apprentissage automatique Avancées dans l'apprentissage auto-supervisé multitâche

De nouvelles méthodes améliorent la flexibilité et les performances des modèles dans les tâches audio.

2025-11-01T08:20:00+00:00 ― 6 min lire

Calcul et langage Faire avancer la compréhension du langage parlé avec des unités discrètes

Une nouvelle méthode améliore la compréhension du langage parlé sans avoir besoin de transcriptions écrites.

2025-11-01T00:14:10+00:00 ― 7 min lire

Calcul et langage Progrès dans la traduction pour les langues sous-représentées

Améliorer la technologie de traduction pour des langues à faibles ressources comme le Tamasheq et le Quechua.

2025-10-31T16:39:36+00:00 ― 7 min lire

Calcul et langage Nouveau standard pour les modèles d'apprentissage vocal

BabySLM évalue comment les machines apprennent à comprendre la parole en se basant sur le langage des enfants.

2025-10-31T11:33:20+00:00 ― 9 min lire

Son Avancées dans les interfaces de parole silencieuse

Améliorer les systèmes de reconnaissance de la parole silencieuse avec de nouvelles techniques.

2025-10-31T07:13:55+00:00 ― 6 min lire

Son Avancées dans le repérage de mots-clés faiblement supervisé

Une nouvelle méthode pour entraîner des modèles de détection de mots-clés en utilisant une supervision faible dans des environnements bruyants.

2025-10-31T01:33:50+00:00 ― 8 min lire

Son Améliorer les modèles RNN-T avec l'apprentissage par renforcement

Une nouvelle approche améliore les performances des RNN-T dans la reconnaissance vocale automatique.

2025-10-30T19:53:45+00:00 ― 8 min lire

Calcul et langage Avancées dans les systèmes de reconnaissance vocale multilingue

Explorer des méthodes pour améliorer la reconnaissance vocale multilingue dans les langues indiennes.

2025-10-30T10:10:45+00:00 ― 7 min lire

Son Avancer la Détection d'Activité Voix avec SVVAD

Découvrez comment SVVAD améliore la détection de l'activité vocale pour une meilleure vérification des locuteurs.

2025-10-30T09:22:10+00:00 ― 6 min lire

Son Avancées dans l'évaluation automatique de la prononciation

Une nouvelle méthode améliore les retours sur la prononciation pour les apprenants de langues.

2025-10-30T08:33:35+00:00 ― 7 min lire

Calcul et langage Mesurer l'adaptabilité des modèles de reconnaissance vocale

Un nouveau cadre évalue comment les modèles de parole s'adaptent à des tâches spécifiques.

2025-10-30T06:56:25+00:00 ― 8 min lire

Calcul et langage Progrès dans la traduction de la parole multilingue

La recherche améliore la traduction vocale multilingue en utilisant des connaissances sémantiques.

2025-10-30T06:07:50+00:00 ― 5 min lire

Architecture matérielle Présentation de Sparq : une nouvelle solution de traitement pour les réseaux de neurones quantifiés

Sparq vise à améliorer la performance des réseaux de neurones quantifiés avec moins de ressources.

2025-10-30T00:45:54+00:00 ― 5 min lire

Son Ralentissement dans la Reconnaissance Vocale : Un Regard de Plus Près sur SlothSpeech

SlothSpeech dévoile des failles dans les systèmes de reconnaissance vocale, les ralentissant considérablement.

2025-10-29T17:10:30+00:00 ― 6 min lire

Son EmoMix : Faire avancer la synthèse vocale émotionnelle

EmoMix permet de créer des discours exprimant des émotions mélangées avec une intensité précise.

2025-10-29T13:56:10+00:00 ― 6 min lire

Calcul et langage HK-LegiCoST : Relier le cantonais parlé et écrit

Un nouveau corpus pour traduire l'audio cantonais en texte anglais.

2025-10-29T11:59:36+00:00 ― 6 min lire

Son MW-MAE : Une nouvelle approche de l'apprentissage audio

Découvrez la méthode innovante du Multi-Window Masked Autoencoder pour améliorer le traitement audio.

2025-10-29T11:30:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la technologie ASR avec la minimisation de l'entropie généralisée au niveau séquentiel

Une nouvelle méthode améliore les systèmes de reconnaissance automatique de la parole pour plus de précision et d'adaptabilité.

2025-10-29T02:36:00+00:00 ― 7 min lire

Calcul et langage Améliorer la reconnaissance vocale avec un biais contextuel

Le biais contextuel améliore les systèmes de reconnaissance vocale, augmentant la précision dans les tâches spécialisées.

2025-10-29T00:58:50+00:00 ― 7 min lire

Son Nouvelle méthode pour améliorer la détection de la prononciation des langues

Cette étude présente un nouveau système pour détecter les erreurs de prononciation chez les apprenants de langues.

2025-10-28T21:44:30+00:00 ― 7 min lire

Calcul et langage Faire avancer la reconnaissance vocale multilingue avec DistilXLSR

Un nouveau modèle réduit la taille tout en améliorant la reconnaissance vocale multilingue.

2025-10-28T11:12:55+00:00 ― 7 min lire

Calcul et langage Avancées dans la reconnaissance vocale pour plusieurs intervenants

Un nouveau système améliore la reconnaissance vocale dans des situations avec plusieurs intervenants.

2025-10-28T00:41:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Combiner le traitement de la parole avec l'apprentissage visuel

Cette étude examine les avantages de fusionner le traitement de la parole avec des données visuelles.

2025-10-27T20:38:25+00:00 ― 8 min lire

Calcul et langage Évaluer la performance de Whisper sur les dialectes arabes

Un aperçu de comment Whisper gère les différents dialectes et accents arabes.

2025-10-27T13:21:10+00:00 ― 6 min lire

Calcul et langage Avancer la reconnaissance des actes de parole en bengali

Une nouvelle méthode améliore la reconnaissance des actes de parole en bengali grâce à l'analyse audio et textuelle.

2025-10-27T10:55:25+00:00 ― 6 min lire

Calcul et langage Avancées dans l'identification des langues avec le cadre LASR

Une nouvelle approche améliore l'identification de la langue parlée en utilisant l'apprentissage auto-supervisé et des étiquettes.

2025-10-26T08:12:10+00:00 ― 8 min lire