Des chercheurs explorent des approches sans texte pour mieux comprendre le langage parlé.
― 8 min lire
La science de pointe expliquée simplement
Des chercheurs explorent des approches sans texte pour mieux comprendre le langage parlé.
― 8 min lire
Un nouveau modèle améliore la clarté de la voix en s'attaquant au bruit et aux échos.
― 8 min lire
Un nouveau jeu de données permet aux soins de santé d'utiliser des systèmes de questions par la parole pour les images médicales.
― 9 min lire
Une étude sur l'amélioration de la précision de la transcription grâce à une meilleure conception des invites.
― 7 min lire
Une nouvelle approche améliore les systèmes de reconnaissance vocale en utilisant des descriptions de l'environnement sonore.
― 8 min lire
Combiner la synthèse vocale et des données réelles améliore efficacement les systèmes de reconnaissance vocale.
― 5 min lire
Une nouvelle méthode améliore la conversion de la parole silencieuse en audio compréhensible.
― 7 min lire
Une nouvelle méthode améliore la séparation des voix dans des environnements bruyants avec plusieurs intervenants.
― 6 min lire
Cette étude présente une méthode pour évaluer le sens des signaux sonores.
― 7 min lire
De nouvelles méthodes visent à améliorer la reconnaissance de la parole chuchotée dans les systèmes automatiques.
― 8 min lire
Les modèles d'IA améliorent la précision des conversions de la parole en texte.
― 6 min lire
Examiner des techniques pour protéger la vie privée tout en analysant des conversations enregistrées.
― 6 min lire
Un nouveau modèle intègre des données audio et visuelles pour la reconnaissance vocale et la traduction.
― 8 min lire
De nouvelles méthodes améliorent la précision de la reconnaissance vocale pour les accents divers.
― 6 min lire
Wav2graph crée des graphes de connaissances à partir de la langue parlée pour améliorer la compréhension de l'IA.
― 9 min lire
MulliVC transforme les voix à travers les langues avec une précision et une clarté impressionnantes.
― 6 min lire
Un nouveau système de navigation robotique comprend les commandes vocales à travers les émotions.
― 7 min lire
Le modèle TOGGL améliore la précision de la transcription dans les situations de discours qui se chevauchent.
― 7 min lire
Une méthode pour améliorer la qualité de la reconnaissance vocale dans des environnements bruyants.
― 8 min lire
Des chercheurs ont développé SaSLaW pour améliorer l'adaptation de la parole des machines dans divers environnements.
― 6 min lire
Un nouveau jeu de données met en lumière les biais dans les modèles de parole en fonction du genre et de l'âge.
― 10 min lire
Des recherches montrent comment rendre les modèles de discours plus petits et plus efficaces.
― 7 min lire
L'entraînement adversarial améliore la précision de détection des mots-clés dans la parole synthétique et réelle.
― 7 min lire
Un nouveau standard améliore l'évaluation des systèmes de reconnaissance des émotions dans la parole, toutes langues et émotions confondues.
― 8 min lire
De nouvelles méthodes améliorent les modèles ASR pour plusieurs langues, tout en préservant les connaissances passées.
― 6 min lire
Une nouvelle approche améliore la reconnaissance des phrases en code-switching dans le discours bilingue.
― 7 min lire
Une nouvelle méthode pour mieux gérer les longues séquences de données.
― 6 min lire
Examiner comment les patterns vocaux influencent le sens et la performance technologique.
― 6 min lire
Un aperçu des complexités pour identifier des pistes audio mixées.
― 8 min lire
O-HuBERT améliore la reconnaissance vocale en séparant le contenu et l'information expressive.
― 7 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour l'hindi en utilisant des techniques de pseudo-étiquetage.
― 6 min lire
Un système pour classer les dialectes tamouls littéraires et colloquiaux en utilisant des caractéristiques sonores.
― 7 min lire
De nouvelles méthodes améliorent la compréhension de la parole chuchotée et normale par les ordinateurs.
― 6 min lire
Un aperçu du micro-batch clipping et ses avantages pour l'entraînement des modèles.
― 7 min lire
Des recherches montrent comment les LLM améliorent la reconnaissance vocale automatique en japonais.
― 7 min lire
Cet article examine comment les modèles reconnaissent le ton, l'accentuation et les accents de hauteur.
― 6 min lire
SALSA améliore la précision de la reconnaissance vocale pour les langues à faibles ressources en intégrant des modèles ASR et des modèles linguistiques.
― 7 min lire
Une nouvelle méthode améliore la précision de la reconnaissance vocale en utilisant des modèles de langue pour de meilleures transcriptions.
― 5 min lire
Un nouveau système corrige les erreurs d'identification des intervenants pour des transcriptions de conversation plus claires.
― 9 min lire
Améliorer la clarté de la parole grâce à des filtres hybrides et des réseaux neuronaux.
― 6 min lire