Le modèle TOGGL améliore la précision de la transcription dans les situations de discours qui se chevauchent.
― 7 min lire
La science de pointe expliquée simplement
Le modèle TOGGL améliore la précision de la transcription dans les situations de discours qui se chevauchent.
― 7 min lire
Une méthode pour améliorer la qualité de la reconnaissance vocale dans des environnements bruyants.
― 8 min lire
Des chercheurs ont développé SaSLaW pour améliorer l'adaptation de la parole des machines dans divers environnements.
― 6 min lire
Un nouveau jeu de données met en lumière les biais dans les modèles de parole en fonction du genre et de l'âge.
― 10 min lire
Des recherches montrent comment rendre les modèles de discours plus petits et plus efficaces.
― 7 min lire
L'entraînement adversarial améliore la précision de détection des mots-clés dans la parole synthétique et réelle.
― 7 min lire
Un nouveau standard améliore l'évaluation des systèmes de reconnaissance des émotions dans la parole, toutes langues et émotions confondues.
― 8 min lire
De nouvelles méthodes améliorent les modèles ASR pour plusieurs langues, tout en préservant les connaissances passées.
― 6 min lire
Une nouvelle approche améliore la reconnaissance des phrases en code-switching dans le discours bilingue.
― 7 min lire
Une nouvelle méthode pour mieux gérer les longues séquences de données.
― 6 min lire
Examiner comment les patterns vocaux influencent le sens et la performance technologique.
― 6 min lire
Un aperçu des complexités pour identifier des pistes audio mixées.
― 8 min lire
O-HuBERT améliore la reconnaissance vocale en séparant le contenu et l'information expressive.
― 7 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour l'hindi en utilisant des techniques de pseudo-étiquetage.
― 6 min lire
Un système pour classer les dialectes tamouls littéraires et colloquiaux en utilisant des caractéristiques sonores.
― 7 min lire
De nouvelles méthodes améliorent la compréhension de la parole chuchotée et normale par les ordinateurs.
― 6 min lire
Un aperçu du micro-batch clipping et ses avantages pour l'entraînement des modèles.
― 7 min lire
Des recherches montrent comment les LLM améliorent la reconnaissance vocale automatique en japonais.
― 7 min lire
Cet article examine comment les modèles reconnaissent le ton, l'accentuation et les accents de hauteur.
― 6 min lire
SALSA améliore la précision de la reconnaissance vocale pour les langues à faibles ressources en intégrant des modèles ASR et des modèles linguistiques.
― 7 min lire
Une nouvelle méthode améliore la précision de la reconnaissance vocale en utilisant des modèles de langue pour de meilleures transcriptions.
― 5 min lire
Un nouveau système corrige les erreurs d'identification des intervenants pour des transcriptions de conversation plus claires.
― 9 min lire
Améliorer la clarté de la parole grâce à des filtres hybrides et des réseaux neuronaux.
― 6 min lire
Un nouveau modèle améliore la reconnaissance vocale en combinant efficacement les entrées audio et visuelles.
― 6 min lire
De nouvelles méthodes améliorent la reconnaissance vocale dans des situations difficiles avec plusieurs intervenants.
― 6 min lire
Une nouvelle méthode améliore la reconnaissance automatique de la parole en préservant l'ordre des sons dans le transfert de connaissances.
― 5 min lire
Cette étude examine comment le bruit peut renforcer la résilience de la reconnaissance vocale face aux défis.
― 7 min lire
Un transducteur léger et innovant booste l'efficacité et la précision de la reconnaissance vocale.
― 7 min lire
Cet article compare les représentations de la parole discrètes et continues pour un bon reconocimiento de la parole.
― 7 min lire
Des recherches montrent comment les neurones dans les modèles de parole reconnaissent les caractéristiques clés du son.
― 9 min lire
Cette étude examine comment l'auto-attention affecte la reconnaissance vocale en turc et en anglais.
― 7 min lire
Une approche d'apprentissage auto-supervisé réduit le besoin de données audio étiquetées.
― 7 min lire
TF-Mamba améliore la localisation sonore grâce à une nouvelle approche qui intègre des données temporelles et fréquentielles.
― 6 min lire
La recherche sur les systèmes ASR modulaires vise à améliorer les performances dans des environnements bruyants.
― 5 min lire
Voici DENSE, une méthode qui améliore l'extraction de la parole cible grâce à des embeddings dynamiques.
― 8 min lire
Cette méthode améliore la précision de reconnaissance des noms rares dans les sorties vocales.
― 7 min lire
Améliorer l'identification des mots parlés grâce à des indices visuels dans les langues sous-représentées.
― 9 min lire
BigCodec améliore la qualité sonore dans les transmissions audio à faible débit.
― 6 min lire
Cet article parle des avantages de simplifier les modèles de transformateurs pour les tâches de parole.
― 6 min lire
Sortformer intègre la diarisation des locuteurs et l'ASR pour un meilleur traitement audio.
― 6 min lire