Efforts pour améliorer les systèmes de reconnaissance vocale pour l'arabe tunisien et le code-switching.
― 7 min lire
La science de pointe expliquée simplement
Efforts pour améliorer les systèmes de reconnaissance vocale pour l'arabe tunisien et le code-switching.
― 7 min lire
Des méthodes innovantes visent à adapter la création musicale aux préférences des utilisateurs.
― 8 min lire
Un nouveau modèle améliore l'efficacité et la performance de la séparation des voix.
― 7 min lire
Une nouvelle méthode évalue la qualité audio en utilisant plusieurs micros dans différents environnements.
― 7 min lire
Une nouvelle méthode améliore la séparation des sons à travers différentes fréquences.
― 6 min lire
Explore les avancées dans l'annulation d'écho pour améliorer la qualité des appels.
― 5 min lire
Une nouvelle méthode améliore la génération de musique en ajoutant du contexte de performance.
― 8 min lire
Une nouvelle approche génère des légendes audio en utilisant seulement du texte, ce qui améliore l'efficacité des données.
― 9 min lire
Explorer les défis et les innovations pour faire correspondre les enregistrements audio à la partition.
― 8 min lire
Une nouvelle approche utilise l'apprentissage auto-supervisé pour relier l'audio et la partition.
― 7 min lire
Une nouvelle méthode améliore l'accord entre audio et partitions.
― 7 min lire
Utiliser le clustering k-means pour optimiser les données audio pour un meilleur entraînement des modèles.
― 7 min lire
Une étude montre que l'augmentation audio peut améliorer la reconnaissance vocale dans les langues à faibles ressources.
― 7 min lire
Une nouvelle approche améliore l'efficacité des modèles ASR multilingues en intégrant des techniques de masquage adaptatif.
― 6 min lire
Enquête sur l'audio deepfake pour améliorer les modèles de transcription pour les langues moins courantes.
― 11 min lire
De nouvelles stratégies améliorent l'apprentissage avec des étiquettes faibles en sélectionnant des exemples négatifs pertinents.
― 8 min lire
Une nouvelle méthode pour marquer des audios créés par des modèles de diffusion pour protéger les droits d'auteur.
― 8 min lire
De nouvelles techniques améliorent les systèmes ASR pour une meilleure reconnaissance de la parole longue.
― 6 min lire
De nouvelles techniques visent à améliorer la précision des appareils activés par la voix contre les attaques.
― 7 min lire
DurIAN-E améliore la synthèse vocale avec une expressivité et un flot naturel renforcés.
― 5 min lire
Découvre comment SER améliore les interactions homme-machine grâce à la détection des émotions.
― 7 min lire
Une méthode pour choisir le meilleur modèle ASR en fonction des caractéristiques audio.
― 6 min lire
Apprends comment la dé-réverbération améliore la reconnaissance vocale dans des environnements bruyants.
― 6 min lire
Coco-Nut propose des échantillons de voix japonaise variés pour des applis avancées de synthèse vocale.
― 13 min lire
Cette étude présente un modèle basé sur l'attention pour estimer les volumes de pièces à partir d'enregistrements audio.
― 7 min lire
Le modèle ASCA améliore la précision de classification audio pour les petits jeux de données.
― 7 min lire
MyST vise à améliorer l'apprentissage des sciences chez les enfants grâce à du tutorat virtuel.
― 6 min lire
Une étude compare la précision de localisation sonore entre des formats audio à quatre canaux et à deux canaux.
― 7 min lire
Un aperçu de M2MeT 2.0 et son impact sur la transcription des réunions.
― 7 min lire
Une nouvelle méthode de traitement audio améliore l'anonymat des intervenants tout en gardant la clarté de la parole.
― 7 min lire
Cette étude transforme les données de langue obtenues par IRM en audio de parole réel.
― 5 min lire
Cette étude explore comment la compression de modèle impacte la reconnaissance vocale dans des environnements bruyants.
― 7 min lire
Explore comment l'apprentissage actif en ligne améliore l'efficacité de la reconnaissance sonore.
― 7 min lire
Un nouveau modèle améliore la compréhension de la parole et des sons en même temps.
― 7 min lire
Un système qui classe la langue des clients dans les séances de thérapie en utilisant plusieurs méthodes de communication.
― 8 min lire
Une nouvelle techno améliore la détection de la dysarthrie et la classification de sa gravité.
― 6 min lire
De nouvelles méthodes améliorent la détection précoce des problèmes de voix en utilisant des caractéristiques de la source glottale.
― 7 min lire
Améliorer les modèles de parole pour mieux reconnaître et s'adapter à différents accents.
― 6 min lire
DCLS améliore la performance de classification audio en apprenant les positions des noyaux pendant l'entraînement.
― 6 min lire
Une nouvelle méthode améliore l'apprentissage machine des données audio-visuelles.
― 7 min lire