Cet article parle des solutions pour les applications de parole dans les langues avec peu de données transcrites.
― 8 min lire
La science de pointe expliquée simplement
Cet article parle des solutions pour les applications de parole dans les langues avec peu de données transcrites.
― 8 min lire
Des chercheurs combinent des méthodes génératives et discriminatives pour améliorer la classification sonore.
― 7 min lire
Un nouveau modèle améliore la sécurité de l'identification vocale et résiste à la contrefaçon vocale.
― 7 min lire
Un aperçu de l'attention adaptative gaussienne pour améliorer les performances de l'IA.
― 8 min lire
Des recherches montrent que l'apprentissage profond améliore notre compréhension du rythme de la langue.
― 8 min lire
CoAVT intègre des données audio, visuelles et textuelles pour une meilleure compréhension.
― 9 min lire
E-SHARC améliore l'identification des locuteurs dans différents environnements audio.
― 7 min lire
Un nouveau système génère de la musique pour exprimer la joie et la tristesse.
― 7 min lire
Examiner les dangers et les préoccupations éthiques liés à la génération de la parole synthétique.
― 7 min lire
Un guide pour comprendre la similitude musicale dans les modèles génératifs.
― 11 min lire
Une étude sur la synthèse sonore et son évaluation dans des environnements contrôlés.
― 6 min lire
Une nouvelle méthode améliore la précision pour localiser des sources de son en mouvement en utilisant des réseaux de microphones.
― 8 min lire
PAM propose une nouvelle façon de mesurer la qualité audio sans avoir besoin d'enregistrements de référence.
― 8 min lire
Une méthode améliore la clarté de la parole dans des environnements bruyants sans données d'entraînement claires.
― 8 min lire
Audio Flamingo excelle à écouter, discuter et s'adapter à de nouvelles tâches audio.
― 7 min lire
Un nouveau modèle améliore la compréhension de l'audio spatial par les machines.
― 6 min lire
Un nouveau modèle améliore l'efficacité de la conversion de la parole en texte dans les applications en temps réel.
― 8 min lire
De nouvelles méthodes améliorent la reconnaissance vocale pour les langues sous-représentées en utilisant des données de langues similaires.
― 7 min lire
Cette étude évalue les sons par rapport aux mots dans la reconstruction des arbres généalogiques des langues.
― 8 min lire
Nouveau modèle améliore la création musicale en utilisant les retours des utilisateurs.
― 10 min lire
Reborn propose des solutions innovantes pour la reconnaissance vocale automatique sans données étiquetées.
― 8 min lire
Un nouvel outil aide les utilisateurs à modifier des sons facilement grâce à des instructions textuelles simples.
― 10 min lire
Un nouveau modèle fusionne le langage parlé et écrit pour améliorer la communication.
― 7 min lire
Un aperçu des nouveaux modèles pour des réponses parlées naturelles.
― 8 min lire
Une nouvelle méthode intègre des infos acoustiques dans les modèles de langage pour améliorer la reconnaissance vocale.
― 11 min lire
Utiliser la musique pour expliquer le cancer peut améliorer la compréhension et l'engagement.
― 8 min lire
Apprends comment la localisation sonore identifie la source des sons en utilisant des techniques avancées.
― 5 min lire
Une nouvelle approche pour synthétiser des voix avec une meilleure précision de rythme.
― 11 min lire
Les LLM améliorent la précision des transcriptions médicales, ce qui est super pour le soin des patients.
― 8 min lire
Une méthode pour améliorer l'extraction de mélodies à travers différents styles de musique avec un minimum d'efforts humains.
― 10 min lire
De nouvelles méthodes améliorent la détection d'activité vocale et de chevauchement dans la diarisation des locuteurs.
― 8 min lire
Une nouvelle méthode intègre les signaux de la parole pour améliorer la détection de la dépression.
― 5 min lire
Cet article parle des méthodes pour créer des champs sonores immersifs en utilisant différentes configurations.
― 6 min lire
Une nouvelle méthode réduit le son métallique indésirable dans la réverbération audio.
― 6 min lire
Chirp MFCC améliore la représentation des signaux audio pour une meilleure classification et reconnaissance.
― 6 min lire
Techniques innovantes pour améliorer les modèles TTS et réduire la perte de connaissances.
― 8 min lire
Le projet EMO-SUPERB améliore la reconnaissance des émotions dans la parole grâce à des techniques améliorées et à la collaboration de la communauté.
― 9 min lire
Un nouveau cadre améliore les modèles de langue en reconnaissant et en répondant à différents styles de discours.
― 10 min lire
Un nouveau système pour évaluer la performance des codecs audio dans différentes applis.
― 9 min lire
Cette étude examine comment la taille des lots influence la performance et l'entraînement des modèles de discours.
― 9 min lire