Présentation d'un cadre pour une synthèse vocale plus naturelle et expressive.
― 7 min lire
La science de pointe expliquée simplement
Présentation d'un cadre pour une synthèse vocale plus naturelle et expressive.
― 7 min lire
Apprends comment la techno aide à classer les genres musicaux efficacement.
― 7 min lire
Une approche unifiée pour évaluer l'alimentation des poissons en utilisant des données audio et vidéo.
― 6 min lire
Une nouvelle méthode améliore la création de vidéos avec des têtes parlantes expressives.
― 9 min lire
Cette étude explore les problèmes liés à l'utilisation des convnets pour la création de filtres audio.
― 6 min lire
Le modèle CLAP fait le lien entre le traitement audio et le traitement de texte pour plein d'applications.
― 5 min lire
Un projet vise à améliorer le traitement de la parole en français grâce à l'apprentissage auto-supervisé.
― 7 min lire
De nouvelles méthodes améliorent la façon dont les machines reconnaissent le rythme de la parole et les émotions.
― 8 min lire
Une nouvelle approche améliore l'estimation du son dans des espaces avec des objets qui diffusent.
― 7 min lire
Examine comment l'indécidabilité influence la composition musicale et la production aujourd'hui.
― 5 min lire
Cet article explore les avancées en diarisation des locuteurs en utilisant des modèles de langue pour plus de précision.
― 6 min lire
Cette étude améliore la capacité des systèmes ASR à reconnaître la parole des enfants.
― 7 min lire
Des chercheurs examinent la technologie de détection audio pour améliorer la détection des piétons en milieu urbain.
― 7 min lire
Une nouvelle méthode améliore la localisation des sources sonores et la séparation des champs.
― 7 min lire
Une nouvelle méthode améliore la synthèse du son de batterie en se concentrant sur des éléments transitoires aigus.
― 7 min lire
Des chercheurs bossent sur des données vocales synthétiques pour protéger la vie privée dans la reconnaissance vocale.
― 7 min lire
VoxtLM combine la reconnaissance vocale, la synthèse, la génération de texte et la continuité dans un seul modèle.
― 5 min lire
Nouveau système améliore la reconnaissance vocale grâce à des invites conscientes du contexte.
― 5 min lire
EnCodecMAE combine l'apprentissage auto-supervisé et les codecs audio pour améliorer les performances dans les tâches audio.
― 7 min lire
Une étude sur l'utilisation de l'apprentissage automatique pour identifier les sons des enfants dans le cadre de l'évaluation de l'ASD.
― 6 min lire
Présentation d'une méthode flexible pour reconnaître les mots-clés dans la parole à travers les langues.
― 7 min lire
Un aperçu de comment la qualité de la parole est testée en utilisant le crowdsourcing.
― 6 min lire
Une nouvelle méthode forme des systèmes de légendes audio en utilisant uniquement des descriptions textuelles.
― 8 min lire
Un guide pour rédiger des papiers académiques clairs et efficaces.
― 4 min lire
Examen des risques des attaques par backdoor sur les systèmes de vérification vocale.
― 9 min lire
Une nouvelle méthode améliore la segmentation audio-visuelle sans étiquettes détaillées.
― 7 min lire
PIAVE aide les machines à extraire les voix clairement, même quand les intervenants tournent la tête.
― 7 min lire
Libriheavy propose 50 000 heures d'anglais parlé pour améliorer la technologie de reconnaissance vocale.
― 6 min lire
AV2Wav améliore la qualité de la parole en utilisant des indices audio et visuels.
― 7 min lire
Une nouvelle méthode pour que les machines modifient les émotions de la parole de manière naturelle.
― 6 min lire
De nouvelles méthodes sont en cours de développement pour identifier les voix chantées deepfake dans l'industrie musicale.
― 8 min lire
La sélection de sous-ensembles améliore les modèles de synthèse vocale en se concentrant sur des données variées.
― 7 min lire
De nouveaux modèles transforment notre façon d'analyser les émotions dans la parole.
― 8 min lire
Une nouvelle méthode utilise des ultrasons pour reconnaître des actions tout en protégeant la vie privée.
― 7 min lire
Présentation d'un cadre flexible pour améliorer la recherche sur la confidentialité vocale.
― 9 min lire
CiwaGAN combine le contrôle des mouvements de la parole et le partage d'infos pour améliorer l'apprentissage de la parole.
― 8 min lire
Un cadre qui mélange les indices verbaux et non verbaux pour un meilleur apprentissage des langues.
― 7 min lire
Une nouvelle méthode simplifie la compréhension des modèles de classification de la parole.
― 8 min lire
Un nouveau système améliore les compétences en prononciation en prenant en compte les influences de la langue maternelle.
― 6 min lire
Découvrez comment les outils quantiques changent la création et la performance musicale.
― 7 min lire