Une nouvelle méthode améliore la traduction de la parole dans des environnements bruyants tout en préservant l'expressivité.
― 5 min lire
La science de pointe expliquée simplement
Une nouvelle méthode améliore la traduction de la parole dans des environnements bruyants tout en préservant l'expressivité.
― 5 min lire
Derniers articles
Une étude sur l'amélioration de la reconnaissance vocale automatique pour les dialectes arabes en utilisant des techniques de modèle efficaces.
― 6 min lire
Présentation de BLSP-Emo, un modèle qui comprend la parole et les émotions pour de meilleures interactions.
― 6 min lire
Une étude récente reproduit des résultats clés sur l'interprétation des données en utilisant le son et les visuels.
― 8 min lire
Un nouveau modèle génère de la musique en utilisant à la fois des infos textuelles et visuelles.
― 9 min lire
Un système qui relie les sons aux visuels, améliorant la compréhension des machines.
― 8 min lire
Le nouveau modèle ARDiT améliore la synthèse vocale et l'édition de la parole.
― 7 min lire
De nouvelles méthodes améliorent la clarté pour isoler les voix des mélanges audio.
― 5 min lire
Présentation de SPICE, une tâche pour améliorer les interactions avec l'IA en utilisant des infos contextuelles.
― 10 min lire
La recherche présente le dataset MOSA, qui améliore la compréhension des aspects visuels et auditifs de la musique.
― 9 min lire
mHuBERT-147 traite la parole dans plusieurs langues de manière efficace.
― 5 min lire
Une nouvelle approche pour la légende audio réduit la dépendance aux données appairées.
― 7 min lire
De nouvelles méthodes améliorent la façon dont les machines reconnaissent les émotions dans la parole humaine.
― 7 min lire
Un coup d'œil sur les nouvelles méthodes pour comprendre les discours qui se chevauchent pendant les conversations.
― 9 min lire
Enquête sur les vulnérabilités des méthodes de watermarking audio face aux menaces du monde réel.
― 8 min lire
PianoMotion10M fournit des mouvements de mains détaillés pour aider les apprentis pianistes.
― 7 min lire
Un nouveau modèle améliore la correspondance sonore avec les actions visuelles dans les vidéos.
― 14 min lire
Nouveau modèle améliore les expériences audio réalistes dans les environnements virtuels.
― 9 min lire
Cette étude examine les méthodes audio pour suivre les mouvements des piétons dans les zones urbaines.
― 9 min lire
Un nouveau jeu de données améliore la création de sons foley pour le contenu multimédia.
― 8 min lire
De nouvelles méthodes améliorent la reconnaissance vocale dans des environnements bruyants en utilisant des techniques adaptatives.
― 9 min lire
SPEAR prédit le comportement sonore dans des espaces 3D en utilisant une collecte de données minime.
― 7 min lire
Une nouvelle méthode améliore la traduction de discours en langues mélangées en anglais.
― 6 min lire
Une nouvelle méthode améliore la précision de la vérification des locuteurs dans des environnements radio difficiles.
― 8 min lire
Une nouvelle méthode cible les changements de rythme pour des attaques de discours discrètes.
― 7 min lire
GAMA améliore le traitement audio en fusionnant des infos sur le son et le langage.
― 7 min lire
Un nouveau système aide à séparer la parole du bruit pour une communication plus claire.
― 8 min lire
GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.
― 6 min lire
Un nouveau modèle améliore la technologie de synthèse vocale avec efficacité et adaptabilité.
― 8 min lire
Une nouvelle méthode qui optimise l'analyse et la synthèse de la parole en utilisant les mouvements du tractus vocal.
― 9 min lire
Cette étude examine comment les gestes influencent l'apprentissage avec des agents virtuels.
― 8 min lire
DExter utilise l'IA pour créer de la musique au piano expressive à partir de partitions écrites.
― 7 min lire
Découvre la diarisation de locuteur en ligne et son importance dans diverses applications.
― 8 min lire
Un nouvel outil de référence évalue les tokens audio discrets pour diverses tâches de traitement de la parole.
― 11 min lire
Une nouvelle méthode pour générer de la musique en utilisant des matrices d'auto-similarité et des systèmes d'attention.
― 9 min lire
De nouvelles techniques améliorent la modélisation des amplis de guitare en utilisant des données non appariées et des GAN.
― 9 min lire
Une nouvelle méthode améliore la conversion vocale entre les langues tout en préservant les traits du locuteur.
― 5 min lire
Une nouvelle méthode pour comprendre comment les modèles audio font des prédictions.
― 6 min lire
Introduction de la conversion de voix spatiale pour améliorer le réalisme audio et l'immersion.
― 7 min lire
WavRx analyse la parole pour la santé tout en protégeant la vie privée, montrant des résultats diagnostiques prometteurs.
― 10 min lire
Des recherches examinent comment l'analyse de la parole peut prédire le risque de suicide, en tenant compte des différences de genre.
― 6 min lire