Une nouvelle méthode améliore la création automatique de covers de piano en utilisant la technologie de transcription musicale existante.
― 8 min lire
La science de pointe expliquée simplement
Une nouvelle méthode améliore la création automatique de covers de piano en utilisant la technologie de transcription musicale existante.
― 8 min lire
Un aperçu des résultats du défi Codec-SUPERB et des métriques de performance des codecs.
― 6 min lire
Le projet MultiMed améliore la reconnaissance vocale automatique pour une meilleure communication dans le domaine de la santé.
― 7 min lire
Une nouvelle approche pour évaluer la qualité audio sans avoir besoin de références propres.
― 8 min lire
Le cadre ECHO améliore la précision de la classification sonore en utilisant des étiquettes structurées et un processus d'apprentissage en deux étapes.
― 6 min lire
Une nouvelle méthode améliore la clarté de la parole en intégrant des infos visuelles.
― 6 min lire
Une nouvelle méthode améliore l'estimation de la direction du son pour les intervenants en mouvement dans des environnements difficiles.
― 10 min lire
La récupération de moments audio permet de repérer des moments précis dans de longs enregistrements.
― 6 min lire
Safe Guard détecte les discours haineux en temps réel pendant les interactions vocales en VR sociale.
― 7 min lire
L'IA évolue pour avoir des conversations plus naturelles.
― 6 min lire
Une nouvelle approche utilise l'IRM en temps réel pour visualiser les mouvements de production de la parole.
― 7 min lire
Une nouvelle méthode pour détecter les réflexions de salle précoces améliore les expériences audio.
― 9 min lire
Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale et s'adapte à différents tâches de parole.
― 5 min lire
De nouvelles méthodes sont nécessaires pour détecter les technologies de discours deepfake avancées.
― 8 min lire
De nouvelles méthodes améliorent la précision pour identifier les sons des animaux à partir de données limitées.
― 6 min lire
Une nouvelle méthode améliore l'intégration sonore virtuelle dans les environnements AR.
― 8 min lire
Une nouvelle méthode vise à préserver la vie privée de la voix tout en permettant une communication efficace.
― 5 min lire
De nouvelles méthodes améliorent la reconnaissance vocale pour les langues à faibles ressources sans texte.
― 6 min lire
De nouvelles méthodes améliorent la précision des systèmes de reconnaissance vocale grâce à une compréhension phonétique.
― 7 min lire
Ce cadre améliore les animations en temps réel en synchronisant la parole et les gestes sans problème.
― 6 min lire
De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
― 6 min lire
Une nouvelle fonction de perte améliore la qualité audio en alignant la phase et l'amplitude.
― 7 min lire
Un nouveau modèle de TTS ajoute de la profondeur émotionnelle à la parole générée par ordinateur.
― 7 min lire
Évaluer des modèles de reconnaissance vocale pour des sessions de diagnostic de l'autisme.
― 8 min lire
Des méthodes récentes améliorent la clarté et la qualité du son en utilisant des modèles avancés.
― 8 min lire
Une nouvelle approche améliore la détection des faux enregistrements audio.
― 6 min lire
ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.
― 9 min lire
Explorer des méthodes pour adapter les RNN aux taux d'échantillonnage audio variables.
― 7 min lire
Nouveau modèle permet une transcription vocale plus rapide sans sacrifier la précision.
― 5 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
― 6 min lire
Présentation de NanoVoice, un modèle de synthèse vocale rapide et efficace pour un audio personnalisé.
― 7 min lire
Le nouveau modèle VoiceGuider améliore la TTS pour les voix variées.
― 7 min lire
Une nouvelle méthode pour traduire des voix à travers les langues tout en gardant leurs caractéristiques uniques.
― 7 min lire
De nouvelles techniques améliorent la qualité de la parole expressive chez différents locuteurs.
― 7 min lire
Cet article explore le rôle des métriques perceptuelles dans la classification des genres musicaux.
― 6 min lire
Une nouvelle méthode améliore le traitement de la parole et de l'audio dans plusieurs tâches.
― 7 min lire
Un nouveau système améliore l'identification des intervenants lors de discussions avec plusieurs participants.
― 6 min lire
Un nouveau cadre améliore l'expression émotionnelle dans les systèmes TTS.
― 7 min lire
Des découvertes récentes montrent que les capteurs de pression peuvent être utilisés pour espionner.
― 5 min lire