Une méthode pour créer des voix chantantes sans étiquetage vocal détaillé.
― 8 min lire
La science de pointe expliquée simplement
Une méthode pour créer des voix chantantes sans étiquetage vocal détaillé.
― 8 min lire
Derniers articles
Derniers articles
De nouveaux benchmarks améliorent les modèles de séparation audio pour la musique et le divertissement.
― 6 min lire
Une nouvelle méthode améliore les modèles de reconnaissance vocale tout en réduisant la perte de connaissances.
― 5 min lire
Explorer la performance de la reconnaissance vocale (ASR) selon les différents accents et ses implications.
― 8 min lire
Une nouvelle méthode pour créer des versions musicales uniques en réarrangeant des morceaux existants.
― 8 min lire
Un nouveau système améliore la génération de la parole avec des sorties de haute qualité.
― 9 min lire
Un nouveau modèle améliore la précision de la reconnaissance vocale pendant les discours émotionnels.
― 6 min lire
Apprends à utiliser efficacement la FM et la PM dans le design sonore.
― 7 min lire
Une nouvelle méthode améliore les tâches de reconnaissance vocale en utilisant moins de données étiquetées.
― 7 min lire
Cet article examine les récentes améliorations dans la création de descriptions audio écrites.
― 7 min lire
Technologie de reconnaissance audio efficace conçue pour les téléviseurs à faible consommation d'énergie.
― 6 min lire
SCHmUBERT propose une nouvelle façon de créer de la musique symbolique avec l'IA.
― 8 min lire
Un nouveau modèle améliore les scores de confiance dans les systèmes de reconnaissance vocale.
― 7 min lire
De nouvelles techniques améliorent la compréhension de la parole dysarthrique dans les systèmes de communication.
― 6 min lire
Une nouvelle approche non supervisée améliore l'isolation vocale dans les mélanges audio.
― 5 min lire
Un nouveau standard pour évaluer les modèles de machine learning dans la compréhension de la parole à travers les langues.
― 7 min lire
Cet article parle des méthodes pour améliorer la classification des téléphones en utilisant des caractéristiques audio.
― 8 min lire
Un nouveau modèle améliore la perception audio et les capacités de raisonnement de l'IA.
― 8 min lire
NASS améliore l'isolement vocal dans des environnements bruyants, surpassant les méthodes traditionnelles.
― 6 min lire
Améliorer les métriques de qualité sonore en utilisant de nouvelles méthodes de calcul de loudness.
― 6 min lire
AlignAtt améliore la traduction de la parole simultanée avec une vitesse et une qualité améliorées.
― 6 min lire
Une nouvelle méthode garantit la confidentialité dans la classification de la parole sans sacrifier la performance.
― 7 min lire
Cette étude montre comment adapter la technologie TTS à différents accents de manière efficace.
― 6 min lire
Le modèle AMII améliore la communication des agents sociaux interactifs grâce à un comportement non verbal amélioré.
― 6 min lire
Présentation d'un modèle qui intègre différents types de données pour des tâches complexes.
― 7 min lire
Des chercheurs améliorent la façon dont on détecte automatiquement les sons d'animaux.
― 8 min lire
Découvre comment Whisper s'adapte à différentes tâches de parole grâce à l'ingénierie des invites.
― 6 min lire
FastFit améliore la vitesse de génération de la parole sans perdre en qualité sonore.
― 7 min lire
Une nouvelle méthode améliore la détection des mots-clés dans les enregistrements audio.
― 7 min lire
Le système AED-EEND améliore la diarisation des locuteurs en intégrant des techniques avancées pour une meilleure précision.
― 6 min lire
Pengi fusionne la compréhension audio et la génération de texte en un seul modèle.
― 9 min lire
Une nouvelle méthode améliore les systèmes de détection de mots-clés pour de meilleures performances dans des audio changeants.
― 5 min lire
Un nouveau système de TTS améliore la génération de la parole dans plusieurs langues avec peu de données.
― 7 min lire
CoDi permet la création simultanée de différents types de contenu à partir de diverses entrées.
― 5 min lire
De nouvelles techniques améliorent la séparation sonore des mixes Ambisonics pour de meilleures expériences audio.
― 8 min lire
De nouvelles méthodes utilisant la parole montrent des promesses pour identifier les schémas de respiration et les problèmes de santé.
― 6 min lire
MIDI-Draw permet à tout le monde de créer de la musique en dessinant des mélodies de manière intuitive.
― 6 min lire
De nouvelles techniques inspirées du traitement d'images améliorent l'évaluation de la qualité audio.
― 8 min lire
De nouvelles méthodes améliorent la compréhension de la parole par les machines en utilisant des indices audio et visuels.
― 7 min lire
Nouveau modèle améliore la reconnaissance des mots-clés dans des environnements acoustiques difficiles.
― 8 min lire
Une nouvelle méthode améliore les modèles de parole en transférant des connaissances des modèles de texte.
― 7 min lire