Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Traitement de l'audio et de la parole Présentation d'Emilia : un nouveau jeu de données pour la génération de discours

Emilia propose un dataset varié pour améliorer les modèles de génération de discours.

2025-07-20T09:34:45+00:00 ― 8 min lire

Traitement du signal Avancées en traitement du signal avec des réseaux de neurones à impulsions

Un nouveau système améliore l'efficacité du traitement des signaux grâce à des méthodes d'encodage innovantes.

2025-07-20T07:09:00+00:00 ― 7 min lire

Son Approches innovantes pour la classification des chants d'oiseaux

Une équipe s'attaque aux défis d'identification des chants d'oiseaux dans la compétition BirdCLEF 2024.

2025-07-20T01:28:55+00:00 ― 8 min lire

Son Nouveaux ensembles de données pour la reconnaissance des émotions dans la musique

Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.

2025-07-19T20:37:25+00:00 ― 7 min lire

Apprentissage automatique Améliorer les petits modèles avec les infos des grands modèles

Une nouvelle méthode aide les petits modèles à mieux fonctionner en utilisant des indices des plus gros modèles.

2025-07-19T14:08:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la séparation audio cinématographique

Découvrez les mises à jour de la version 3 du jeu de données Divide and Remaster.

2025-07-19T12:31:35+00:00 ― 8 min lire

Son Avancées dans les jeux de données audio-langue

Un aperçu complet des ensembles de données utilisés dans les modèles audio-langue et de leur importance.

2025-07-19T06:51:30+00:00 ― 14 min lire

Interaction homme-machine Nouveau système d'écouteurs mesure les taux de respiration

Un système fiable basé sur des écouteurs surveille les taux de respiration pendant différentes activités quotidiennes.

2025-07-19T06:02:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour les langues à faible ressource

Améliorer les systèmes de reconnaissance vocale pour les langues avec peu de données en ligne.

2025-07-19T04:25:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Spectrogrammes et réseaux de neurones dans la reconnaissance vocale

Cette étude examine comment les réseaux de neurones interprètent la parole en utilisant des spectrogrammes.

2025-07-18T22:45:40+00:00 ― 8 min lire

Multimédia Avancées dans l'apprentissage zéro-shot audio-visuel

Combiner son et images pour des systèmes de reconnaissance plus intelligents.

2025-07-18T21:08:30+00:00 ― 8 min lire

Son Nouvelle méthode pour détecter les deepfakes audio

Une méthode pour améliorer la détection des deepfakes audio grâce à l'augmentation des données.

2025-07-18T16:17:00+00:00 ― 7 min lire

Graphisme Beat-It : Transformer la création de danse avec la musique

Beat-It génère des mouvements de danse synchronisés pour améliorer la chorégraphie sans effort.

2025-07-18T15:28:25+00:00 ― 7 min lire

Son Avancées dans la technologie de génération vidéo vers audio

Des chercheurs veulent créer des sons qui vont avec des vidéos silencieuses, pour améliorer l'expérience des spectateurs.

2025-07-18T12:14:05+00:00 ― 7 min lire

Calcul et langage Défis dans les systèmes de compréhension du langage parlé

Cette étude aborde les problèmes des systèmes SLU et leur capacité à se généraliser.

2025-07-18T11:25:30+00:00 ― 8 min lire

Son Avancées de la technologie musicale avec STONE

Un outil auto-supervisé pour estimer les signatures musicales, réduisant le besoin d'annotations d'experts.

2025-07-18T10:36:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancement du mixage automatique de musique avec Diff-MST

Diff-MST améliore le mixage de musique en appliquant un transfert de style à partir de morceaux de référence.

2025-07-18T07:22:35+00:00 ― 8 min lire

Son ElasticAST : Une approche flexible pour la classification audio

ElasticAST permet de traiter des audio de longueur variable de manière efficace sans perdre des détails importants.

2025-07-18T02:31:05+00:00 ― 6 min lire

Son Clonage de voix : un nouveau défi pour les droits musicaux

Analyse des méthodes d'identification des chanteurs face aux inquiétudes croissantes sur le clonage vocal.

2025-07-18T01:42:30+00:00 ― 7 min lire

Son Nouvelle méthode pour détecter l'audio partiellement faux

Une nouvelle approche améliore la détection de clips audio mélangés réels et faux.

2025-07-17T17:36:40+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la localisation et la détection des événements sonores

Un nouveau système améliore la détection du son et l'estimation de la distance.

2025-07-17T14:22:20+00:00 ― 5 min lire

Traitement de l'audio et de la parole Évaluation de l'efficacité de Mamba dans la technologie de la parole

Mamba montre du potentiel contre les transformers dans les tâches de parole, surtout pour les longues entrées.

2025-07-17T13:33:45+00:00 ― 6 min lire

Son Avancées dans la synthèse de voix chantées avec SingFlex

SingFlex propose des solutions innovantes pour créer des voix chantées variées de manière efficace.

2025-07-17T07:05:05+00:00 ― 7 min lire

Théorie de l'information Mesurer la complexité dans la musique de danse irlandaise

Une étude sur la complexité des morceaux de danse traditionnelle irlandaise en utilisant des méthodes de compression.

2025-07-17T06:56:50+00:00 ― 6 min lire

Son RefinPaint : Une nouvelle approche pour la génération musicale

RefinPaint améliore la création musicale en identifiant et en perfectionnant les points faibles de manière efficace.

2025-07-17T06:16:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Exploitation des haut-parleurs à array paramétrique pour le contrôle du son

Découvrez comment les PAL peuvent révolutionner le contrôle des zones sonores dans différents environnements.

2025-07-17T03:02:10+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale multi-canaux

La méthode CUSIDE-array améliore la précision de la reconnaissance vocale en temps réel dans les systèmes multi-canaux.

2025-07-17T02:13:35+00:00 ― 7 min lire

Son Adapter Whisper pour améliorer la vérification des locuteurs

Un nouveau cadre améliore la performance de vérification des locuteurs avec des données limitées.

2025-07-17T00:36:25+00:00 ― 8 min lire

Son Créer le lien : IA et musiciens en harmonie

Explorer de nouvelles façons dont l'IA peut collaborer avec les musiciens à travers l'interprétation.

2025-07-16T15:42:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec des indices contextuels

Apprends comment le contexte améliore la précision de la reconnaissance vocale automatique et la reconnaissance des mots.

2025-07-16T14:53:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la sécurité audio avec un apprentissage continu

CADE améliore la détection audio contre les menaces de spoofing en évolution grâce à des techniques d'apprentissage continu.

2025-07-16T10:50:30+00:00 ― 9 min lire

Traitement de l'audio et de la parole Une nouvelle approche pour séparer les voix dans la musique piano

Méthode innovante améliore la clarté des partitions de musique pour le piano.

2025-07-16T10:01:55+00:00 ― 9 min lire

Robotique Utiliser le son pour localiser des objets en robotique

Une nouvelle méthode aide les robots à retrouver des objets tombés en utilisant le son.

2025-07-16T06:47:35+00:00 ― 6 min lire

Calcul et langage Faire progresser les machines dans des conversations bruyantes

De nouvelles méthodes améliorent la capacité des machines à isoler les conversations dans des environnements bruyants.

2025-07-16T05:59:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Qwen2-Audio : Une nouvelle voix pour la technologie

Un modèle vocal qui transforme l'interaction audio avec la technologie.

2025-07-16T00:18:55+00:00 ― 7 min lire

Son Avancées dans la modélisation des amplis de guitare

De nouvelles techniques permettent une meilleure émulation des amplis de guitare et des effets.

2025-07-15T23:30:20+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec mélange de langues grâce à la distillation de connaissances

Un nouveau cadre améliore la performance de l'ASR en utilisant des données et des ressources limitées.

2025-07-15T22:41:45+00:00 ― 7 min lire

Son Faire avancer la synthèse audio avec des modèles de diffusion

Une nouvelle méthode améliore l'efficacité de la génération audio en utilisant des techniques d'attention innovantes.

2025-07-15T20:16:00+00:00 ― 6 min lire

Son BandControlNet : Une nouvelle approche de la création musicale

Découvrez comment l'IA transforme la génération de musique avec BandControlNet.

2025-07-15T19:27:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale par les robots mobiles

Un robot mobile apprend à reconnaître les voix dans des environnements bruyants pour des applications pratiques.

2025-07-15T16:13:05+00:00 ― 6 min lire