Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Son Avancées dans les jeux de données audio-langue

Un aperçu complet des ensembles de données utilisés dans les modèles audio-langue et de leur importance.

2025-07-19T06:51:30+00:00 ― 14 min lire

Interaction homme-machine Nouveau système d'écouteurs mesure les taux de respiration

Un système fiable basé sur des écouteurs surveille les taux de respiration pendant différentes activités quotidiennes.

2025-07-19T06:02:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour les langues à faible ressource

Améliorer les systèmes de reconnaissance vocale pour les langues avec peu de données en ligne.

2025-07-19T04:25:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Spectrogrammes et réseaux de neurones dans la reconnaissance vocale

Cette étude examine comment les réseaux de neurones interprètent la parole en utilisant des spectrogrammes.

2025-07-18T22:45:40+00:00 ― 8 min lire

Multimédia Avancées dans l'apprentissage zéro-shot audio-visuel

Combiner son et images pour des systèmes de reconnaissance plus intelligents.

2025-07-18T21:08:30+00:00 ― 8 min lire

Son Nouvelle méthode pour détecter les deepfakes audio

Une méthode pour améliorer la détection des deepfakes audio grâce à l'augmentation des données.

2025-07-18T16:17:00+00:00 ― 7 min lire

Graphisme Beat-It : Transformer la création de danse avec la musique

Beat-It génère des mouvements de danse synchronisés pour améliorer la chorégraphie sans effort.

2025-07-18T15:28:25+00:00 ― 7 min lire

Son Avancées dans la technologie de génération vidéo vers audio

Des chercheurs veulent créer des sons qui vont avec des vidéos silencieuses, pour améliorer l'expérience des spectateurs.

2025-07-18T12:14:05+00:00 ― 7 min lire

Calcul et langage Défis dans les systèmes de compréhension du langage parlé

Cette étude aborde les problèmes des systèmes SLU et leur capacité à se généraliser.

2025-07-18T11:25:30+00:00 ― 8 min lire

Son Avancées de la technologie musicale avec STONE

Un outil auto-supervisé pour estimer les signatures musicales, réduisant le besoin d'annotations d'experts.

2025-07-18T10:36:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancement du mixage automatique de musique avec Diff-MST

Diff-MST améliore le mixage de musique en appliquant un transfert de style à partir de morceaux de référence.

2025-07-18T07:22:35+00:00 ― 8 min lire

Son ElasticAST : Une approche flexible pour la classification audio

ElasticAST permet de traiter des audio de longueur variable de manière efficace sans perdre des détails importants.

2025-07-18T02:31:05+00:00 ― 6 min lire

Son Clonage de voix : un nouveau défi pour les droits musicaux

Analyse des méthodes d'identification des chanteurs face aux inquiétudes croissantes sur le clonage vocal.

2025-07-18T01:42:30+00:00 ― 7 min lire

Son Nouvelle méthode pour détecter l'audio partiellement faux

Une nouvelle approche améliore la détection de clips audio mélangés réels et faux.

2025-07-17T17:36:40+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la localisation et la détection des événements sonores

Un nouveau système améliore la détection du son et l'estimation de la distance.

2025-07-17T14:22:20+00:00 ― 5 min lire

Traitement de l'audio et de la parole Évaluation de l'efficacité de Mamba dans la technologie de la parole

Mamba montre du potentiel contre les transformers dans les tâches de parole, surtout pour les longues entrées.

2025-07-17T13:33:45+00:00 ― 6 min lire

Son Avancées dans la synthèse de voix chantées avec SingFlex

SingFlex propose des solutions innovantes pour créer des voix chantées variées de manière efficace.

2025-07-17T07:05:05+00:00 ― 7 min lire

Théorie de l'information Mesurer la complexité dans la musique de danse irlandaise

Une étude sur la complexité des morceaux de danse traditionnelle irlandaise en utilisant des méthodes de compression.

2025-07-17T06:56:50+00:00 ― 6 min lire

Son RefinPaint : Une nouvelle approche pour la génération musicale

RefinPaint améliore la création musicale en identifiant et en perfectionnant les points faibles de manière efficace.

2025-07-17T06:16:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Exploitation des haut-parleurs à array paramétrique pour le contrôle du son

Découvrez comment les PAL peuvent révolutionner le contrôle des zones sonores dans différents environnements.

2025-07-17T03:02:10+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale multi-canaux

La méthode CUSIDE-array améliore la précision de la reconnaissance vocale en temps réel dans les systèmes multi-canaux.

2025-07-17T02:13:35+00:00 ― 7 min lire

Son Adapter Whisper pour améliorer la vérification des locuteurs

Un nouveau cadre améliore la performance de vérification des locuteurs avec des données limitées.

2025-07-17T00:36:25+00:00 ― 8 min lire

Son Créer le lien : IA et musiciens en harmonie

Explorer de nouvelles façons dont l'IA peut collaborer avec les musiciens à travers l'interprétation.

2025-07-16T15:42:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec des indices contextuels

Apprends comment le contexte améliore la précision de la reconnaissance vocale automatique et la reconnaissance des mots.

2025-07-16T14:53:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la sécurité audio avec un apprentissage continu

CADE améliore la détection audio contre les menaces de spoofing en évolution grâce à des techniques d'apprentissage continu.

2025-07-16T10:50:30+00:00 ― 9 min lire

Traitement de l'audio et de la parole Une nouvelle approche pour séparer les voix dans la musique piano

Méthode innovante améliore la clarté des partitions de musique pour le piano.

2025-07-16T10:01:55+00:00 ― 9 min lire

Robotique Utiliser le son pour localiser des objets en robotique

Une nouvelle méthode aide les robots à retrouver des objets tombés en utilisant le son.

2025-07-16T06:47:35+00:00 ― 6 min lire

Calcul et langage Faire progresser les machines dans des conversations bruyantes

De nouvelles méthodes améliorent la capacité des machines à isoler les conversations dans des environnements bruyants.

2025-07-16T05:59:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Qwen2-Audio : Une nouvelle voix pour la technologie

Un modèle vocal qui transforme l'interaction audio avec la technologie.

2025-07-16T00:18:55+00:00 ― 7 min lire

Son Avancées dans la modélisation des amplis de guitare

De nouvelles techniques permettent une meilleure émulation des amplis de guitare et des effets.

2025-07-15T23:30:20+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec mélange de langues grâce à la distillation de connaissances

Un nouveau cadre améliore la performance de l'ASR en utilisant des données et des ressources limitées.

2025-07-15T22:41:45+00:00 ― 7 min lire

Son Faire avancer la synthèse audio avec des modèles de diffusion

Une nouvelle méthode améliore l'efficacité de la génération audio en utilisant des techniques d'attention innovantes.

2025-07-15T20:16:00+00:00 ― 6 min lire

Son BandControlNet : Une nouvelle approche de la création musicale

Découvrez comment l'IA transforme la génération de musique avec BandControlNet.

2025-07-15T19:27:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale par les robots mobiles

Un robot mobile apprend à reconnaître les voix dans des environnements bruyants pour des applications pratiques.

2025-07-15T16:13:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Vibravox : Faire avancer la technologie de reconnaissance vocale

Un nouveau jeu de données vise à améliorer la capture de la voix avec des capteurs de conduction corporelle.

2025-07-15T14:35:55+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour détecter les deepfakes

Une nouvelle méthode améliore la détection des deepfakes en utilisant une analyse audio-visuelle.

2025-07-15T12:10:10+00:00 ― 7 min lire

Son L'évolution des systèmes de reconnaissance vocale automatique

Un aperçu des avancées dans les technologies et méthodes de reconnaissance vocale.

2025-07-15T11:21:35+00:00 ― 6 min lire

Son Améliorer la détection du bégaiement avec MMSD-Net

Une nouvelle méthode améliore la détection du bégaiement en combinant des données audio, vidéo et textuelles.

2025-07-15T07:18:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les systèmes de reconnaissance de locuteurs et de diarisation linguistique

Une équipe améliore le traitement audio pour identifier les locuteurs et les langues.

2025-07-15T03:15:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Progrès dans la reconnaissance des émotions à partir de la parole

Des recherches sur la détection des émotions humaines à travers la parole montrent des résultats prometteurs pour diverses applications.

2025-07-15T00:50:00+00:00 ― 7 min lire