Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Traitement de l'audio et de la parole Nouvelle méthode pour l'évaluation objective de l'audio spatial

Une nouvelle approche améliore notre façon d'évaluer la qualité audio spatiale.

2025-10-23T19:28:25+00:00 ― 6 min lire

Son Identifier la parole lue vs. la parole spontanée dans les interviews

Une étude sur comment distinguer la parole lue et la parole spontanée.

2025-10-23T18:39:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole StyleTTS 2 : Faire avancer la technologie de synthèse vocale

Un nouveau modèle améliore le réalisme de la parole synthétique.

2025-10-23T15:25:30+00:00 ― 10 min lire

Traitement de l'audio et de la parole Malafide : Un nouveau défi pour les systèmes de reconnaissance vocale

Malafide introduit des techniques de spoofing sophistiquées, rendant les contre-mesures en reconnaissance vocale plus compliquées.

2025-10-23T14:36:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans le suivi de sources sonores avec PI-RNN

Un nouveau modèle améliore la précision et l'efficacité dans le suivi des sources sonores.

2025-10-23T10:34:00+00:00 ― 6 min lire

Calcul et langage Présentation du dataset ITALIC pour l'italien parlé

Un nouveau jeu de données améliore la compréhension du langage parlé en italien.

2025-10-23T08:56:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans l'apprentissage auto-supervisé pour le traitement de la parole

MCR-Data2vec 2.0 améliore la reconnaissance vocale en rendant le modèle plus cohérent.

2025-10-23T08:08:15+00:00 ― 6 min lire

Apprentissage automatique EM-Réseau : Une nouvelle approche dans l'apprentissage des séquences

EM-Network améliore l'apprentissage des séquences dans les tâches de traitement de la parole et du langage.

2025-10-23T07:19:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les modèles ASR bilingues et à code-switching

De nouvelles méthodes améliorent la reconnaissance vocale multilingue en utilisant des sources de données existantes.

2025-10-23T04:05:20+00:00 ― 9 min lire

Calcul et langage Améliorer la reconnaissance vocale pour les langues à faibles ressources

La recherche se concentre sur l'amélioration de la technologie vocale pour les langues qui manquent de données suffisantes.

2025-10-22T23:13:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'amélioration de la parole

Un aperçu des développements récents pour améliorer la clarté audio avec des modèles avancés.

2025-10-22T21:36:40+00:00 ― 6 min lire

Son Évaluer la difficulté des pièces de piano avec un nouveau dataset

Un nouveau jeu de données vise à classer les partitions de piano par niveau de difficulté.

2025-10-22T20:48:05+00:00 ― 9 min lire

Son Améliorations dans la qualité de la parole

Le cadre Gesper améliore la clarté de la parole dans des environnements bruyants.

2025-10-22T19:59:30+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer l'amélioration de la parole avec des techniques de normalisation

Cette étude présente une nouvelle méthode pour améliorer la qualité de la parole en utilisant des modèles pré-entraînés.

2025-10-22T19:10:55+00:00 ― 8 min lire

Intelligence artificielle Améliorer la détection de discours haineux dans les multimédias

Combiner audio, vidéo et texte rend la détection des discours de haine plus efficace.

2025-10-22T15:08:00+00:00 ― 7 min lire

Son Une approche simplifiée du HMM hybride pour la reconnaissance vocale

Cet article parle d'une nouvelle méthode pour construire des systèmes ASR efficaces.

2025-10-22T14:19:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Personnaliser la reconnaissance vocale sur les appareils mobiles

Une nouvelle approche améliore la reconnaissance vocale directement sur les smartphones tout en garantissant la vie privée des utilisateurs.

2025-10-22T10:16:30+00:00 ― 8 min lire

Traitement de l'audio et de la parole Nouveau système améliore l'identification des intervenants dans l'audio

Une nouvelle méthode améliore la précision pour identifier les intervenants pendant les conversations.

2025-10-22T09:27:55+00:00 ― 6 min lire

Son Progrès dans la détection d'événements bioacoustiques à quelques exemples

Des équipes améliorent l'identification des sons d'animaux avec quelques exemples dans le défi DCASE.

2025-10-22T07:50:45+00:00 ― 7 min lire

Son Exploiter le tagging audio sur des petits ordis

Découvre les systèmes de taggage audio et comment les utiliser sur Raspberry Pi.

2025-10-22T06:13:35+00:00 ― 6 min lire

Son Avancées dans les algorithmes d'identification des reprises musicales

De nouvelles techniques améliorent la précision et l'efficacité pour identifier les reprises.

2025-10-22T05:25:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de contrôle actif du bruit

Une nouvelle méthode améliore le contrôle du bruit dans les espaces en 3D.

2025-10-22T01:22:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Nouveau jeu de données et modèle pour le texte à la parole multilingue

CML-TTS permet d'améliorer les systèmes de conversion texte-parole dans sept langues.

2025-10-21T18:04:50+00:00 ― 6 min lire

Son Évaluer la qualité de la parole avec des modèles d'apprentissage automatique

Cette étude évalue différents modèles pour prédire la qualité de la parole synthétisée.

2025-10-21T16:27:40+00:00 ― 7 min lire

Son Avancées dans les méthodes de classification des sons d'oiseaux

Des chercheurs automatisent la classification des sons d'oiseaux, améliorant la précision dans le suivi des espèces.

2025-10-21T14:50:30+00:00 ― 6 min lire

Traitement de l'audio et de la parole FALL-E : Une nouvelle ère dans la création sonore

FALL-E crée des effets sonores de haute qualité à partir de descriptions textuelles.

2025-10-21T13:13:20+00:00 ― 6 min lire

Traitement de l'audio et de la parole Transformer le langage classique pour ceux qui ont de la dysarthrie

Une nouvelle méthode améliore la conversion vocale pour les personnes avec un discours atypique.

2025-10-21T05:56:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale multi-parleur avec SURT 2.0

SURT 2.0 améliore la reconnaissance vocale pour plusieurs intervenants en temps réel.

2025-10-21T05:07:30+00:00 ― 7 min lire

Son Présentation de MARBLE : un étalon pour l'IA musicale

MARBLE établit une norme pour évaluer les modèles d'IA musicale sur plusieurs tâches.

2025-10-21T04:18:55+00:00 ― 9 min lire

Traitement de l'audio et de la parole Nouveau modèle améliore la détection des sons des oiseaux

Une nouvelle méthode améliore la précision pour identifier les chants d'oiseaux.

2025-10-21T03:30:20+00:00 ― 7 min lire

Son Améliorer le traitement audio avec des couches SFI

De nouveaux algos améliorent la performance du traitement audio à différents taux d'échantillonnage.

2025-10-21T00:16:00+00:00 ― 7 min lire

Son Utiliser le son pour trier les mâles moustiques pour le contrôle des nuisibles

La recherche explore l'analyse du son pour améliorer le tri des moustiques dans le cadre du contrôle des maladies.

2025-10-20T21:50:15+00:00 ― 6 min lire

Son Transformer des sons vocaux avec des techniques DSP

Explore deux méthodes innovantes pour changer le timbre vocal en utilisant le traitement du signal numérique.

2025-10-20T14:33:00+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans l'apprentissage de la reconnaissance vocale automatique

Une nouvelle méthode améliore la technologie de reconnaissance vocale sans perdre les connaissances déjà acquises.

2025-10-20T13:44:25+00:00 ― 7 min lire

Son Progrès dans la transcription musicale multitrack avec Perceiver TF

Un nouveau modèle améliore la précision de la transcription musicale pour plusieurs instruments.

2025-10-20T12:07:15+00:00 ― 7 min lire

Son Avancées en traitement audio avec DAMAS-FISTA

Une nouvelle méthode combine l'apprentissage traditionnel et profond pour une imagerie sonore efficace.

2025-10-20T11:18:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconstruction du champ sonore

De nouvelles méthodes améliorent le réalisme dans les technologies audio en utilisant des techniques informées par la physique.

2025-10-20T10:30:05+00:00 ― 8 min lire

Traitement de l'audio et de la parole Faire avancer l'apprentissage des langues pour les langues peu répandues

Un nouveau modèle améliore l'apprentissage des mots en utilisant de l'audio et des images.

2025-10-20T09:41:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Le rôle de la reconnaissance vocale dans l'intégrité des essais cliniques

Enquête sur comment la technologie vocale peut empêcher la participation en double des patients dans les essais.

2025-10-20T07:15:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Analyser la parole pour détecter des problèmes de santé mentale

Un nouveau jeu de données aide à identifier les signes de dépression et d'anxiété grâce à l'analyse de la parole.

2025-10-20T06:27:10+00:00 ― 8 min lire