Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Traitement de l'audio et de la parole Avancées dans la technologie de conversion des émotions de la parole

Une nouvelle approche pour changer les émotions dans la parole au milieu du bruit ambiant.

2025-10-28T23:21:40+00:00 ― 8 min lire

Son Nouvelle méthode pour améliorer la détection de la prononciation des langues

Cette étude présente un nouveau système pour détecter les erreurs de prononciation chez les apprenants de langues.

2025-10-28T21:44:30+00:00 ― 7 min lire

Son Une nouvelle approche pour réarranger la musique

Le système Q A utilise l'apprentissage auto-supervisé pour réorganiser la musique de manière innovante.

2025-10-28T20:07:20+00:00 ― 7 min lire

Son Amélioration de la synthèse vocale expressive avec TVC-GMM

Une nouvelle méthode améliore la qualité du texte en parole et l'expression émotionnelle.

2025-10-28T18:30:10+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la clarté de la parole avec des techniques audio-visuelles

Des chercheurs combinent des données audio et visuelles pour améliorer la compréhension de la parole dans des endroits bruyants.

2025-10-28T17:41:35+00:00 ― 6 min lire

Traitement de l'audio et de la parole Contrôle Actif du Bruit : Réduire les Sons Indésirables

Découvre comment la technologie de contrôle actif du bruit est en train de changer notre expérience sonore.

2025-10-28T16:53:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Faire avancer la reconnaissance vocale avec des modèles plus petits

Des techniques pour réduire la taille des modèles tout en gardant la performance émergent.

2025-10-28T15:15:50+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans les effets de phasage numérique

Nouveau modèle imite les effets de phasage analogique avec des techniques d'apprentissage améliorées.

2025-10-28T12:50:05+00:00 ― 6 min lire

Calcul et langage Faire avancer la reconnaissance vocale multilingue avec DistilXLSR

Un nouveau modèle réduit la taille tout en améliorant la reconnaissance vocale multilingue.

2025-10-28T11:12:55+00:00 ― 7 min lire

Calcul et langage Améliorer la reconnaissance vocale pour des accents variés

Une nouvelle méthode améliore la précision de la reconnaissance vocale pour les accents africains.

2025-10-28T09:35:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer les évaluations de la technologie de la parole grâce à des rapports détaillés

Examiner l'impact des évaluations détaillées sur les systèmes de synthèse vocale.

2025-10-28T07:58:35+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie d'annulation d'écho

Améliorer la clarté de la voix grâce à des techniques d'annulation d'écho efficaces et au machine learning.

2025-10-28T05:32:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Suivi en temps réel des voix chantées avec SingNet

SingNet améliore le suivi des beats dans les voix chantées en utilisant des données passées.

2025-10-28T04:44:15+00:00 ― 7 min lire

Calcul et langage Avancées dans la reconnaissance vocale pour plusieurs intervenants

Un nouveau système améliore la reconnaissance vocale dans des situations avec plusieurs intervenants.

2025-10-28T00:41:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de la conversion des lèvres en parole

LipVoicer génère une voix claire à partir de vidéos silencieuses en utilisant des méthodes de lecture labiale avancées.

2025-10-27T21:27:00+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance de la parole dysarthrique avec des approches innovantes

De nouvelles méthodes visent à améliorer la communication des personnes atteintes de dysarthrie.

2025-10-27T21:01:09+00:00 ― 8 min lire

Traitement de l'audio et de la parole Combiner le traitement de la parole avec l'apprentissage visuel

Cette étude examine les avantages de fusionner le traitement de la parole avec des données visuelles.

2025-10-27T20:38:25+00:00 ― 8 min lire

Calcul et langage Amélioration des prévisions avec plusieurs scores dans les processus gaussiens

Une nouvelle méthode améliore les prévisions en tenant compte des scores de plusieurs experts.

2025-10-27T19:49:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Réévaluation de l'anonymisation des locuteurs et de l'impact des vocodeurs

Un nouveau regard sur l'anonymisation des locuteurs et le rôle crucial des vocoders.

2025-10-27T18:12:40+00:00 ― 6 min lire

Calcul et langage Évaluer la performance de Whisper sur les dialectes arabes

Un aperçu de comment Whisper gère les différents dialectes et accents arabes.

2025-10-27T13:21:10+00:00 ― 6 min lire

Calcul et langage Video-LLaMA : Une nouvelle approche pour comprendre les vidéos

Un programme qui combine des données visuelles et audio pour améliorer la compréhension des vidéos.

2025-10-27T11:44:00+00:00 ― 6 min lire

Calcul et langage Avancer la reconnaissance des actes de parole en bengali

Une nouvelle méthode améliore la reconnaissance des actes de parole en bengali grâce à l'analyse audio et textuelle.

2025-10-27T10:55:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Le Rôle du Rire dans l'Interaction Machine

Étudier le rire peut améliorer la façon dont les machines interagissent avec les gens.

2025-10-27T08:29:40+00:00 ― 6 min lire

Son Analyser la musique avec BERT : une nouvelle approche

La recherche explore le potentiel de BERT dans l'analyse musicale au niveau des bars.

2025-10-27T07:41:05+00:00 ― 6 min lire

Ordinateurs et société Apprendre les maths en s'amusant pour les petits

Un nouveau système améliore l'apprentissage des maths à la maison grâce à des interactions amusantes.

2025-10-27T07:08:49+00:00 ― 7 min lire

Calcul et langage Adaptation efficace de la reconnaissance vocale grâce aux données textuelles

Une nouvelle méthode améliore les modèles de reconnaissance vocale en utilisant seulement des données textuelles pour l'adaptation.

2025-10-27T06:52:30+00:00 ― 7 min lire

Son Avancée de l'harmonisation des mélodies avec un contexte émotionnel

Un nouveau modèle améliore l'harmonisation des mélodies en tenant compte des facteurs émotionnels.

2025-10-26T21:58:05+00:00 ― 8 min lire

Apprentissage automatique Création de danse innovante avec des mots sonores

De nouvelles méthodes utilisent l'onomatopée pour inspirer des mouvements de danse uniques.

2025-10-26T20:20:55+00:00 ― 6 min lire

Son Avancées dans les systèmes de contre-mesures vocales

Des chercheurs améliorent la détection de la parole générée par machine en ajustant les informations de phase.

2025-10-26T17:55:10+00:00 ― 7 min lire

Bibliothèques numériques Défis de reproductibilité aux conférences Interspeech

Un aperçu des problèmes de reproductibilité dans la recherche en traitement de la parole.

2025-10-26T16:18:00+00:00 ― 9 min lire

Calcul et langage Avancées dans l'identification des langues avec le cadre LASR

Une nouvelle approche améliore l'identification de la langue parlée en utilisant l'apprentissage auto-supervisé et des étiquettes.

2025-10-26T08:12:10+00:00 ― 8 min lire

Son Amélioration de la reconnaissance de la parole chez les personnes dysarthriques arabes

Une nouvelle méthode améliore la reconnaissance vocale pour les locuteurs arabes atteints de dysarthrie.

2025-10-26T07:23:35+00:00 ― 7 min lire

Calcul et langage Outil de Reconnaissance Vocale Innovant pour Langues à Faibles Ressources

Allophant améliore la reconnaissance des phonèmes pour les langues avec peu de données.

2025-10-26T06:35:00+00:00 ― 7 min lire

Son SANGEET : Un ensemble de données structuré pour la musique hindoustani

Présentation de SANGEET, un jeu de données complet sur la musique classique hindoustanie.

2025-10-26T04:57:50+00:00 ― 5 min lire

Traitement de l'audio et de la parole Améliorer le timing des mots dans les systèmes de reconnaissance vocale

Améliorer comment les systèmes de reconnaissance vocale estiment le timing des mots pour plus de précision.

2025-10-26T01:43:30+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec des modèles avancés

De nouvelles méthodes améliorent le traitement de la parole dans les modèles linguistiques.

2025-10-26T00:54:55+00:00 ― 7 min lire

Son S'attaquer au défi de la détection des faux audios

Une nouvelle méthode vise à améliorer la détection des faux audios sans perdre les connaissances passées.

2025-10-25T16:00:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale non supervisée

Un nouveau cadre améliore l'étude des systèmes de reconnaissance vocale non supervisée.

2025-10-25T13:34:45+00:00 ― 9 min lire

Son Créer des mélodies à partir de rythmes simples

Ce projet aide tout le monde à composer de la musique en utilisant des rythmes de base et des méthodes informatiques avancées.

2025-10-25T11:57:35+00:00 ― 6 min lire

Calcul et langage Avancées dans l'apprentissage auto-supervisé pour la reconnaissance vocale

Les modèles auto-supervisés révèlent des trucs sur les distinctions phonétiques et phonémiques dans la parole.

2025-10-25T10:20:25+00:00 ― 7 min lire