Génie électrique et science des systèmes - Traitement de l'audio et de la parole

Traitement de l'audio et de la parole Personnaliser les systèmes de reconnaissance des émotions dans la parole

Adapter la technologie de reconnaissance des émotions améliore la précision pour des intervenants divers.

2025-09-17T04:55:30+00:00 ― 8 min lire

Son Morphing de voix : Une menace pour la sécurité

Une étude révèle des menaces sérieuses dans la reconnaissance vocale en utilisant des échantillons morph.

2025-09-17T04:06:55+00:00 ― 7 min lire

Son Batik-joue-Mozart : Un dataset complet de piano

Un ensemble de données détaillé combinant les sonates de Mozart avec des performances au piano et des annotations d'experts.

2025-09-17T03:18:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la qualité audio pour les réunions à distance

Un nouveau design d'écouteurs améliore la clarté du son grâce à la technologie de conduction osseuse.

2025-09-17T02:29:45+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans l'estimation de la hauteur avec l'apprentissage auto-supervisé

Un nouveau modèle léger améliore l'estimation de la hauteur avec des techniques d'apprentissage auto-supervisé.

2025-09-17T00:04:00+00:00 ― 9 min lire

Son Avancées dans les techniques d'analyse de la structure musicale

Une nouvelle approche pour améliorer l'identification et l'analyse des segments musicaux.

2025-09-16T23:15:25+00:00 ― 7 min lire

Son Détecter les fausses chansons : Une nouvelle approche de dataset

De nouvelles méthodes ont été développées pour identifier les fausses chansons au milieu des préoccupations grandissantes.

2025-09-16T22:26:50+00:00 ― 7 min lire

Calcul et langage Améliorer la reconnaissance vocale avec Cleancoder

Cleancoder améliore les systèmes ASR en réduisant le bruit de fond pour une meilleure compréhension de la parole.

2025-09-16T21:38:15+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes RADIO : Une nouvelle approche des têtes parlantes

RADIO crée des visages parlants réalistes à partir d'une seule image de référence.

2025-09-16T16:46:45+00:00 ― 8 min lire

Calcul et langage RoDia : Un nouveau jeu de données pour l'identification des dialectes roumains

RoDia fournit des échantillons audio essentiels pour identifier les dialectes roumains.

2025-09-16T15:58:10+00:00 ― 7 min lire

Traitement de l'audio et de la parole Le Rôle des Signaux Non-Verbaux dans la Communication

Explorer comment les gestes et les expressions améliorent notre compréhension du langage parlé.

2025-09-16T08:40:55+00:00 ― 9 min lire

Interaction homme-machine L'Art et la Science du Mixage Musical

Un aperçu du mixage musical, qui combine compétences techniques et vision artistique.

2025-09-16T07:03:45+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la détection et la localisation des événements sonores

Explorer de nouvelles méthodes dans la détection et la localisation sonore en utilisant des données synthétiques.

2025-09-16T05:26:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Système de simulation sonore pour musiciens

Un nouveau système aide les musiciens à vivre le son sur une scène virtuelle.

2025-09-16T03:00:50+00:00 ― 8 min lire

Son Avancées dans la détection des audios partiellement falsifiés

Une nouvelle méthode améliore la détection des segments audio faux dans les enregistrements.

2025-09-16T01:23:40+00:00 ― 7 min lire

Son Avancées dans la technologie musicale : séparer le rythme et l'harmonie

Les ordis apprennent à séparer le rythme et l'harmonie dans la musique pour des applis créatives.

2025-09-15T23:46:30+00:00 ― 5 min lire

Traitement de l'audio et de la parole MuLanTTS : Une nouvelle frontière dans la synthèse vocale

Le MuLanTTS de Microsoft propose des capacités de synthèse vocale en français naturelles et expressives.

2025-09-15T22:57:55+00:00 ― 6 min lire

Son Avancées dans la technologie de surveillance acoustique du trafic

De nouveaux ensembles de données et des méthodes améliorent la classification des véhicules pour une meilleure gestion du trafic.

2025-09-15T13:14:55+00:00 ― 8 min lire

Son Avancées dans les systèmes de reconnaissance vocale automatique

De nouvelles méthodes améliorent la précision et la rapidité dans la technologie de reconnaissance vocale.

2025-09-15T06:46:15+00:00 ― 8 min lire

Son Avancées dans la synthèse de son Foley avec l'apprentissage automatique

Un nouveau synthétiseur améliore la création d'effets sonores réalistes pour les médias.

2025-09-15T05:57:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancer l'estimation de confiance dans la reconnaissance automatique de la parole

Une nouvelle méthode améliore l'estimation de confiance dans les systèmes ASR pour une meilleure précision.

2025-09-15T03:14:28+00:00 ― 6 min lire

Son Avancées dans la technologie de génération de voix

Présentation d'un cadre pour une synthèse vocale plus naturelle et expressive.

2025-09-15T01:06:10+00:00 ― 7 min lire

Son Classer les genres musicaux avec la technologie

Apprends comment la techno aide à classer les genres musicaux efficacement.

2025-09-14T21:51:50+00:00 ― 7 min lire

Son Nouveau modèle améliore l'évaluation de l'intensité de l'alimentation des poissons

Une approche unifiée pour évaluer l'alimentation des poissons en utilisant des données audio et vidéo.

2025-09-14T21:03:15+00:00 ― 6 min lire

Son Progrès dans la technologie des têtes parlantes émotionnelles

Une nouvelle méthode améliore la création de vidéos avec des têtes parlantes expressives.

2025-09-14T15:23:10+00:00 ― 9 min lire

Apprentissage automatique Défis d'utilisation des Convnets pour la conception de filtres audio

Cette étude explore les problèmes liés à l'utilisation des convnets pour la création de filtres audio.

2025-09-14T14:34:35+00:00 ― 6 min lire

Son Avancées dans les modèles audio et linguistiques

Le modèle CLAP fait le lien entre le traitement audio et le traitement de texte pour plein d'applications.

2025-09-14T13:46:00+00:00 ― 5 min lire

Calcul et langage Avancées dans l'apprentissage auto-supervisé pour les technologies de la parole en français

Un projet vise à améliorer le traitement de la parole en français grâce à l'apprentissage auto-supervisé.

2025-09-14T12:57:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans l'annotation automatique de la prosodie

De nouvelles méthodes améliorent la façon dont les machines reconnaissent le rythme de la parole et les émotions.

2025-09-14T12:08:50+00:00 ― 8 min lire

Son Nouvelle méthode pour l'estimation du son dans des environnements dispersés

Une nouvelle approche améliore l'estimation du son dans des espaces avec des objets qui diffusent.

2025-09-14T06:28:45+00:00 ― 7 min lire

Son L'impact de l'indécidabilité sur la production musicale

Examine comment l'indécidabilité influence la composition musicale et la production aujourd'hui.

2025-09-14T05:40:10+00:00 ― 5 min lire

Traitement de l'audio et de la parole Améliorer la diarisation des locuteurs avec des modèles de langue

Cet article explore les avancées en diarisation des locuteurs en utilisant des modèles de langue pour plus de précision.

2025-09-14T03:14:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Progrès dans la reconnaissance vocale pour les enfants

Cette étude améliore la capacité des systèmes ASR à reconnaître la parole des enfants.

2025-09-14T02:25:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Le Rôle de l'Audio dans la Détection des Piétons

Des chercheurs examinent la technologie de détection audio pour améliorer la détection des piétons en milieu urbain.

2025-09-14T00:48:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'enregistrement sonore en champ

Une nouvelle méthode améliore la localisation des sources sonores et la séparation des champs.

2025-09-13T20:45:45+00:00 ― 7 min lire

Son Avancées dans la synthèse des sons percussifs

Une nouvelle méthode améliore la synthèse du son de batterie en se concentrant sur des éléments transitoires aigus.

2025-09-13T19:57:10+00:00 ― 7 min lire

Son Création de jeux de données de voix synthétiques respectueux de la vie privée

Des chercheurs bossent sur des données vocales synthétiques pour protéger la vie privée dans la reconnaissance vocale.

2025-09-13T15:05:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole VoxtLM : Une approche unifiée pour la parole et le texte

VoxtLM combine la reconnaissance vocale, la synthèse, la génération de texte et la continuité dans un seul modèle.

2025-09-13T11:02:45+00:00 ― 5 min lire

Traitement de l'audio et de la parole PromptASR : Une techno de reconnaissance vocale de folie

Nouveau système améliore la reconnaissance vocale grâce à des invites conscientes du contexte.

2025-09-13T10:14:10+00:00 ― 5 min lire

Son Avancées dans les modèles Universal Audio

EnCodecMAE combine l'apprentissage auto-supervisé et les codecs audio pour améliorer les performances dans les tâches audio.

2025-09-13T09:25:35+00:00 ― 7 min lire