Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Calcul et langage Avancées dans l'apprentissage des mots parlés avec MAMLCon

Une nouvelle méthode améliore la compréhension des ordres parlés par les ordinateurs avec moins d'exemples.

2025-11-04T22:09:50+00:00 ― 6 min lire

Calcul et langage Amélioration de la diarisation des locuteurs grâce à l'analyse des mots

Améliorer l'identification des locuteurs en combinant le son et les mots prononcés dans l'audio.

2025-11-04T18:55:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Adapter des gestes pour les agents virtuels

Les agents virtuels apprennent à imiter les gestes humains pour une meilleure interaction.

2025-11-04T18:06:55+00:00 ― 8 min lire

Son Simplifier la synthèse sonore avec NAS-FM

Une nouvelle méthode pour créer des synthétiseurs qui profite aux musiciens.

2025-11-04T17:18:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de détection de locuteur actif

Un nouveau cadre améliore la détection du locuteur actif en utilisant des indices audio et visuels.

2025-11-04T16:29:45+00:00 ― 7 min lire

Son Renforcer la vérification vocale contre les menaces avancées

Un aperçu des défis et des défenses dans les systèmes de vérification automatique des locuteurs.

2025-11-04T15:41:10+00:00 ― 6 min lire

Son Le Rôle des Réseaux Optiques dans la Communication Moderne

Les réseaux optiques permettent un transfert de données rapide, façonnant l'avenir de la technologie de communication.

2025-11-04T14:04:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer les modèles audio généraux pour les tâches de parole

Une nouvelle méthode améliore les modèles audio généraux pour une reconnaissance vocale efficace.

2025-11-04T05:58:10+00:00 ― 9 min lire

Calcul et langage Avancées dans la reconnaissance des émotions dans les conversations

Nouveau modèle améliore la compréhension émotionnelle dans les dialogues.

2025-11-04T05:09:35+00:00 ― 8 min lire

Calcul et langage Nouveau modèle améliore la qualité de traduction vocale

Un modèle combine langue parlée et texte pour améliorer la précision de la traduction.

2025-11-04T04:21:00+00:00 ― 7 min lire

Apprentissage automatique Étudier les appels des marmousets à travers des modèles de parole humaine

La recherche utilise des modèles de parole humaine pour analyser efficacement les vocalises des Marmosets.

2025-11-04T03:32:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie d'analyse des sons pulmonaires

De nouvelles méthodes améliorent la détection précoce des maladies respiratoires en utilisant des données sonores.

2025-11-04T02:43:50+00:00 ― 7 min lire

Son Faire la différence entre le rire heureux et le rire moqueur

Cette étude examine comment le rire transmet des émotions à travers l'analyse sonore.

2025-11-04T01:55:15+00:00 ― 5 min lire

Traitement de l'audio et de la parole EfficientSpeech : Technologie de synthèse vocale sur appareil

Un nouveau modèle apporte des fonctionnalités vocales aux appareils sans internet.

2025-11-04T01:06:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole Faire avancer la compréhension du langage parlé avec l'apprentissage continu

Cette recherche traite de l'oubli en IA à travers l'apprentissage continu dans la compréhension du langage parlé.

2025-11-04T00:18:05+00:00 ― 10 min lire

Son Avancées dans la technologie de synthèse vocale émotionnelle

Le nouveau modèle ZET-Speech améliore la synthèse vocale émotionnelle pour des intervenants variés.

2025-11-03T23:29:30+00:00 ― 6 min lire

Son Avancées dans la transcription de la musique de piano et de violon

Une étude montre que de nouvelles techniques de mixage améliorent la précision de la transcription musicale.

2025-11-03T21:52:20+00:00 ― 5 min lire

Son Faire avancer l'interaction humain-machine avec un dialogue empathique

Une nouvelle méthode améliore les réponses des machines grâce à une meilleure compréhension émotionnelle.

2025-11-03T21:03:45+00:00 ― 7 min lire

Son Avancer la reconnaissance vocale dans des environnements avec plusieurs locuteurs

Une nouvelle méthode améliore la précision de la reconnaissance vocale automatique pour les réunions.

2025-11-03T20:15:10+00:00 ― 7 min lire

Son Développer des assistants vocaux empathiques avec CALLS

CALLS a pour but d'améliorer la capacité des assistants vocaux à gérer les interactions avec les clients.

2025-11-03T19:26:35+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de l'inpainting audio

De nouvelles méthodes améliorent la restauration audio et la qualité de production.

2025-11-03T17:49:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la quantification pour les modèles de reconnaissance vocale

La recherche améliore les techniques de quantification pour rendre les modèles de reconnaissance vocale plus efficaces.

2025-11-03T11:20:45+00:00 ― 10 min lire

Son Révolutionner la mesure de qualité audio avec PLCMOS

PLCMOS propose une nouvelle façon d'évaluer la qualité de la parole sans auditeurs humains.

2025-11-03T10:32:10+00:00 ― 7 min lire

Interaction homme-machine LoopBoxes : Une nouvelle façon de faire de la musique

LoopBoxes aide les enfants à créer de la musique facilement et en collaboratif.

2025-11-03T08:55:00+00:00 ― 7 min lire

Son Synthèse sonore innovante avec des réseaux neuronaux

Une nouvelle méthode pour créer des sons d'impact réalistes grâce aux réseaux de neurones.

2025-11-03T08:06:25+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance vocale pour les non-natifs

Une nouvelle technique améliore les systèmes ASR pour mieux reconnaître les accents non natifs.

2025-11-03T02:26:20+00:00 ― 8 min lire

Traitement de l'audio et de la parole Faire avancer la reconnaissance vocale avec l'apprentissage faiblement supervisé

De nouvelles méthodes exploitent l'identité du locuteur pour améliorer la performance de la reconnaissance vocale.

2025-11-03T01:37:45+00:00 ― 6 min lire

Son Améliorer la reconnaissance vocale avec l'approche Sidecar

Une nouvelle méthode combine la reconnaissance vocale et l'identification des locuteurs pour les discours qui se chevauchent.

2025-11-03T00:49:10+00:00 ― 7 min lire

Calcul et langage Faire avancer la traduction simultanée de la parole avec DiSeg

Une nouvelle méthode améliore la qualité et l'efficacité de la traduction en temps réel.

2025-11-03T00:00:35+00:00 ― 5 min lire

Calcul et langage Améliorer l'apprentissage avec peu d'exemples grâce au mécanisme d'attention

Une nouvelle approche améliore l'apprentissage machine avec moins d'exemples et des données multimodales.

2025-11-02T22:23:25+00:00 ― 7 min lire

Son Estimation des réponses impulsionnelles de salle avec plusieurs sources sonores

Une nouvelle méthode pour estimer les réponses des salles dans des environnements sonores complexes.

2025-11-02T21:34:50+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de conversion vocale

Une nouvelle méthode de conversion vocale améliore la clarté et l'adaptation.

2025-11-02T19:57:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Faire avancer la synthèse vocale pour les langues turques

Créer des systèmes TTS pour des langues turciques moins connues en utilisant des données kazakhes.

2025-11-02T18:20:30+00:00 ― 6 min lire

Son Présentation de MeLoDy : Génération de musique rapide dévoilée

MeLoDy génère rapidement de la musique de haute qualité à partir de textes.

2025-11-02T17:31:55+00:00 ― 7 min lire

Son Traiter les menaces de sécurité dans les systèmes de reconnaissance vocale

De nouvelles méthodes émergent pour protéger la reconnaissance vocale contre les attaques adverses.

2025-11-02T16:43:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Présentation d'AudioDec : Une nouvelle ère dans le streaming audio

AudioDec propose de l'audio en temps réel de haute qualité avec peu de consommation de données.

2025-11-02T15:06:10+00:00 ― 6 min lire

Son Nouvelle méthode révèle les risques de confidentialité dans les modèles de diffusion

Une nouvelle technique vérifie l'exposition aux données d'entraînement dans les modèles de diffusion.

2025-11-02T13:29:00+00:00 ― 6 min lire

Son Avancées dans la séparation de la parole avec S4M

Un nouveau modèle améliore l'isolation vocale dans les environnements bruyants.

2025-11-02T10:14:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole Reproduire le son de la bande magnétique avec des outils numériques

Cet article parle de comment recréer le son des bandes magnétiques en utilisant la technologie numérique.

2025-11-02T09:26:05+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de synthèse vocale

Un nouveau cadre améliore la qualité de génération de voix dans la synthèse vocale.

2025-11-02T06:11:45+00:00 ― 6 min lire