Génie électrique et science des systèmes - Traitement de l'audio et de la parole

Traitement de l'audio et de la parole Avancées dans la reconnaissance automatique de la parole avec le TTA dynamique

De nouvelles méthodes améliorent la reconnaissance vocale dans des environnements bruyants en utilisant des techniques adaptatives.

2025-07-29T13:49:25+00:00 ― 9 min lire

Son SPEAR : Une nouvelle approche de l'analyse sonore

SPEAR prédit le comportement sonore dans des espaces 3D en utilisant une collecte de données minime.

2025-07-29T10:35:05+00:00 ― 7 min lire

Calcul et langage Avancées dans la traduction de la parole en code-switching

Une nouvelle méthode améliore la traduction de discours en langues mélangées en anglais.

2025-07-29T09:46:30+00:00 ― 6 min lire

Son Améliorer la vérification des locuteurs dans les communications radio

Une nouvelle méthode améliore la précision de la vérification des locuteurs dans des environnements radio difficiles.

2025-07-29T08:57:55+00:00 ― 8 min lire

Son Améliorer les attaques par porte dérobée dans la reconnaissance vocale

Une nouvelle méthode cible les changements de rythme pour des attaques de discours discrètes.

2025-07-29T08:09:20+00:00 ― 7 min lire

Son GAMA : Un Nouveau Modèle pour Comprendre le Son

GAMA améliore le traitement audio en fusionnant des infos sur le son et le langage.

2025-07-29T04:55:00+00:00 ― 7 min lire

Traitement de l'audio et de la parole AV-CrossNet : Améliorer la reconnaissance vocale dans le bruit

Un nouveau système aide à séparer la parole du bruit pour une communication plus claire.

2025-07-29T03:17:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole GigaSpeech 2 : Un nouveau dataset pour la reconnaissance vocale

GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.

2025-07-29T02:29:15+00:00 ― 6 min lire

Traitement de l'audio et de la parole Révolutionner la synthèse vocale avec DiTTo-TTS

Un nouveau modèle améliore la technologie de synthèse vocale avec efficacité et adaptabilité.

2025-07-29T01:40:40+00:00 ― 8 min lire

Traitement de l'audio et de la parole Nouveau cadre pour une production de parole claire

Une nouvelle méthode qui optimise l'analyse et la synthèse de la parole en utilisant les mouvements du tractus vocal.

2025-07-28T20:49:10+00:00 ― 9 min lire

Interaction homme-machine L'impact des gestes dans les explications virtuelles

Cette étude examine comment les gestes influencent l'apprentissage avec des agents virtuels.

2025-07-28T19:12:00+00:00 ― 8 min lire

Traitement de l'audio et de la parole DExter : Une nouvelle approche pour jouer du piano de manière expressive

DExter utilise l'IA pour créer de la musique au piano expressive à partir de partitions écrites.

2025-07-28T10:17:35+00:00 ― 7 min lire

Son Diarisation de locuteur en temps réel : un aperçu

Découvre la diarisation de locuteur en ligne et son importance dans diverses applications.

2025-07-28T06:14:40+00:00 ― 8 min lire

Son Évaluation des jetons audio discrets pour les tâches de parole

Un nouvel outil de référence évalue les tokens audio discrets pour diverses tâches de traitement de la parole.

2025-07-28T04:37:30+00:00 ― 11 min lire

Son Avancées dans la génération de musique structurée avec SING

Une nouvelle méthode pour générer de la musique en utilisant des matrices d'auto-similarité et des systèmes d'attention.

2025-07-28T01:23:10+00:00 ― 9 min lire

Son Avancées dans le modélisation audio avec des GANs

De nouvelles techniques améliorent la modélisation des amplis de guitare en utilisant des données non appariées et des GAN.

2025-07-27T22:08:50+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la conversion vocale interlinguale

Une nouvelle méthode améliore la conversion vocale entre les langues tout en préservant les traits du locuteur.

2025-07-27T15:40:10+00:00 ― 5 min lire

Son Analyser des modèles audio avec une dissection de réseau

Une nouvelle méthode pour comprendre comment les modèles audio font des prédictions.

2025-07-27T12:25:50+00:00 ― 6 min lire

Son Avancement de la conversion vocale avec une conscience spatiale

Introduction de la conversion de voix spatiale pour améliorer le réalisme audio et l'immersion.

2025-07-27T01:54:15+00:00 ― 7 min lire

Traitement de l'audio et de la parole WavRx : Un nouveau modèle pour les diagnostics de santé basés sur la parole

WavRx analyse la parole pour la santé tout en protégeant la vie privée, montrant des résultats diagnostiques prometteurs.

2025-07-26T21:51:20+00:00 ― 10 min lire

Calcul et langage Analyser la parole pour évaluer le risque de suicide

Des recherches examinent comment l'analyse de la parole peut prédire le risque de suicide, en tenant compte des différences de genre.

2025-07-26T13:45:30+00:00 ― 6 min lire

Son Un nouvel outil pour la visualisation musicale

Ce document présente un système pour créer des visuels qui réagissent à la musique.

2025-07-26T10:31:10+00:00 ― 9 min lire

Robotique Apprendre avec le son : une nouvelle ère pour les robots

Un nouveau système aide les robots à apprendre des tâches en utilisant des audio de démonstrations réelles.

2025-07-26T09:42:35+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la détection des événements sonores pour 2024

De nouvelles méthodes améliorent la précision dans la reconnaissance des sons qui se chevauchent à partir de diverses sources audio.

2025-07-26T07:16:50+00:00 ― 8 min lire

Calcul et langage Améliorer la correction des erreurs de parole dans les systèmes de reconnaissance vocale

Une nouvelle méthode combine des caractéristiques acoustiques et des scores de confiance pour une meilleure correction des erreurs.

2025-07-25T20:45:15+00:00 ― 6 min lire

Cryptographie et sécurité Protéger les voix à l'ère des deepfakes

SecureSpectra propose une nouvelle façon de protéger l'identité audio contre les menaces des deepfakes.

2025-07-25T16:42:20+00:00 ― 7 min lire

Apprentissage automatique Avancées dans la prédiction de la diffusion acoustique avec PGI-DeepONet

Combiner la physique et la géométrie pour améliorer les prévisions de diffusion acoustique.

2025-07-25T15:54:09+00:00 ― 7 min lire

Calcul et langage Avancées dans les systèmes de traduction vocale en temps réel

Un nouveau système pour une traduction rapide et précise de la parole dans plusieurs langues.

2025-07-25T15:05:10+00:00 ― 7 min lire

Son Nouvelle méthode pour la création de voix dans la synthèse vocale

Une méthode simple pour créer des voix et contrôler les émotions dans la synthèse vocale.

2025-07-25T14:16:35+00:00 ― 7 min lire

Son Avancées dans la séparation de sources musicales en temps réel

Améliorer MMDenseNet pour une séparation musicale rapide et efficace.

2025-07-25T12:39:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Nouvelle méthode pour un son plus clair dans des environnements bruyants

Une nouvelle méthode pour améliorer la clarté du son en utilisant des techniques avancées d'apprentissage profond.

2025-07-25T11:02:15+00:00 ― 9 min lire

Traitement de l'audio et de la parole Améliorer la détection des intervenants avec des données audio et visuelles

Un système combine audio et vidéo pour améliorer la précision de la détection des intervenants.

2025-07-25T10:13:40+00:00 ― 6 min lire

Calcul et langage Progrès dans les systèmes de dialogue parlé

Une nouvelle méthode améliore le dialogue machine grâce à des données pseudo-stéréo.

2025-07-25T08:36:30+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale chinoise grâce à la régularisation du pinyin

Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.

2025-07-25T07:47:55+00:00 ― 9 min lire

Son Avancée de la technologie des haut-parleurs et contrôle du son

Des techniques innovantes améliorent la conception des haut-parleurs et la direction du son.

2025-07-25T06:10:45+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Progrès dans les modèles linguistiques multimodaux

Un nouveau modèle combine des données audio et visuelles pour une meilleure compréhension.

2025-07-25T05:22:10+00:00 ― 7 min lire

Son Analyse des techniques de détection d'audio deepfake

Cette étude se concentre sur l'amélioration de la détection des faux audios en utilisant des méthodes avancées.

2025-07-25T02:56:25+00:00 ― 6 min lire

Son Approches innovantes pour créer de la musique avec la technologie

Utiliser des interfaces visuelles et des modèles pour améliorer la génération de musique.

2025-07-25T00:30:40+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Approche innovante pour la génération automatique d'effets sonores

Un nouveau cadre pour créer des effets sonores synchronisés dans des vidéos.

2025-07-24T23:42:05+00:00 ― 7 min lire

Son Améliorer la diarisation des locuteurs avec des embeddings de locuteur

Une étude sur l'amélioration de la segmentation audio en intégrant des embeddings de locuteurs.

2025-07-24T21:16:20+00:00 ― 7 min lire