Wave-U-Mamba améliore les enregistrements vocaux de mauvaise qualité pour une communication plus claire.

2025-06-11T04:40:55+00:00 ― 6 min lire

Son Avancées dans l'évaluation de la qualité de la parole

Un nouveau système prédit des scores de naturel pour la parole synthétique en utilisant des méthodes innovantes.

2025-06-11T03:52:20+00:00 ― 7 min lire

Calcul et langage Améliorer la prononciation des machines dans les systèmes de synthèse vocale

Une nouvelle méthode utilise l'audio pour améliorer la précision de la prononciation des machines.

2025-06-10T23:00:50+00:00 ― 7 min lire

Son Progrès dans la génération de vidéo en audio

De nouvelles méthodes améliorent la synchronisation audio avec les scènes vidéo qui changent.

2025-06-10T20:35:05+00:00 ― 5 min lire

Calcul et langage Avancées dans la reconnaissance vocale avec les LLMs

Explorer le défi GenSEC pour améliorer la précision de la transcription vocale.

2025-06-10T18:57:55+00:00 ― 6 min lire

Traitement de l'audio et de la parole Nouveau système évalue la schizophrénie à travers la parole et les mouvements du visage

Une nouvelle méthode d'évaluation pour la schizophrénie utilisant des données multimodales.

2025-06-10T17:20:45+00:00 ― 7 min lire

Son Améliorer la compréhension des sons des machines

De nouvelles méthodes aident les machines à mieux interpréter les sons individuels.

2025-06-10T13:17:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Défis et avancées dans la détection de mots-clés pour l'ourdou

Un aperçu des technologies de détection de mots-clés et de leurs défis avec la langue ourdou.

2025-06-10T10:52:05+00:00 ― 8 min lire

Son Défis dans la transcription des communications radio de la police

Des recherches montrent les galères avec la reconnaissance vocale des transmissions radio de la police.

2025-06-10T09:14:55+00:00 ― 9 min lire

Son PDMX : Une nouvelle ressource pour la recherche en musique IA

PDMX propose une énorme collection de musique symbolique dans le domaine public pour le développement de l'IA.

2025-06-10T08:26:20+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale avec les i-vecteurs

Une étude montre que les i-vectors peuvent rivaliser avec des modèles complexes dans la reconnaissance vocale.

2025-06-10T06:49:10+00:00 ― 6 min lire

Traitement de l'audio et de la parole Choix de design impactant la performance des modèles de parole

Une étude sur comment les choix de design impactent les modèles de fond de parole.

2025-06-10T06:00:35+00:00 ― 9 min lire

Traitement de l'audio et de la parole Évaluer les modèles de parole avec la mesure de rang

Une nouvelle méthode évalue les modèles de parole auto-supervisés en utilisant une mesure de classement.

2025-06-10T05:12:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer l'interaction entre l'homme et le robot grâce à la reconnaissance des émotions

L'étude met en avant les progrès de la reconnaissance des émotions par les robots grâce aux Vision Transformers.

2025-06-10T02:46:15+00:00 ― 8 min lire

Apprentissage automatique Aborder le biais sexuel dans les modèles de maladies respiratoires

La recherche souligne l'importance d'un diagnostic juste dans les maladies respiratoires.

2025-06-10T01:57:40+00:00 ― 9 min lire

Son MusicLIME : Un nouvel outil pour l'analyse musicale par IA

MusicLIME aide à comprendre comment l'IA analyse la musique à travers l'audio et les paroles.

2025-06-10T00:20:30+00:00 ― 7 min lire

Son Explorer le son grâce à l'informatique quantique

Découvrez comment l'informatique quantique redéfinit la créativité musicale avec le Variational Quantum Harmonizer.

2025-06-10T00:10:24+00:00 ― 15 min lire

Traitement de l'audio et de la parole Améliorer la clarté de la parole avec le modèle MCMamba

Le modèle MCMamba améliore la qualité de la parole dans des environnements bruyants en utilisant des infos spatiales et spectraales.

2025-06-09T21:54:45+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'amélioration de la parole à faible latence

Cette étude évalue des méthodes à faible latence pour améliorer la qualité du son dans des conditions bruyantes.

2025-06-09T20:17:35+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Impact de la représentation des gestes sur les agents virtuels

Examen de comment les gestes 2D et 3D influencent la communication des personnages virtuels.

2025-06-09T19:29:00+00:00 ― 10 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance des locuteurs dans des environnements bruyants

Une étude sur l'amélioration des systèmes de reconnaissance vocale dans des environnements bruyants.

2025-06-09T18:40:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole L'avenir de la santé : Analyse de la parole dans la détection des maladies

Des chercheurs utilisent la parole pour identifier et surveiller différentes conditions de santé.

2025-06-09T17:51:50+00:00 ― 11 min lire

Traitement de l'audio et de la parole RF-GML : Une nouvelle approche de la qualité audio

RF-GML mesure la qualité audio sans avoir besoin d'un signal de référence.

2025-06-09T16:14:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la qualité du son grâce à l'égalisation des chambres

Apprends comment l'égalisation de la pièce améliore les expériences audio dans différents environnements.

2025-06-09T14:37:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la synthèse vocale avec StyleTTS-ZS

StyleTTS-ZS propose une synthèse vocale efficace et de haute qualité sans avoir besoin de former beaucoup les intervenants.

2025-06-09T13:00:20+00:00 ― 6 min lire

Traitement de l'audio et de la parole Approche innovante pour la synthèse de voix chantées en ensemble

Une nouvelle méthode améliore le chant d'ensemble synthétisé en modélisant les interactions entre les chanteurs.

2025-06-09T11:23:10+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale grâce à une pensée humaine

Un nouveau cadre améliore la reconnaissance vocale en modélisant efficacement les relations sonores.

2025-06-09T07:20:15+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de conversion vocale

Une nouvelle méthode de masquage améliore la conversion vocale en séparant l'identité du locuteur de la phonétique.

2025-06-09T04:05:55+00:00 ― 7 min lire

Son Améliorer les modèles musique-texte grâce à la qualité des données

Des techniques innovantes améliorent l'entraînement des modèles musique-texte avec des ressources limitées.

2025-06-09T00:03:00+00:00 ― 9 min lire

Son Approches innovantes dans le marquage audio pour la musique du monde

De nouvelles méthodes améliorent le balisage audio pour des styles musicaux divers et la préservation culturelle.

2025-06-08T17:34:20+00:00 ― 8 min lire

Son Nouveau jeu de données vise à améliorer la technologie des maisons intelligentes pour les seniors

Un ensemble de sons de maison favorise la sécurité et le confort des personnes âgées.

2025-06-08T16:45:45+00:00 ― 6 min lire

Son Présentation de SD-Codec : Un nouveau codec audio pour une meilleure gestion du son

Le SD-Codec améliore le traitement audio en séparant efficacement les différents types de sons.

2025-06-08T14:20:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour les accents

Cet article parle des méthodes pour améliorer la reconnaissance vocale pour les discours accentués.

2025-06-08T12:42:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la détection de la fraude vocale avec des méthodes explicables

Une nouvelle méthode améliore l'interprétabilité de la détection de discours truqué.

2025-06-08T11:05:40+00:00 ― 6 min lire

Son Avancées dans la technologie de synthèse vocale

Un aperçu du nouveau système TTS à une seule étape qui améliore la génération de la parole.

2025-06-08T09:28:30+00:00 ― 8 min lire

Calcul et langage Améliorer les modèles de langue audio pour le thaï et l'anglais

Cette étude aborde les défis des modèles audio pour les langues à faibles ressources.

2025-06-08T08:39:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance des émotions dans les langues à ressources limitées

Cette étude améliore les systèmes de reconnaissance des émotions pour les langues moins courantes en utilisant des données à forte ressource.

2025-06-08T07:51:20+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de parole multilingue

Un modèle améliore les tâches de parole dans des environnements multilingues, en s'attaquant aux défis du code-switching.

2025-06-08T06:14:10+00:00 ― 7 min lire

Traitement de l'audio et de la parole DeFT-Mamba : Faire avancer les techniques de séparation sonore

DeFT-Mamba améliore la séparation et la classification des sons dans des environnements bruyants.

2025-06-08T01:22:40+00:00 ― 6 min lire

Son Améliorer la reconnaissance automatique de la parole avec CADA-GAN

CADA-GAN améliore la performance des systèmes ASR dans différents environnements d'enregistrement.

2025-06-07T23:45:30+00:00 ― 7 min lire

Informatique - Son