Erie simplifie la transformation des données en son pour une meilleure accessibilité.

2025-09-13T00:22:54+00:00 ― 8 min lire

Cryptographie et sécurité Attaques de porte dérobée : Une menace cachée pour la vérification vocale

Examen des risques des attaques par backdoor sur les systèmes de vérification vocale.

2025-09-12T22:54:00+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans les techniques de segmentation audio-visuelle

Une nouvelle méthode améliore la segmentation audio-visuelle sans étiquettes détaillées.

2025-09-12T20:28:15+00:00 ― 7 min lire

Son Nouveau système améliore l'extraction vocale depuis des positions de tête instables

PIAVE aide les machines à extraire les voix clairement, même quand les intervenants tournent la tête.

2025-09-12T19:39:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Libriheavy : Un nouveau dataset pour la reconnaissance vocale

Libriheavy propose 50 000 heures d'anglais parlé pour améliorer la technologie de reconnaissance vocale.

2025-09-12T18:51:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la clarté de la parole avec la technologie AV2Wav

AV2Wav améliore la qualité de la parole en utilisant des indices audio et visuels.

2025-09-12T17:13:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole EmoConv-Diff : Une nouvelle façon de changer les émotions dans la voix

Une nouvelle méthode pour que les machines modifient les émotions de la parole de manière naturelle.

2025-09-12T16:25:20+00:00 ― 6 min lire

Son Détecter les voix chantées générées par l'IA

De nouvelles méthodes sont en cours de développement pour identifier les voix chantées deepfake dans l'industrie musicale.

2025-09-12T14:48:10+00:00 ― 8 min lire

Son Optimiser la synthèse vocale avec la sélection de core-set

La sélection de sous-ensembles améliore les modèles de synthèse vocale en se concentrant sur des données variées.

2025-09-12T08:19:30+00:00 ― 7 min lire

Son Avancées dans les systèmes de reconnaissance des émotions par la voix

De nouveaux modèles transforment notre façon d'analyser les émotions dans la parole.

2025-09-12T07:30:55+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Reconnaissance d'actions axée sur la vie privée grâce à la technologie ultrason

Une nouvelle méthode utilise des ultrasons pour reconnaître des actions tout en protégeant la vie privée.

2025-09-12T06:42:20+00:00 ― 7 min lire

Son Un nouveau cadre pour l'anonymisation des intervenants

Présentation d'un cadre flexible pour améliorer la recherche sur la confidentialité vocale.

2025-09-12T05:05:10+00:00 ― 9 min lire

Son CiwaGAN : Un nouveau modèle pour l'apprentissage de la parole

CiwaGAN combine le contrôle des mouvements de la parole et le partage d'infos pour améliorer l'apprentissage de la parole.

2025-09-12T04:16:35+00:00 ― 8 min lire

Calcul et langage IntraVerbalPA : Une nouvelle approche pour évaluer la prononciation

Un cadre qui mélange les indices verbaux et non verbaux pour un meilleur apprentissage des langues.

2025-09-12T03:28:00+00:00 ― 7 min lire

Calcul et langage Améliorer les explications pour les modèles de parole

Une nouvelle méthode simplifie la compréhension des modèles de classification de la parole.

2025-09-12T02:39:25+00:00 ― 8 min lire

Calcul et langage Améliorer l'apprentissage des langues avec L1-MultiMDD

Un nouveau système améliore les compétences en prononciation en prenant en compte les influences de la langue maternelle.

2025-09-12T01:50:50+00:00 ― 6 min lire

Technologies émergentes L'informatique quantique rencontre la composition musicale

Découvrez comment les outils quantiques changent la création et la performance musicale.

2025-09-12T00:31:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de conversion vocale

Une nouvelle méthode améliore la préservation des émotions dans les processus de conversion vocale.

2025-09-12T00:13:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Emo-StarGAN : Avancer la technologie de conversion vocale

Une nouvelle méthode préserve le ton émotionnel dans la conversion de voix pour une meilleure interaction humain-ordinateur.

2025-09-11T23:25:05+00:00 ― 7 min lire

Calcul et langage Avancées dans la traduction directe de texte en parole

De nouveaux systèmes améliorent la traduction du texte en langage parlé sans intermédiaires.

2025-09-11T20:59:20+00:00 ― 5 min lire

Traitement de l'audio et de la parole Améliorer la classification des sons cardiaques avec l'augmentation de données

Des chercheurs améliorent la précision de la classification des sons cardiaques en utilisant des méthodes d'augmentation de données codec.

2025-09-11T19:22:10+00:00 ― 8 min lire

Son Des discours émotionnels mettent à l'épreuve les modèles de séparation de discours

Des recherches montrent que le discours émotionnel influence les performances des modèles dans les tâches de séparation de la parole.

2025-09-11T18:33:35+00:00 ― 8 min lire

Son M-AUDIODEC : Une nouvelle façon de compresser l'audio

M-AUDIODEC compresse l'audio multi-canaux tout en gardant la position des enceintes et la qualité.

2025-09-11T16:56:25+00:00 ― 7 min lire

Son Avancées dans la technologie de traduction de la parole à la parole

De nouvelles méthodes en S2ST améliorent la qualité de la traduction tout en gardant l'identité du locuteur.

2025-09-11T16:07:50+00:00 ― 7 min lire

Son Faire avancer la compression audio avec des techniques neurales

Un nouveau système améliore la compression audio spatiale pour un son plus clair et une meilleure efficacité.

2025-09-11T15:19:15+00:00 ― 5 min lire

Traitement de l'audio et de la parole MusiLingo : Relier la musique et la langue

Un nouveau système qui relie la musique et la langue pour mieux comprendre.

2025-09-11T14:30:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la qualité sonore dans les écouteurs

Des recherches montrent de nouveaux modèles pour améliorer la clarté de la voix dans les écouteurs intelligents.

2025-09-11T12:04:55+00:00 ― 6 min lire

Son Améliorer la reconnaissance des sons d'oiseaux avec des métadonnées

Utiliser des infos supplémentaires améliore notre capacité à identifier les chants d'oiseaux.

2025-09-11T11:16:20+00:00 ― 7 min lire

Son Améliorer la génération audio grâce à des techniques d'alignement de texte

Une nouvelle méthode améliore la génération audio en alignant l'audio avec des descriptions textuelles.

2025-09-11T07:13:25+00:00 ― 7 min lire

Calcul et langage Avancées dans la technologie de reconnaissance vocale

Des chercheurs bossent pour améliorer la reconnaissance vocale en ligne en utilisant des modèles d'état-structuré.

2025-09-11T04:47:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Détection de locuteur en temps réel pour les réunions modernes

Un nouveau système améliore les expériences de réunion en identifiant les intervenants en temps réel.

2025-09-11T03:10:30+00:00 ― 5 min lire

Traitement de l'audio et de la parole Améliorer les techniques de détection de discours truqués

De nouvelles méthodes améliorent notre capacité à détecter efficacement les discours falsifiés.

2025-09-11T02:21:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Anonymiser les données de discours : Une nouvelle méthode

Une méthode pour la conversion de voix qui améliore la confidentialité et la qualité de la parole.

2025-09-11T01:33:20+00:00 ― 9 min lire

Son Avancées dans les systèmes de détection des deepfakes audio

De nouvelles méthodes améliorent la capacité à distinguer le faux audio du vrai.

2025-09-10T22:19:00+00:00 ― 7 min lire

Son Nouvelle méthode pour détecter la parole synthétique

Une méthode améliore la détection des voix synthétiques et identifie leurs créateurs.

2025-09-10T20:41:50+00:00 ― 6 min lire

Son Avancées dans les petits modèles d'amélioration de la parole

De nouvelles méthodes améliorent les petits modèles pour un meilleur traitement de la parole en utilisant moins de ressources.

2025-09-10T19:53:15+00:00 ― 7 min lire

Son Améliorer la reconnaissance vocale avec des techniques de personnalisation

Une nouvelle méthode améliore les modèles ASR pour les utilisateurs individuels en utilisant la quantification et l'adaptation.

2025-09-10T13:24:35+00:00 ― 8 min lire

Son Améliorer l'entraînement des vocodeurs avec l'apprentissage contrastif

De nouvelles méthodes améliorent la performance des vocodeurs avec des données audio limitées.

2025-09-10T12:36:00+00:00 ― 7 min lire

Son Comprendre la Dysarthrie : Info sur les troubles de la parole

Un aperçu de la dysarthrie, sa détection et le rôle de la technologie.

2025-09-10T06:55:55+00:00 ― 7 min lire

Son Améliorer la reconnaissance vocale avec des prompts doux

Les prompts doux améliorent la technologie de reconnaissance vocale pour de meilleures performances dans des environnements bruyants.

2025-09-10T04:30:10+00:00 ― 6 min lire

Informatique - Son