SeACo-Paraformer apporte flexibilité et précision à la technologie de reconnaissance vocale.

2025-09-29T14:05:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Examiner la qualité de la voix et son impact

Cette étude examine les méthodes de classification de la qualité vocale et leur importance dans la communication.

2025-09-29T12:28:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de contrôle actif du bruit

Apprends comment de nouveaux algos améliorent les techniques de réduction du bruit pour plein d'applis différentes.

2025-09-29T05:59:45+00:00 ― 5 min lire

Traitement de l'audio et de la parole Nouvel outil qui mesure la qualité audio avec des infos vidéo

AudioVMAF combine des métriques vidéo pour une meilleure évaluation de la qualité audio.

2025-09-29T01:56:50+00:00 ― 7 min lire

Son Avancées dans la détection de faux audio avec RAWM

Une nouvelle méthode améliore la détection des faux audios grâce à la modification adaptative des poids.

2025-09-29T01:08:15+00:00 ― 7 min lire

Cryptographie et sécurité Le besoin grandissant de stéganalyse en sécurité de l'information

La stéganalyse aide à détecter des messages cachés dans les multimédias, garantissant une communication sécurisée.

2025-09-28T23:31:05+00:00 ― 5 min lire

Multimédia TranSTYLer : Un Bond dans la Communication Virtuelle

Transformer des gestes pour des agents virtuels tout en gardant leur sens.

2025-09-28T18:39:35+00:00 ― 7 min lire

Son Avancées dans la localisation des sources sonores avec des réseaux neuronaux

Explorer comment les réseaux de neurones améliorent la précision de la localisation des sources sonores.

2025-09-28T12:10:55+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale punjabi avec des méthodes d'auto-formation

Des chercheurs améliorent la reconnaissance vocale automatique pour le punjabi en utilisant des techniques d'auto-formation innovantes.

2025-09-28T08:56:35+00:00 ― 7 min lire

Son Avancées dans la reconnaissance vocale du locuteur cible

Un nouveau modèle améliore la reconnaissance vocale dans des environnements bruyants en se concentrant sur un seul locuteur.

2025-09-28T08:08:00+00:00 ― 5 min lire

Son Équilibrer la vie privée et la surveillance audio intelligente

De nouvelles méthodes visent à protéger la vie privée des discours dans les systèmes de surveillance audio.

2025-09-28T06:30:50+00:00 ― 7 min lire

Calcul et langage Avancer la synthèse vocale expressive avec un nouveau dataset

Un nouveau jeu de données améliore la synthèse vocale en capturant l'expression émotionnelle sans se baser sur le texte.

2025-09-27T18:22:05+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la classification de la hauteur musicale avec SDTW

Nouvelles stratégies pour améliorer la stabilité de l'entraînement pour la classification des hauteurs musicales.

2025-09-27T13:30:35+00:00 ― 8 min lire

Son Avancées dans la technologie de conversion vocale

Phoneme Hallucinator transforme la conversion vocale avec peu de données pour des sorties plus claires.

2025-09-27T10:16:15+00:00 ― 6 min lire

Son Faire avancer la génération de gestes pour les humains numériques

Une nouvelle méthode crée des gestes réalistes à partir d'audio de discours brut.

2025-09-27T08:39:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancer la reconnaissance vocale bilingue avec des unités de graphèmes

Améliorer les systèmes ASR hybrides pour la parole bilingue en utilisant des unités de graphèmes.

2025-09-27T03:47:35+00:00 ― 7 min lire

Calcul et langage Avancées dans l'apprentissage joint parole-texte

Un nouveau modèle améliore l'alignement de la parole et du texte pour une meilleure reconnaissance automatique.

2025-09-27T02:10:25+00:00 ― 7 min lire

Son Avancées dans la reconnaissance visuelle de la parole avec Lip2Vec

Lip2Vec améliore la reconnaissance visuelle de la parole avec moins de données étiquetées.

2025-09-27T01:21:50+00:00 ― 9 min lire

Calcul et langage Avancées dans la technologie de reconnaissance vocale

De nouvelles méthodes améliorent la précision et la rapidité des systèmes de reconnaissance vocale.

2025-09-26T11:35:55+00:00 ― 6 min lire

Apprentissage automatique O-1 : Une nouvelle frontière dans l’entraînement à la reconnaissance vocale

O-1 améliore la reconnaissance vocale en optimisant les méthodes d'auto-formation.

2025-09-26T09:10:10+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance automatique de la parole avec injection de texte

Une nouvelle méthode améliore la performance de la reconnaissance vocale grâce à l'intégration de données textuelles.

2025-09-26T07:33:00+00:00 ― 7 min lire

Calcul et langage Améliorer la reconnaissance vocale avec l'injection de texte

L'injection de texte aide à reconnaître les infos perso tout en gardant la vie privée.

2025-09-26T06:44:25+00:00 ― 7 min lire

Son Avancées dans la détection d'événements sonores grâce à l'apprentissage génératif

Découvrez comment de nouvelles techniques transforment la détection d'événements sonores pour différentes applications.

2025-09-26T05:55:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole L'importance du traitement audio non linéaire

Explorer des méthodes non linéaires en audio pour la production musicale et l'analyse de la parole.

2025-09-26T03:30:05+00:00 ― 8 min lire

Son Avancées dans l'extraction de la hauteur avec PitchNet

Une nouvelle méthode pour détecter précisément les tonalités en musique et en son.

2025-09-26T02:41:30+00:00 ― 7 min lire

Son Avancées dans la reconnaissance vocale avec la technologie mmWave

Radio2Text utilise des signaux mmWave pour la reconnaissance vocale en temps réel dans des environnements bruyants.

2025-09-25T22:38:35+00:00 ― 8 min lire

Traitement de l'audio et de la parole Évaluer un système de masquage sonore automatique dans les parcs urbains

Une étude examine l'efficacité des masques sonores automatisés dans les espaces publics.

2025-09-25T18:35:40+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance des locuteurs avec des réseaux de neurones graphiques

Les réseaux de neurones graphiques améliorent la précision de la reconnaissance vocale en analysant les relations entre les échantillons de voix.

2025-09-25T09:41:15+00:00 ― 7 min lire

Calcul et langage Avancées dans la reconnaissance des émotions par la parole dans différentes langues

Une étude qui évalue la reconnaissance des émotions dans des modèles de parole dans six langues.

2025-09-25T08:04:05+00:00 ― 6 min lire

Son AffectEcho : Relier les émotions dans la parole AI

Le modèle AffectEcho améliore l'expression émotionnelle dans la parole générée par l'IA.

2025-09-25T07:15:30+00:00 ― 7 min lire

Calcul et langage Améliorer la conversion graphème-phonème avec une nouvelle méthode d'échantillonnage

Cette étude améliore les modèles G2P en se concentrant sur les zones sujettes aux erreurs pendant l'entraînement.

2025-09-25T05:38:20+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les techniques de suivi de formants

Découvrez des méthodes qui améliorent la précision du suivi des formants pour l'analyse de la parole.

2025-09-24T22:21:05+00:00 ― 9 min lire

Traitement de l'audio et de la parole Utiliser l'analyse vocale pour évaluer la gravité de la maladie de Parkinson

Des chercheurs développent des méthodes basées sur la parole pour une évaluation plus précise de la maladie de Parkinson.

2025-09-24T21:32:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la détection sonore avec des techniques d'apprentissage meta

Meta-SELD améliore la localisation des événements sonores dans des environnements variés.

2025-09-24T19:55:20+00:00 ― 7 min lire

Apprentissage automatique Moments Audiovisuels dans le Temps : Un Nouveau Jeu de Données pour la Reconnaissance d'Actions

AVMIT offre aux chercheurs des idées sur la façon dont le son et la vision sont liés dans la reconnaissance d'actions.

2025-09-24T07:46:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la prédiction de la qualité audio avec GML

Un nouveau modèle d'IA améliore la prédiction des scores de qualité audio.

2025-09-24T03:43:40+00:00 ― 7 min lire

Son Génération de musique par IA : Une étude sur les techniques d'échantillonnage

Cette recherche examine comment les méthodes d'échantillonnage affectent la qualité de la musique générée par l'IA.

2025-09-24T02:55:05+00:00 ― 7 min lire

Son Avancées dans la technologie anti-fraude audio

Une nouvelle méthode améliore la détection des faux audios dans les systèmes de reconnaissance vocale.

2025-09-23T23:40:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans le suivi du rythme pour la musique classique

De nouvelles méthodes améliorent la précision du suivi du rythme dans la musique classique complexe.

2025-09-23T14:46:20+00:00 ― 8 min lire

Traitement de l'audio et de la parole Comprendre le rôle de la diarisation linguistique

Un aperçu de comment la diarisation linguistique aide dans les conversations multilingues.

2025-09-22T23:23:15+00:00 ― 5 min lire

Informatique - Son