Les chercheurs améliorent l'entraînement à la prononciation avec de nouvelles technologies pour les apprenants de langues.

2025-10-02T07:40:50+00:00 ― 7 min lire

Son Avancées dans la technologie de transfert de style vocal

HierVST transforme les voix sans effort, améliorant la qualité audio sans avoir besoin de données massives.

2025-10-02T05:15:05+00:00 ― 6 min lire

Multimédia Avancées dans l'estimation de l'engagement pour les conversations

La recherche développe un modèle pour mesurer avec précision l'engagement dans les conversations.

2025-10-01T21:57:50+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes DAVIS : Une nouvelle approche pour la séparation des sons

DAVIS propose une nouvelle façon de gérer la séparation des sons audio et visuels.

2025-10-01T19:32:05+00:00 ― 7 min lire

Son Améliorer les techniques de segmentation audio-visuelle

Une nouvelle méthode améliore l'identification précise des objets qui produisent des sons dans les vidéos.

2025-10-01T13:52:00+00:00 ― 8 min lire

Son Avancées dans la synthèse vocale avec DiffProsody

DiffProsody améliore la vitesse et la qualité de la synthèse vocale grâce à une génération de prosodie innovante.

2025-10-01T13:03:25+00:00 ― 6 min lire

Son S'attaquer à la guerre du volume avec des réseaux de délimitation

Une nouvelle technologie vise à restaurer la qualité musicale perdue à cause de la compression de volume.

2025-10-01T02:31:50+00:00 ― 6 min lire

Son Système automatisé pour identifier l'aphasie

Une nouvelle méthode promet une identification plus rapide des troubles de la parole comme l'aphasie.

2025-09-30T21:40:20+00:00 ― 6 min lire

Cryptographie et sécurité Techniques de son inaudible pour manipuler la parole

Une nouvelle méthode utilise des sons ultrasoniques pour embrouiller les systèmes de reconnaissance vocale sans être détectée.

2025-09-30T19:14:35+00:00 ― 7 min lire

Calcul et langage Avancées dans la technologie de synthèse vocale

De nouvelles méthodes améliorent la qualité de la parole synthétisée grâce à l'apprentissage auto-supervisé.

2025-09-30T17:37:25+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance vocale avec le renforcement de mots-clés

Une nouvelle méthode améliore la transcription de mots-clés rares dans les conversations professionnelles.

2025-09-30T10:20:10+00:00 ― 8 min lire

Son Faire avancer la reconnaissance vocale avec l'apprentissage fédéré

L'apprentissage fédéré améliore la reconnaissance vocale tout en gardant les données des utilisateurs privées.

2025-09-30T08:43:00+00:00 ― 7 min lire

Son MusicLDM : Une nouvelle approche pour la génération de musique à partir de texte

MusicLDM transforme du texte en musique originale, offrant de nouvelles pistes de créativité.

2025-09-30T05:28:40+00:00 ― 9 min lire

Son Amélioration des techniques d'extraction de mélodie chantée avec le deep learning

De nouvelles méthodes améliorent la précision pour extraire des mélodies chantées à partir d'audio mixte.

2025-09-30T01:25:45+00:00 ― 9 min lire

Calcul et langage Avancées dans la technologie de sous-titrage audio

De nouvelles méthodes visent à améliorer le sous-titrage audio pour plus de précision et d'efficacité.

2025-09-30T00:25:00+00:00 ― 6 min lire

Son Avancées dans les techniques d'amélioration de la parole

Nouveau modèle améliore la clarté de la voix dans des environnements bruyants en utilisant des méthodes innovantes.

2025-09-29T22:11:25+00:00 ― 7 min lire

Son Analyser les chansons folkloriques coréennes grâce à la technologie

Une étude sur les chansons folkloriques coréennes en utilisant des méthodes d'analyse modernes.

2025-09-29T21:22:50+00:00 ― 10 min lire

Graphisme DiffDance : Une nouvelle ère dans la génération de danse

DiffDance crée des séquences de danse détaillées qui s'accordent super bien avec la musique.

2025-09-29T16:31:20+00:00 ― 7 min lire

Son S'attaquer au biais de genre dans la transcription des voix chantées

Examiner l'équité dans la technologie de transcription de voix chantée selon les genres.

2025-09-29T15:42:45+00:00 ― 10 min lire

Son Avancées dans la personnalisation des mots-clés pour les systèmes de reconnaissance vocale

SeACo-Paraformer apporte flexibilité et précision à la technologie de reconnaissance vocale.

2025-09-29T14:05:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Examiner la qualité de la voix et son impact

Cette étude examine les méthodes de classification de la qualité vocale et leur importance dans la communication.

2025-09-29T12:28:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de contrôle actif du bruit

Apprends comment de nouveaux algos améliorent les techniques de réduction du bruit pour plein d'applis différentes.

2025-09-29T05:59:45+00:00 ― 5 min lire

Traitement de l'audio et de la parole Nouvel outil qui mesure la qualité audio avec des infos vidéo

AudioVMAF combine des métriques vidéo pour une meilleure évaluation de la qualité audio.

2025-09-29T01:56:50+00:00 ― 7 min lire

Son Avancées dans la détection de faux audio avec RAWM

Une nouvelle méthode améliore la détection des faux audios grâce à la modification adaptative des poids.

2025-09-29T01:08:15+00:00 ― 7 min lire

Cryptographie et sécurité Le besoin grandissant de stéganalyse en sécurité de l'information

La stéganalyse aide à détecter des messages cachés dans les multimédias, garantissant une communication sécurisée.

2025-09-28T23:31:05+00:00 ― 5 min lire

Multimédia TranSTYLer : Un Bond dans la Communication Virtuelle

Transformer des gestes pour des agents virtuels tout en gardant leur sens.

2025-09-28T18:39:35+00:00 ― 7 min lire

Son Avancées dans la localisation des sources sonores avec des réseaux neuronaux

Explorer comment les réseaux de neurones améliorent la précision de la localisation des sources sonores.

2025-09-28T12:10:55+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale punjabi avec des méthodes d'auto-formation

Des chercheurs améliorent la reconnaissance vocale automatique pour le punjabi en utilisant des techniques d'auto-formation innovantes.

2025-09-28T08:56:35+00:00 ― 7 min lire

Son Avancées dans la reconnaissance vocale du locuteur cible

Un nouveau modèle améliore la reconnaissance vocale dans des environnements bruyants en se concentrant sur un seul locuteur.

2025-09-28T08:08:00+00:00 ― 5 min lire

Son Équilibrer la vie privée et la surveillance audio intelligente

De nouvelles méthodes visent à protéger la vie privée des discours dans les systèmes de surveillance audio.

2025-09-28T06:30:50+00:00 ― 7 min lire

Calcul et langage Avancer la synthèse vocale expressive avec un nouveau dataset

Un nouveau jeu de données améliore la synthèse vocale en capturant l'expression émotionnelle sans se baser sur le texte.

2025-09-27T18:22:05+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la classification de la hauteur musicale avec SDTW

Nouvelles stratégies pour améliorer la stabilité de l'entraînement pour la classification des hauteurs musicales.

2025-09-27T13:30:35+00:00 ― 8 min lire

Son Avancées dans la technologie de conversion vocale

Phoneme Hallucinator transforme la conversion vocale avec peu de données pour des sorties plus claires.

2025-09-27T10:16:15+00:00 ― 6 min lire

Son Faire avancer la génération de gestes pour les humains numériques

Une nouvelle méthode crée des gestes réalistes à partir d'audio de discours brut.

2025-09-27T08:39:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancer la reconnaissance vocale bilingue avec des unités de graphèmes

Améliorer les systèmes ASR hybrides pour la parole bilingue en utilisant des unités de graphèmes.

2025-09-27T03:47:35+00:00 ― 7 min lire

Calcul et langage Avancées dans l'apprentissage joint parole-texte

Un nouveau modèle améliore l'alignement de la parole et du texte pour une meilleure reconnaissance automatique.

2025-09-27T02:10:25+00:00 ― 7 min lire

Son Avancées dans la reconnaissance visuelle de la parole avec Lip2Vec

Lip2Vec améliore la reconnaissance visuelle de la parole avec moins de données étiquetées.

2025-09-27T01:21:50+00:00 ― 9 min lire

Calcul et langage Avancées dans la technologie de reconnaissance vocale

De nouvelles méthodes améliorent la précision et la rapidité des systèmes de reconnaissance vocale.

2025-09-26T11:35:55+00:00 ― 6 min lire

Apprentissage automatique O-1 : Une nouvelle frontière dans l’entraînement à la reconnaissance vocale

O-1 améliore la reconnaissance vocale en optimisant les méthodes d'auto-formation.

2025-09-26T09:10:10+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance automatique de la parole avec injection de texte

Une nouvelle méthode améliore la performance de la reconnaissance vocale grâce à l'intégration de données textuelles.

2025-09-26T07:33:00+00:00 ― 7 min lire

Informatique - Son