De nouvelles méthodes améliorent la qualité de la parole synthétisée grâce à l'apprentissage auto-supervisé.

2025-09-30T17:37:25+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance vocale avec le renforcement de mots-clés

Une nouvelle méthode améliore la transcription de mots-clés rares dans les conversations professionnelles.

2025-09-30T10:20:10+00:00 ― 8 min lire

Son Faire avancer la reconnaissance vocale avec l'apprentissage fédéré

L'apprentissage fédéré améliore la reconnaissance vocale tout en gardant les données des utilisateurs privées.

2025-09-30T08:43:00+00:00 ― 7 min lire

Son MusicLDM : Une nouvelle approche pour la génération de musique à partir de texte

MusicLDM transforme du texte en musique originale, offrant de nouvelles pistes de créativité.

2025-09-30T05:28:40+00:00 ― 9 min lire

Son Amélioration des techniques d'extraction de mélodie chantée avec le deep learning

De nouvelles méthodes améliorent la précision pour extraire des mélodies chantées à partir d'audio mixte.

2025-09-30T01:25:45+00:00 ― 9 min lire

Calcul et langage Avancées dans la technologie de sous-titrage audio

De nouvelles méthodes visent à améliorer le sous-titrage audio pour plus de précision et d'efficacité.

2025-09-30T00:25:00+00:00 ― 6 min lire

Son Avancées dans les techniques d'amélioration de la parole

Nouveau modèle améliore la clarté de la voix dans des environnements bruyants en utilisant des méthodes innovantes.

2025-09-29T22:11:25+00:00 ― 7 min lire

Son Analyser les chansons folkloriques coréennes grâce à la technologie

Une étude sur les chansons folkloriques coréennes en utilisant des méthodes d'analyse modernes.

2025-09-29T21:22:50+00:00 ― 10 min lire

Graphisme DiffDance : Une nouvelle ère dans la génération de danse

DiffDance crée des séquences de danse détaillées qui s'accordent super bien avec la musique.

2025-09-29T16:31:20+00:00 ― 7 min lire

Son S'attaquer au biais de genre dans la transcription des voix chantées

Examiner l'équité dans la technologie de transcription de voix chantée selon les genres.

2025-09-29T15:42:45+00:00 ― 10 min lire

Son Avancées dans la personnalisation des mots-clés pour les systèmes de reconnaissance vocale

SeACo-Paraformer apporte flexibilité et précision à la technologie de reconnaissance vocale.

2025-09-29T14:05:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Examiner la qualité de la voix et son impact

Cette étude examine les méthodes de classification de la qualité vocale et leur importance dans la communication.

2025-09-29T12:28:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de contrôle actif du bruit

Apprends comment de nouveaux algos améliorent les techniques de réduction du bruit pour plein d'applis différentes.

2025-09-29T05:59:45+00:00 ― 5 min lire

Traitement de l'audio et de la parole Nouvel outil qui mesure la qualité audio avec des infos vidéo

AudioVMAF combine des métriques vidéo pour une meilleure évaluation de la qualité audio.

2025-09-29T01:56:50+00:00 ― 7 min lire

Son Avancées dans la détection de faux audio avec RAWM

Une nouvelle méthode améliore la détection des faux audios grâce à la modification adaptative des poids.

2025-09-29T01:08:15+00:00 ― 7 min lire

Cryptographie et sécurité Le besoin grandissant de stéganalyse en sécurité de l'information

La stéganalyse aide à détecter des messages cachés dans les multimédias, garantissant une communication sécurisée.

2025-09-28T23:31:05+00:00 ― 5 min lire

Multimédia TranSTYLer : Un Bond dans la Communication Virtuelle

Transformer des gestes pour des agents virtuels tout en gardant leur sens.

2025-09-28T18:39:35+00:00 ― 7 min lire

Son Avancées dans la localisation des sources sonores avec des réseaux neuronaux

Explorer comment les réseaux de neurones améliorent la précision de la localisation des sources sonores.

2025-09-28T12:10:55+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale punjabi avec des méthodes d'auto-formation

Des chercheurs améliorent la reconnaissance vocale automatique pour le punjabi en utilisant des techniques d'auto-formation innovantes.

2025-09-28T08:56:35+00:00 ― 7 min lire

Son Avancées dans la reconnaissance vocale du locuteur cible

Un nouveau modèle améliore la reconnaissance vocale dans des environnements bruyants en se concentrant sur un seul locuteur.

2025-09-28T08:08:00+00:00 ― 5 min lire

Son Équilibrer la vie privée et la surveillance audio intelligente

De nouvelles méthodes visent à protéger la vie privée des discours dans les systèmes de surveillance audio.

2025-09-28T06:30:50+00:00 ― 7 min lire

Calcul et langage Avancer la synthèse vocale expressive avec un nouveau dataset

Un nouveau jeu de données améliore la synthèse vocale en capturant l'expression émotionnelle sans se baser sur le texte.

2025-09-27T18:22:05+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la classification de la hauteur musicale avec SDTW

Nouvelles stratégies pour améliorer la stabilité de l'entraînement pour la classification des hauteurs musicales.

2025-09-27T13:30:35+00:00 ― 8 min lire

Son Avancées dans la technologie de conversion vocale

Phoneme Hallucinator transforme la conversion vocale avec peu de données pour des sorties plus claires.

2025-09-27T10:16:15+00:00 ― 6 min lire

Son Faire avancer la génération de gestes pour les humains numériques

Une nouvelle méthode crée des gestes réalistes à partir d'audio de discours brut.

2025-09-27T08:39:05+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancer la reconnaissance vocale bilingue avec des unités de graphèmes

Améliorer les systèmes ASR hybrides pour la parole bilingue en utilisant des unités de graphèmes.

2025-09-27T03:47:35+00:00 ― 7 min lire

Calcul et langage Avancées dans l'apprentissage joint parole-texte

Un nouveau modèle améliore l'alignement de la parole et du texte pour une meilleure reconnaissance automatique.

2025-09-27T02:10:25+00:00 ― 7 min lire

Son Avancées dans la reconnaissance visuelle de la parole avec Lip2Vec

Lip2Vec améliore la reconnaissance visuelle de la parole avec moins de données étiquetées.

2025-09-27T01:21:50+00:00 ― 9 min lire

Calcul et langage Avancées dans la technologie de reconnaissance vocale

De nouvelles méthodes améliorent la précision et la rapidité des systèmes de reconnaissance vocale.

2025-09-26T11:35:55+00:00 ― 6 min lire

Apprentissage automatique O-1 : Une nouvelle frontière dans l’entraînement à la reconnaissance vocale

O-1 améliore la reconnaissance vocale en optimisant les méthodes d'auto-formation.

2025-09-26T09:10:10+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance automatique de la parole avec injection de texte

Une nouvelle méthode améliore la performance de la reconnaissance vocale grâce à l'intégration de données textuelles.

2025-09-26T07:33:00+00:00 ― 7 min lire

Calcul et langage Améliorer la reconnaissance vocale avec l'injection de texte

L'injection de texte aide à reconnaître les infos perso tout en gardant la vie privée.

2025-09-26T06:44:25+00:00 ― 7 min lire

Son Avancées dans la détection d'événements sonores grâce à l'apprentissage génératif

Découvrez comment de nouvelles techniques transforment la détection d'événements sonores pour différentes applications.

2025-09-26T05:55:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole L'importance du traitement audio non linéaire

Explorer des méthodes non linéaires en audio pour la production musicale et l'analyse de la parole.

2025-09-26T03:30:05+00:00 ― 8 min lire

Son Avancées dans l'extraction de la hauteur avec PitchNet

Une nouvelle méthode pour détecter précisément les tonalités en musique et en son.

2025-09-26T02:41:30+00:00 ― 7 min lire

Son Avancées dans la reconnaissance vocale avec la technologie mmWave

Radio2Text utilise des signaux mmWave pour la reconnaissance vocale en temps réel dans des environnements bruyants.

2025-09-25T22:38:35+00:00 ― 8 min lire

Traitement de l'audio et de la parole Évaluer un système de masquage sonore automatique dans les parcs urbains

Une étude examine l'efficacité des masques sonores automatisés dans les espaces publics.

2025-09-25T18:35:40+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance des locuteurs avec des réseaux de neurones graphiques

Les réseaux de neurones graphiques améliorent la précision de la reconnaissance vocale en analysant les relations entre les échantillons de voix.

2025-09-25T09:41:15+00:00 ― 7 min lire

Calcul et langage Avancées dans la reconnaissance des émotions par la parole dans différentes langues

Une étude qui évalue la reconnaissance des émotions dans des modèles de parole dans six langues.

2025-09-25T08:04:05+00:00 ― 6 min lire

Son AffectEcho : Relier les émotions dans la parole AI

Le modèle AffectEcho améliore l'expression émotionnelle dans la parole générée par l'IA.

2025-09-25T07:15:30+00:00 ― 7 min lire

Informatique - Son