TF-Mamba améliore la localisation sonore grâce à une nouvelle approche qui intègre des données temporelles et fréquentielles.

2025-06-16T19:54:20+00:00 ― 6 min lire

Traitement de l'audio et de la parole Entraînement efficace des modèles de voix avec des ressources limitées

Cet article parle des méthodes d'entraînement efficaces pour les modèles de parole en utilisant l'apprentissage auto-supervisé.

2025-06-16T15:02:50+00:00 ― 6 min lire

Son Avancées dans la détection d'événements sonores avec MTDA-HSED

Une nouvelle architecture améliore la détection des sons dans divers environnements.

2025-06-16T10:59:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Faire avancer la génération musicale avec MSLDM

Un nouveau modèle améliore la génération de musique en se concentrant sur des instruments individuels.

2025-06-16T10:11:20+00:00 ― 7 min lire

Son Extraction de la parole cible causale par embeddings dynamiques : une nouvelle approche

Voici DENSE, une méthode qui améliore l'extraction de la parole cible grâce à des embeddings dynamiques.

2025-06-16T08:34:10+00:00 ― 8 min lire

Son Nouvelle approche pour le transfert de timbre musical

Une nouvelle méthode améliore la transformation audio tout en préservant la mélodie et la qualité sonore.

2025-06-16T05:19:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour les noms rares

Cette méthode améliore la précision de reconnaissance des noms rares dans les sorties vocales.

2025-06-16T03:42:40+00:00 ― 7 min lire

Son Améliorer la détection des deepfakes audio

Un nouveau modèle améliore la détection des deepfakes audio avec un apprentissage continu.

2025-06-15T23:39:45+00:00 ― 7 min lire

Son Avancées dans la diarisation des intervenants audio-visuels

Un aperçu des méthodes de diarisation de locuteurs audio-visuels, des défis et des systèmes.

2025-06-15T21:14:00+00:00 ― 6 min lire

Son Réseaux de neurones dans la modélisation de la réverbération à ressort

Cette étude évalue des réseaux de neurones pour reproduire les caractéristiques de la réverbération à ressort.

2025-06-15T20:24:12+00:00 ― 10 min lire

Traitement de l'audio et de la parole BigCodec : Faire avancer le codage de la parole à faible débit

BigCodec améliore la qualité sonore dans les transmissions audio à faible débit.

2025-06-15T19:36:50+00:00 ― 6 min lire

Calcul et langage Améliorer les systèmes de parole pour les langues indiennes

Un nouveau jeu de données améliore la technologie de la parole multilingue en Inde.

2025-06-15T18:48:15+00:00 ― 7 min lire

Traitement de l'audio et de la parole Rendre les modèles de langage plus simples : réduire la complexité des transformateurs

Cet article parle des avantages de simplifier les modèles de transformateurs pour les tâches de parole.

2025-06-15T14:45:20+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale avec Sortformer

Sortformer intègre la diarisation des locuteurs et l'ASR pour un meilleur traitement audio.

2025-06-15T09:05:15+00:00 ― 6 min lire

Son Nouveau Méthode pour Synthétiser des Sons de Piano

Une nouvelle approche pour créer des sons de piano réalistes en utilisant la séparation des composants sonores.

2025-06-15T07:28:05+00:00 ― 10 min lire

Son Avancées dans la technologie de synthèse vocale émotionnelle

ParaEVITS améliore l'expression émotionnelle dans la synthèse vocale grâce à un guidage en langage naturel.

2025-06-15T05:50:55+00:00 ― 6 min lire

Traitement de l'audio et de la parole Restaurer l'audio : L'art et la science de l'inpainting

Apprends comment le remplissage audio restaure les parties manquantes des signaux.

2025-06-15T05:02:20+00:00 ― 6 min lire

Calcul et langage Avancées dans la classification des langues parlées

De nouvelles méthodes améliorent la compréhension de la langue parlée grâce à un dataset innovant.

2025-06-15T04:13:45+00:00 ― 6 min lire

Son Améliorer la vérification des locuteurs avec des caractéristiques phonétiques

Un nouveau cadre améliore la précision de la confirmation de l'identité vocale.

2025-06-15T01:50:18+00:00 ― 7 min lire

Robotique Avancées dans la technologie de reconnaissance vocale des robots

De nouvelles méthodes améliorent la conversation humain-robot en rendant la parole plus claire.

2025-06-15T01:48:00+00:00 ― 6 min lire

Calcul et langage Avancées dans la segmentation des sujets des nouvelles parlées

De nouvelles méthodes améliorent l'accès aux nouvelles parlées en segmentant les sujets plus efficacement.

2025-06-15T00:59:25+00:00 ― 8 min lire

Calcul et langage Évaluer les compétences de raisonnement musical des LLMs

Une étude sur les capacités des LLM à comprendre les intervalles musicaux, les accords et les gammes.

2025-06-14T21:37:30+00:00 ― 12 min lire

Traitement de l'audio et de la parole Améliorer le taggage de musique avec l'apprentissage par quelques exemples

Une nouvelle méthode pour le tagging de musique utilisant l'apprentissage par quelques exemples montre des résultats prometteurs.

2025-06-14T20:56:30+00:00 ― 8 min lire

Son FlowSep : Une nouvelle approche pour la séparation des sources audio

FlowSep présente une nouvelle méthode pour extraire des sons avec des requêtes linguistiques.

2025-06-14T18:30:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Progrès dans la génération de discours à partir de texte

SSR-Speech propose de nouvelles solutions pour la génération et l'édition de la parole.

2025-06-14T16:05:00+00:00 ― 6 min lire

Cryptographie et sécurité L'essor des faux audios et des systèmes de détection

Les avancées en IA rendent l'audio truqué courant, d'où le besoin de détection.

2025-06-14T13:39:15+00:00 ― 8 min lire

Son Faire avancer la synthèse vocale pour la diversité des dialectes

Nouveau modèle améliore la génération de la parole dans différents dialectes des langues à accent tonique.

2025-06-14T10:24:55+00:00 ― 6 min lire

Son Avancées dans la localisation des sources sonores avec l'apprentissage incrémental

Une nouvelle méthode améliore la précision de la localisation sonore tout en garantissant la confidentialité des données.

2025-06-14T07:59:10+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans l'extraction du son cible avec SoloAudio

SoloAudio améliore l'extraction sonore avec des techniques avancées et des données synthétiques.

2025-06-13T17:24:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole OpenACE : Un Nouveau Standard pour l’Évaluation des Codecs Audio

OpenACE fournit une référence équitable pour évaluer les codecs audio dans différentes conditions.

2025-06-13T14:58:55+00:00 ― 6 min lire

Traitement de l'audio et de la parole Détection des pannes dans les moteurs électriques grâce au son

Une méthode pour identifier les pannes dans les moteurs électriques grâce à l'analyse sonore et aux réseaux de neurones bayésiens.

2025-06-13T13:21:45+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale et la prédiction multi-token

Les modèles de reconnaissance vocale évoluent avec la prédiction multi-token pour des réponses plus rapides.

2025-06-13T10:07:25+00:00 ― 6 min lire

Calcul et langage Avancer la reconnaissance vocale pour la langue faetar

Efforts pour améliorer la technologie de la parole pour la langue Faetar, qui est sous-resources.

2025-06-13T09:18:50+00:00 ― 6 min lire

Son Avancées dans la technologie de conversion de voix chantée

Une nouvelle méthode sans entraînement améliore la précision de la conversion vocale et réduit les fuites sonores.

2025-06-13T06:04:30+00:00 ― 7 min lire

Calcul et langage L'influence du contexte tonal dans les conversations en mandarin

Une étude révèle comment les tons changent dans le discours quotidien du mandarin taïwanais.

2025-06-13T03:38:45+00:00 ― 6 min lire

Son Méthode innovante pour extraire le locuteur cible révélée

Une nouvelle approche améliore l'isolement vocal dans des environnements audio mixtes en utilisant des jetons discrets.

2025-06-13T00:24:25+00:00 ― 7 min lire

Son Connecter l'art et la musique à travers les émotions

La recherche associe des peintures à de la musique en interprétant les émotions.

2025-06-12T23:35:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la détection de la parole avec des méthodes MCCA

Une nouvelle méthode améliore la détection automatique des problèmes de parole liés à la maladie de Parkinson.

2025-06-12T19:32:55+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance vocale en classe avec un préentraînement continu

Une nouvelle méthode améliore les systèmes ASR pour une meilleure communication en classe.

2025-06-12T18:44:20+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la reconnaissance vocale avec plusieurs types d'entrée

Cet article examine comment des entrées variées peuvent améliorer la précision de la reconnaissance vocale.

2025-06-12T15:30:00+00:00 ― 6 min lire

Informatique - Son