Un aperçu des méthodes de diarisation de locuteurs audio-visuels, des défis et des systèmes.

2025-06-15T21:14:00+00:00 ― 6 min lire

Son Réseaux de neurones dans la modélisation de la réverbération à ressort

Cette étude évalue des réseaux de neurones pour reproduire les caractéristiques de la réverbération à ressort.

2025-06-15T20:24:12+00:00 ― 10 min lire

Traitement de l'audio et de la parole BigCodec : Faire avancer le codage de la parole à faible débit

BigCodec améliore la qualité sonore dans les transmissions audio à faible débit.

2025-06-15T19:36:50+00:00 ― 6 min lire

Calcul et langage Améliorer les systèmes de parole pour les langues indiennes

Un nouveau jeu de données améliore la technologie de la parole multilingue en Inde.

2025-06-15T18:48:15+00:00 ― 7 min lire

Traitement de l'audio et de la parole Rendre les modèles de langage plus simples : réduire la complexité des transformateurs

Cet article parle des avantages de simplifier les modèles de transformateurs pour les tâches de parole.

2025-06-15T14:45:20+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale avec Sortformer

Sortformer intègre la diarisation des locuteurs et l'ASR pour un meilleur traitement audio.

2025-06-15T09:05:15+00:00 ― 6 min lire

Son Nouveau Méthode pour Synthétiser des Sons de Piano

Une nouvelle approche pour créer des sons de piano réalistes en utilisant la séparation des composants sonores.

2025-06-15T07:28:05+00:00 ― 10 min lire

Son Avancées dans la technologie de synthèse vocale émotionnelle

ParaEVITS améliore l'expression émotionnelle dans la synthèse vocale grâce à un guidage en langage naturel.

2025-06-15T05:50:55+00:00 ― 6 min lire

Traitement de l'audio et de la parole Restaurer l'audio : L'art et la science de l'inpainting

Apprends comment le remplissage audio restaure les parties manquantes des signaux.

2025-06-15T05:02:20+00:00 ― 6 min lire

Calcul et langage Avancées dans la classification des langues parlées

De nouvelles méthodes améliorent la compréhension de la langue parlée grâce à un dataset innovant.

2025-06-15T04:13:45+00:00 ― 6 min lire

Son Améliorer la vérification des locuteurs avec des caractéristiques phonétiques

Un nouveau cadre améliore la précision de la confirmation de l'identité vocale.

2025-06-15T01:50:18+00:00 ― 7 min lire

Robotique Avancées dans la technologie de reconnaissance vocale des robots

De nouvelles méthodes améliorent la conversation humain-robot en rendant la parole plus claire.

2025-06-15T01:48:00+00:00 ― 6 min lire

Calcul et langage Avancées dans la segmentation des sujets des nouvelles parlées

De nouvelles méthodes améliorent l'accès aux nouvelles parlées en segmentant les sujets plus efficacement.

2025-06-15T00:59:25+00:00 ― 8 min lire

Calcul et langage Évaluer les compétences de raisonnement musical des LLMs

Une étude sur les capacités des LLM à comprendre les intervalles musicaux, les accords et les gammes.

2025-06-14T21:37:30+00:00 ― 12 min lire

Traitement de l'audio et de la parole Améliorer le taggage de musique avec l'apprentissage par quelques exemples

Une nouvelle méthode pour le tagging de musique utilisant l'apprentissage par quelques exemples montre des résultats prometteurs.

2025-06-14T20:56:30+00:00 ― 8 min lire

Son FlowSep : Une nouvelle approche pour la séparation des sources audio

FlowSep présente une nouvelle méthode pour extraire des sons avec des requêtes linguistiques.

2025-06-14T18:30:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Progrès dans la génération de discours à partir de texte

SSR-Speech propose de nouvelles solutions pour la génération et l'édition de la parole.

2025-06-14T16:05:00+00:00 ― 6 min lire

Cryptographie et sécurité L'essor des faux audios et des systèmes de détection

Les avancées en IA rendent l'audio truqué courant, d'où le besoin de détection.

2025-06-14T13:39:15+00:00 ― 8 min lire

Son Faire avancer la synthèse vocale pour la diversité des dialectes

Nouveau modèle améliore la génération de la parole dans différents dialectes des langues à accent tonique.

2025-06-14T10:24:55+00:00 ― 6 min lire

Son Avancées dans la localisation des sources sonores avec l'apprentissage incrémental

Une nouvelle méthode améliore la précision de la localisation sonore tout en garantissant la confidentialité des données.

2025-06-14T07:59:10+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans l'extraction du son cible avec SoloAudio

SoloAudio améliore l'extraction sonore avec des techniques avancées et des données synthétiques.

2025-06-13T17:24:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole OpenACE : Un Nouveau Standard pour l’Évaluation des Codecs Audio

OpenACE fournit une référence équitable pour évaluer les codecs audio dans différentes conditions.

2025-06-13T14:58:55+00:00 ― 6 min lire

Traitement de l'audio et de la parole Détection des pannes dans les moteurs électriques grâce au son

Une méthode pour identifier les pannes dans les moteurs électriques grâce à l'analyse sonore et aux réseaux de neurones bayésiens.

2025-06-13T13:21:45+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale et la prédiction multi-token

Les modèles de reconnaissance vocale évoluent avec la prédiction multi-token pour des réponses plus rapides.

2025-06-13T10:07:25+00:00 ― 6 min lire

Calcul et langage Avancer la reconnaissance vocale pour la langue faetar

Efforts pour améliorer la technologie de la parole pour la langue Faetar, qui est sous-resources.

2025-06-13T09:18:50+00:00 ― 6 min lire

Son Avancées dans la technologie de conversion de voix chantée

Une nouvelle méthode sans entraînement améliore la précision de la conversion vocale et réduit les fuites sonores.

2025-06-13T06:04:30+00:00 ― 7 min lire

Calcul et langage L'influence du contexte tonal dans les conversations en mandarin

Une étude révèle comment les tons changent dans le discours quotidien du mandarin taïwanais.

2025-06-13T03:38:45+00:00 ― 6 min lire

Son Méthode innovante pour extraire le locuteur cible révélée

Une nouvelle approche améliore l'isolement vocal dans des environnements audio mixtes en utilisant des jetons discrets.

2025-06-13T00:24:25+00:00 ― 7 min lire

Son Connecter l'art et la musique à travers les émotions

La recherche associe des peintures à de la musique en interprétant les émotions.

2025-06-12T23:35:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la détection de la parole avec des méthodes MCCA

Une nouvelle méthode améliore la détection automatique des problèmes de parole liés à la maladie de Parkinson.

2025-06-12T19:32:55+00:00 ― 6 min lire

Calcul et langage Améliorer la reconnaissance vocale en classe avec un préentraînement continu

Une nouvelle méthode améliore les systèmes ASR pour une meilleure communication en classe.

2025-06-12T18:44:20+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la reconnaissance vocale avec plusieurs types d'entrée

Cet article examine comment des entrées variées peuvent améliorer la précision de la reconnaissance vocale.

2025-06-12T15:30:00+00:00 ― 6 min lire

Son Seed-Music : Simplifier la création musicale pour tout le monde

Un système qui rend la création musicale facile et accessible pour tous les niveaux de compétence.

2025-06-12T13:52:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la classification audio sans apprentissage préalable

ReCLAP améliore la classification audio avec des indications détaillées pour plus de précision.

2025-06-12T13:04:15+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour les personnes avec des troubles

Un projet vise à améliorer la technologie de la parole pour ceux qui ont des difficultés de communication.

2025-06-12T12:15:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole MambaFoley : Une nouvelle approche de la création audio

MambaFoley révolutionne la synthèse sonore Foley avec un timing et un réalisme améliorés.

2025-06-12T09:49:55+00:00 ― 7 min lire

Son Améliorer les accents dans la technologie de synthèse vocale

Un nouveau système améliore la précision des accents dans la synthèse vocale pour une meilleure communication.

2025-06-12T08:12:45+00:00 ― 7 min lire

Son Améliorer les recommandations musicales avec des embeddings avancés

L'utilisation des embeddings CLAP améliore considérablement les systèmes de recommandation musicale.

2025-06-12T07:24:10+00:00 ― 9 min lire

Calcul et langage Avancées dans la reconnaissance vocale pour les langues en danger

Une étude explore le développement de l'ASR pour l'Amis et le Seediq, en se concentrant sur l'utilisation des données.

2025-06-12T03:21:15+00:00 ― 9 min lire

Son Méthodes innovantes pour identifier les animaux par leur son

Des chercheurs développent de nouvelles stratégies pour distinguer les animaux individuels grâce à leurs sons uniques.

2025-06-12T00:06:55+00:00 ― 7 min lire

Informatique - Son