La recherche combine l'apprentissage auto-supervisé et de nouvelles techniques de mesure pour améliorer l'inversion de la parole.

2025-09-10T01:15:50+00:00 ― 7 min lire

Son Améliorer la clarté de la parole électrolaryngée

Des chercheurs ont développé un nouveau cadre pour améliorer la clarté de la parole pour les utilisateurs d'électrolarynges.

2025-09-09T22:50:05+00:00 ― 6 min lire

Cryptographie et sécurité Améliorer la détection des deepfakes grâce à des méthodes d'entraînement variées

Cette étude explore des stratégies de formation pour améliorer la détection des faux audio.

2025-09-09T22:01:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale grâce aux modèles à sortie anticipée

De nouveaux modèles s'adaptent pour améliorer l'efficacité et la réactivité de la reconnaissance vocale.

2025-09-09T21:12:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Présentation de RECAP : Une nouvelle frontière dans le sous-titrage audio

RECAP utilise des techniques avancées pour générer des sous-titres audio précis sans besoin de réentraînement.

2025-09-09T20:24:20+00:00 ― 6 min lire

Son Fondamentaux de la théorie musicale et de l'harmonie

Un guide pratique pour comprendre la théorie de la musique à travers l'harmonie et les gammes.

2025-09-09T16:21:25+00:00 ― 9 min lire

Traitement de l'audio et de la parole Améliorer les systèmes ASR avec des données synthétiques

Une nouvelle méthode utilise des données synthétiques pour améliorer les systèmes ASR dans des domaines inconnus.

2025-09-09T15:32:50+00:00 ― 8 min lire

Son Estimation de la densité de la foule avec le son tout en protégeant la vie privée

Une nouvelle méthode basée sur l'audio estime la taille des foules sans empiéter sur la vie privée.

2025-09-09T13:55:40+00:00 ― 6 min lire

Calcul et langage Avancer la Reconnaissance Vocale : Systèmes Suivant des Instructions

Une nouvelle approche de la reconnaissance vocale améliore l'interaction utilisateur avec des instructions flexibles.

2025-09-09T08:15:35+00:00 ― 6 min lire

Son Une nouvelle méthode pour détecter le spoofing vocal

Une approche solide pour identifier les anomalies audio et lutter contre le spoofing vocal.

2025-09-09T07:27:00+00:00 ― 6 min lire

Calcul et langage Avancées dans la reconnaissance des émotions dans les conversations

Un nouveau modèle améliore la compréhension des émotions pendant les conversations.

2025-09-09T06:38:25+00:00 ― 7 min lire

Calcul et langage Les symboles de la parole générée par ordinateur suivent-ils la loi de Zipf ?

Cette étude examine si les symboles de la parole appris imitent les modèles de fréquence des mots.

2025-09-09T04:12:40+00:00 ― 7 min lire

Son DiCon : Une nouvelle approche de la synthèse vocale

Présentation d'une méthode plus rapide pour la synthèse vocale de haute qualité utilisant des modèles de diffusion.

2025-09-09T03:24:05+00:00 ― 8 min lire

Traitement de l'audio et de la parole HiFTNet : Faire avancer la technologie de synthèse vocale

HiFTNet propose une synthèse vocale rapide et de haute qualité en utilisant des techniques innovantes et efficaces.

2025-09-09T02:35:30+00:00 ― 6 min lire

Son Avancées dans la technologie de conversion vocale grâce aux images de visage

Une nouvelle méthode transforme les voix en utilisant les traits du visage pour diverses applications.

2025-09-09T01:46:55+00:00 ― 11 min lire

Traitement de l'audio et de la parole Présentation d'AV-SUPERB : Une nouvelle référence pour les modèles audio-visuels

AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.

2025-09-08T22:32:35+00:00 ― 7 min lire

Son Améliorer la diarisation des locuteurs avec des infos sémantiques

Une nouvelle approche améliore la diarisation des intervenants en intégrant des données sémantiques dans le processus.

2025-09-08T20:06:50+00:00 ― 6 min lire

Son Génération de texte en audio plus rapide grâce à la distillation de consistance

Une nouvelle méthode améliore la vitesse et l'efficacité de la génération de texte en audio.

2025-09-08T18:29:40+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance des émotions dans la parole : une approche multilingue

Des recherches montrent une meilleure précision dans la reconnaissance des émotions dans la parole à travers les langues.

2025-09-08T16:03:55+00:00 ― 6 min lire

Son Améliorer la reconnaissance vocale avec l'entraînement au moment du test

Explore comment TTT améliore la reconnaissance vocale en s'adaptant aux changements de distribution.

2025-09-08T14:26:45+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Amélioration des techniques de localisation des sources sonores

Améliorer la façon dont on identifie les sources sonores en utilisant des données audio-visuelles.

2025-09-08T12:49:35+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Cartographier les sons : Une nouvelle approche de l'analyse des paysages sonores

Une méthode pour visualiser et prédire des sons dans différents environnements en utilisant une technologie avancée.

2025-09-08T11:12:25+00:00 ― 6 min lire

Calcul et langage Avancées dans l'identification de la langue parlée

De nouvelles méthodes combinent l'audio et les métadonnées pour une meilleure reconnaissance des langues.

2025-09-08T07:09:30+00:00 ― 7 min lire

Son Nouveau Système de Reconnaissance Vocale Lutte Contre les Menaces de Spoofing

Un système conçu pour détecter les attaques par présentation vocale renforce la sécurité de la reconnaissance vocale.

2025-09-08T06:20:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer Whisper pour les langues à faibles ressources

Améliorer la reconnaissance vocale de Whisper pour le vietnamien et d'autres langues à faibles ressources.

2025-09-08T03:55:10+00:00 ― 5 min lire

Son Avancées dans l'édition de discours textuel

FluentEditor améliore le montage audio en se concentrant sur le flow naturel et la cohérence.

2025-09-07T20:37:55+00:00 ― 5 min lire

Calcul et langage Nouvelles méthodes dans la traduction simultanée de la parole

Améliorer la traduction en temps réel grâce à des techniques de segmentation avancées.

2025-09-07T18:12:10+00:00 ― 7 min lire

Calcul et langage Avancées dans la traduction simultanée de la parole

Améliorer les traductions en temps réel grâce à des méthodes innovantes et des politiques intelligentes.

2025-09-07T17:23:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancer la reconnaissance automatique de la parole pour l'arabe tunisien

Efforts pour améliorer les systèmes de reconnaissance vocale pour l'arabe tunisien et le code-switching.

2025-09-07T16:35:00+00:00 ― 7 min lire

Son Personnaliser la génération de musique : Nouvelles approches

Des méthodes innovantes visent à adapter la création musicale aux préférences des utilisateurs.

2025-09-07T15:46:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Présentation du modèle SPGM pour la séparation de la parole

Un nouveau modèle améliore l'efficacité et la performance de la séparation des voix.

2025-09-07T10:54:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Nouveau modèle améliore l'évaluation de la qualité audio

Une nouvelle méthode évalue la qualité audio en utilisant plusieurs micros dans différents environnements.

2025-09-07T08:29:10+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les techniques de séparation du son

Une nouvelle méthode améliore la séparation des sons à travers différentes fréquences.

2025-09-07T06:03:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la communication vocale avec l'annulation d'écho acoustique

Explore les avancées dans l'annulation d'écho pour améliorer la qualité des appels.

2025-09-07T05:14:50+00:00 ― 5 min lire

Son Avancées dans la synthèse musicale multi-instrumentale

Une nouvelle méthode améliore la génération de musique en ajoutant du contexte de performance.

2025-09-07T01:11:55+00:00 ― 8 min lire

Son Une méthode innovante transforme le sous-titrage audio avec des données textuelles

Une nouvelle approche génère des légendes audio en utilisant seulement du texte, ce qui améliore l'efficacité des données.

2025-09-07T00:23:20+00:00 ― 9 min lire

Son Connecter la musique : récupération audio et partitions

Explorer les défis et les innovations pour faire correspondre les enregistrements audio à la partition.

2025-09-06T21:57:35+00:00 ― 8 min lire

Son Faire avancer la recherche musicale avec l'apprentissage auto-supervisé

Une nouvelle approche utilise l'apprentissage auto-supervisé pour relier l'audio et la partition.

2025-09-06T21:09:00+00:00 ― 7 min lire

Son Lier l'audio et la partition avec des réseaux récurrents

Une nouvelle méthode améliore l'accord entre audio et partitions.

2025-09-06T19:31:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer les jeux de données audio avec le clustering K-Means

Utiliser le clustering k-means pour optimiser les données audio pour un meilleur entraînement des modèles.

2025-09-06T15:28:55+00:00 ― 7 min lire

Informatique - Son