Derniers articles pour Traitement audio

Son Avancées dans les modèles audio et linguistiques

Le modèle CLAP fait le lien entre le traitement audio et le traitement de texte pour plein d'applications.

2025-09-14T13:46:00+00:00 ― 5 min lire

Son Nouveau système améliore l'extraction vocale depuis des positions de tête instables

PIAVE aide les machines à extraire les voix clairement, même quand les intervenants tournent la tête.

2025-09-12T19:39:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la clarté de la parole avec la technologie AV2Wav

AV2Wav améliore la qualité de la parole en utilisant des indices audio et visuels.

2025-09-12T17:13:55+00:00 ― 7 min lire

Son Un nouveau cadre pour l'anonymisation des intervenants

Présentation d'un cadre flexible pour améliorer la recherche sur la confidentialité vocale.

2025-09-12T05:05:10+00:00 ― 9 min lire

Son Des discours émotionnels mettent à l'épreuve les modèles de séparation de discours

Des recherches montrent que le discours émotionnel influence les performances des modèles dans les tâches de séparation de la parole.

2025-09-11T18:33:35+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer les techniques de détection de discours truqués

De nouvelles méthodes améliorent notre capacité à détecter efficacement les discours falsifiés.

2025-09-11T02:21:55+00:00 ― 7 min lire

Son Améliorer l'entraînement des vocodeurs avec l'apprentissage contrastif

De nouvelles méthodes améliorent la performance des vocodeurs avec des données audio limitées.

2025-09-10T12:36:00+00:00 ― 7 min lire

Son Une nouvelle méthode pour détecter le spoofing vocal

Une approche solide pour identifier les anomalies audio et lutter contre le spoofing vocal.

2025-09-09T07:27:00+00:00 ― 6 min lire

Son DiCon : Une nouvelle approche de la synthèse vocale

Présentation d'une méthode plus rapide pour la synthèse vocale de haute qualité utilisant des modèles de diffusion.

2025-09-09T03:24:05+00:00 ― 8 min lire

Traitement de l'audio et de la parole HiFTNet : Faire avancer la technologie de synthèse vocale

HiFTNet propose une synthèse vocale rapide et de haute qualité en utilisant des techniques innovantes et efficaces.

2025-09-09T02:35:30+00:00 ― 6 min lire

Traitement de l'audio et de la parole Présentation d'AV-SUPERB : Une nouvelle référence pour les modèles audio-visuels

AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.

2025-09-08T22:32:35+00:00 ― 7 min lire

Son Génération de texte en audio plus rapide grâce à la distillation de consistance

Une nouvelle méthode améliore la vitesse et l'efficacité de la génération de texte en audio.

2025-09-08T18:29:40+00:00 ― 5 min lire

Traitement de l'audio et de la parole Présentation du modèle SPGM pour la séparation de la parole

Un nouveau modèle améliore l'efficacité et la performance de la séparation des voix.

2025-09-07T10:54:55+00:00 ― 7 min lire

Son Une méthode innovante transforme le sous-titrage audio avec des données textuelles

Une nouvelle approche génère des légendes audio en utilisant seulement du texte, ce qui améliore l'efficacité des données.

2025-09-07T00:23:20+00:00 ― 9 min lire

Son Connecter la musique : récupération audio et partitions

Explorer les défis et les innovations pour faire correspondre les enregistrements audio à la partition.

2025-09-06T21:57:35+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer les jeux de données audio avec le clustering K-Means

Utiliser le clustering k-means pour optimiser les données audio pour un meilleur entraînement des modèles.

2025-09-06T15:28:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec des techniques d'augmentation audio

Une étude montre que l'augmentation audio peut améliorer la reconnaissance vocale dans les langues à faibles ressources.

2025-09-06T09:48:50+00:00 ― 7 min lire

Apprentissage automatique Améliorer l'apprentissage avec des étiquettes faibles grâce à la sélection d'exemples négatifs

De nouvelles stratégies améliorent l'apprentissage avec des étiquettes faibles en sélectionnant des exemples négatifs pertinents.

2025-09-06T04:57:20+00:00 ― 8 min lire

Traitement de l'audio et de la parole Sélection de modèle efficace pour la reconnaissance vocale

Une méthode pour choisir le meilleur modèle ASR en fonction des caractéristiques audio.

2025-09-05T23:17:15+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la clarté de la parole avec des techniques de dériverbération

Apprends comment la dé-réverbération améliore la reconnaissance vocale dans des environnements bruyants.

2025-09-05T12:45:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole Nouvelle méthode pour estimer le volume d'une pièce en utilisant des modèles d'attention

Cette étude présente un modèle basé sur l'attention pour estimer les volumes de pièces à partir d'enregistrements audio.

2025-09-05T11:08:30+00:00 ― 7 min lire

Son Présentation d'ASCA : Une nouvelle approche de la classification audio

Le modèle ASCA améliore la précision de classification audio pour les petits jeux de données.

2025-09-05T10:19:55+00:00 ― 7 min lire

Son Transformer les mouvements de la langue en sons de la parole

Cette étude transforme les données de langue obtenues par IRM en audio de parole réel.

2025-09-04T22:11:10+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées et défis des modèles de reconnaissance vocale

Cette étude explore comment la compression de modèle impacte la reconnaissance vocale dans des environnements bruyants.

2025-09-04T19:45:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la détection d'événements sonores avec OAL

Explore comment l'apprentissage actif en ligne améliore l'efficacité de la reconnaissance sonore.

2025-09-04T18:56:50+00:00 ― 7 min lire

Son Avancées dans les modèles de reconnaissance audio et de la parole

Un nouveau modèle améliore la compréhension de la parole et des sons en même temps.

2025-09-04T18:08:15+00:00 ― 7 min lire

Son Avancées dans la classification audio avec DCLS

DCLS améliore la performance de classification audio en apprenant les positions des noyaux pendant l'entraînement.

2025-09-04T07:36:40+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Améliorer l'apprentissage audio-visuel avec la co-augmentation rapide

Une nouvelle méthode améliore l'apprentissage machine des données audio-visuelles.

2025-09-04T05:59:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole MC-SimCLR : Faire avancer l'apprentissage sonore et la sensibilisation à la localisation

Une nouvelle méthode améliore la reconnaissance sonore et la localisation des sources sans étiquettes.

2025-09-03T00:50:30+00:00 ― 7 min lire

Son Nouvelles idées sur la généralisation dans les réseaux de neurones

Explorer comment la netteté des minima influence la performance du modèle sur des données audio inaperçues.

2025-09-02T15:56:05+00:00 ― 6 min lire

Son Transformers dans l'apprentissage de la représentation musicale

Une étude sur l'utilisation des transformateurs pour un étiquetage et une représentation musicale efficaces.

2025-09-02T07:01:40+00:00 ― 8 min lire

Traitement de l'audio et de la parole Une approche universelle pour l'amélioration de la voix

Cette recherche présente un modèle pour améliorer la clarté de la parole dans différentes conditions.

2025-09-02T02:10:10+00:00 ― 7 min lire

Son L'essor du sous-titrage audio automatisé

Explorer les avancées dans le sous-titrage audio automatisé et son impact sur l'accessibilité.

2025-09-02T01:21:35+00:00 ― 6 min lire

Son Avancées dans les techniques de mise en relation texte-audio

De nouvelles méthodes améliorent le lien entre les descriptions textuelles et les événements sonores.

2025-08-31T16:09:40+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la diarisation des locuteurs avec la méthode E-SHARC

E-SHARC améliore l'identification des locuteurs dans différents environnements audio.

2025-08-28T06:22:45+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Faire avancer la segmentation audio-visuelle avec des techniques non supervisées

Une nouvelle approche simplifie la segmentation audio-visuelle sans avoir besoin de données étiquetées coûteuses.

2025-08-27T01:00:18+00:00 ― 9 min lire

Traitement de l'audio et de la parole Nouvelle méthode pour effacer le discours écho

Une méthode améliore la clarté de la parole dans des environnements bruyants sans données d'entraînement claires.

2025-08-26T17:56:30+00:00 ― 8 min lire

Analyse fonctionnelle Ondelettes et douceur : un aperçu pratique

Explore le rôle des ondelettes dans l'analyse de la régularité des fonctions et ses applications.

2025-08-24T23:53:28+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la diarisation des locuteurs avec des approches multi-microphones

De nouvelles méthodes améliorent la détection d'activité vocale et de chevauchement dans la diarisation des locuteurs.

2025-08-24T13:18:35+00:00 ― 8 min lire

Apprentissage automatique Réduire le bruit avec des modèles de diffusion

Apprends comment les modèles de diffusion améliorent la qualité des images et des sons en réduisant le bruit.

2025-08-23T23:42:00+00:00 ― 8 min lire