Derniers articles pour Traitement audio

Traitement de l'audio et de la parole Avancées dans la détection d'événements sonores avec UCIL

Une nouvelle méthode améliore la détection d'événements sonores en intégrant efficacement de nouvelles classes audio.

2025-07-22T01:15:20+00:00 ― 8 min lire

Apprentissage automatique Améliorer l'efficacité des modèles de diffusion pour l'échantillonnage de données

De nouvelles méthodes améliorent la vitesse d'échantillonnage et la précision dans les modèles de diffusion.

2025-07-21T11:17:44+00:00 ― 8 min lire

Calcul et langage Évaluer les systèmes de diarisation des locuteurs en ligne

Cet article examine la latence de divers systèmes de diarisation des locuteurs dans le traitement audio.

2025-07-21T04:12:10+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la séparation audio cinématographique

Découvrez les mises à jour de la version 3 du jeu de données Divide and Remaster.

2025-07-19T12:31:35+00:00 ― 8 min lire

Analyse fonctionnelle Enquête sur la dégradation de l'énergie dans les réseaux de convolution

Une étude sur le comportement énergétique dans les réseaux d'apprentissage profond améliorant l'analyse des signaux.

2025-07-19T10:56:37+00:00 ― 7 min lire

Traitement de l'audio et de la parole Évaluation de l'efficacité de Mamba dans la technologie de la parole

Mamba montre du potentiel contre les transformers dans les tâches de parole, surtout pour les longues entrées.

2025-07-17T13:33:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale multi-canaux

La méthode CUSIDE-array améliore la précision de la reconnaissance vocale en temps réel dans les systèmes multi-canaux.

2025-07-17T02:13:35+00:00 ― 7 min lire

Son Adapter Whisper pour améliorer la vérification des locuteurs

Un nouveau cadre améliore la performance de vérification des locuteurs avec des données limitées.

2025-07-17T00:36:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Qwen2-Audio : Une nouvelle voix pour la technologie

Un modèle vocal qui transforme l'interaction audio avec la technologie.

2025-07-16T00:18:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale par les robots mobiles

Un robot mobile apprend à reconnaître les voix dans des environnements bruyants pour des applications pratiques.

2025-07-15T16:13:05+00:00 ― 6 min lire

Son Génération sonore innovante pour des modèles humains 3D

Une nouvelle méthode améliore la création de sons pour des modèles humains 3D réalistes.

2025-07-15T00:01:25+00:00 ― 8 min lire

Multimédia Améliorer la localisation des sources sonores grâce à l'intégration audio-visuelle

Une étude sur l'amélioration de la localisation des sources sonores en utilisant mieux les infos audio et visuelles.

2025-07-14T06:12:35+00:00 ― 9 min lire

Intelligence artificielle Parler d'émotions : Support audio pour les sentiments

Un projet qui offre un soutien émotionnel via des réponses audio pour ceux qui en ont besoin.

2025-07-14T05:46:42+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la classification kNN avec des gradients auto-supervisés

Une nouvelle méthode améliore la classification kNN en utilisant des gradients pour une meilleure représentation des caractéristiques.

2025-07-13T10:33:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Segmentation audio-visuelle référente : Une nouvelle approche

Combiner des infos audio et visuelles aide à mieux reconnaître les objets dans les vidéos.

2025-07-13T10:17:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Intégrer texte et son pour la segmentation d'objets

Une nouvelle méthode combine des indices audio et textuels pour une meilleure identification des objets.

2025-07-13T10:01:42+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'amélioration de la parole

Un nouveau modèle améliore la clarté de la voix en s'attaquant au bruit et aux échos.

2025-07-12T15:20:35+00:00 ― 8 min lire

Traitement de l'audio et de la parole Transformer la diffusion avec la technologie IP et le marquage audio

Découvrez comment la diffusion IP et le marquage audio transforment la livraison de contenu.

2025-07-12T05:37:35+00:00 ― 7 min lire

Son Évaluer le raisonnement dans les modèles audio-langage

Cette étude évalue les compétences en raisonnement des modèles audio-langage avec une nouvelle tâche.

2025-07-10T09:54:05+00:00 ― 9 min lire

Son Avancer la classification audio avec de nouvelles techniques d'apprentissage

Une méthode qui améliore la reconnaissance sonore dans les machines.

2025-07-09T17:42:25+00:00 ― 7 min lire

Son Avancées dans les technologies de détection vocale

La recherche combine l'amélioration de la parole et l'apprentissage par transfert pour de meilleurs systèmes anti-fraude.

2025-07-08T23:53:35+00:00 ― 10 min lire

Traitement de l'audio et de la parole Améliorer la détection de mots-clés dans des environnements bruyants

Un nouveau système améliore la reconnaissance des commandes vocales malgré le bruit de fond.

2025-07-08T18:13:30+00:00 ― 7 min lire

Multimédia Faire avancer l'apprentissage général de zéro-shot audio-visuel

Un nouveau cadre améliore la classification dans des tâches audio-visuelles jamais vues.

2025-07-06T04:41:10+00:00 ― 8 min lire

Son Optimiser la diarisation des locuteurs pour des résultats plus rapides

Méthodes pour accélérer la diarisation des locuteurs sans sacrifier la précision.

2025-07-05T00:20:45+00:00 ― 8 min lire

Son GRAFX : Un nouvel outil pour le traitement audio

GRAFX propose une solution open-source pour un traitement audio efficace avec PyTorch.

2025-07-04T17:52:05+00:00 ― 5 min lire

Multimédia Avancées dans la segmentation sémantique audio-visuelle

Une nouvelle méthode améliore la reconnaissance d'objets dans les vidéos grâce à des sons et des indices visuels.

2025-07-04T10:13:36+00:00 ― 7 min lire

Son Améliorer les RNN pour le modélisation des effets audio

De nouvelles méthodes pour mieux contrôler les RNN améliorent les simulations d'effets audio.

2025-07-03T15:08:50+00:00 ― 11 min lire

Son Amélioration des méthodes de détection des deepfakes audio

La recherche se concentre sur la détection de l'audio deepfake grâce à des techniques améliorées et à l'expansion des données.

2025-07-01T06:28:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans le traitement audio et linguistique

Un nouveau modèle améliore les connexions entre les sons et leurs significations textuelles.

2025-06-30T08:36:15+00:00 ― 9 min lire

Informatique neuronale et évolutive Détection efficace des mots-clés avec des dispositifs neuromorphiques

Une nouvelle méthode pour le repérage de mots clés économe en énergie utilisant la technologie neuromorphique.

2025-06-30T01:41:00+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la clarté audio : Techniques de séparation des dialogues

La séparation des dialogues aide les spectateurs à entendre les conversations clairement malgré le bruit de fond.

2025-06-29T11:33:05+00:00 ― 8 min lire

Son Avancées dans l'apprentissage à quelques exemples pour le traitement audio

Ce texte parle de l'apprentissage par quelques exemples et de son impact sur les tâches audio.

2025-06-28T12:04:10+00:00 ― 9 min lire

Apprentissage automatique Avancées dans l'apprentissage de la composition audio

Une nouvelle méthode améliore la séparation et la génération audio sans données étiquetées.

2025-06-28T05:35:30+00:00 ― 7 min lire

Son Défi ASVspoof : Avancées dans l'authentification vocale

S'attaquer aux défis des faux audios et de la vérification des locuteurs.

2025-06-28T00:44:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Progrès dans la technologie de synthèse vocale avec le SSL-TTS

SSL-TTS simplifie la synthèse vocale en utilisant peu de données d'entraînement pour des résultats de haute qualité.

2025-06-27T15:49:35+00:00 ― 7 min lire

Multimédia Repenser les benchmarks de localisation de sources audio-visuelles

Les benchmarks actuels sous-estiment la capacité des modèles à relier les données audio et visuelles.

2025-06-25T16:03:10+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les méthodes de détection du début musical

De nouveaux algos améliorent la précision pour identifier le début des notes de musique.

2025-06-25T14:26:00+00:00 ― 8 min lire

Son Amélioration des techniques de détection de faux audio

De nouvelles méthodes améliorent la détection des faux audio dans des conditions réelles.

2025-06-24T06:51:15+00:00 ― 5 min lire

Traitement de l'audio et de la parole Nouveaux indicateurs pour mesurer le son dans les espaces

Des recherches proposent de meilleures méthodes pour évaluer la réverbération tardive dans les pièces.

2025-06-24T02:48:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Faire avancer la conversion de la parole chuchotée avec MaskCycleGAN

Une nouvelle méthode améliore la conversion de la parole chuchotée en parole normale en utilisant des techniques avancées.

2025-06-23T09:48:05+00:00 ― 6 min lire