Informatique - Son

RSS

Son Une nouvelle méthode pour détecter le spoofing vocal

Une approche solide pour identifier les anomalies audio et lutter contre le spoofing vocal.

2025-09-09T07:27:00+00:00 ― 6 min lire

Calcul et langage Avancées dans la reconnaissance des émotions dans les conversations

Un nouveau modèle améliore la compréhension des émotions pendant les conversations.

2025-09-09T06:38:25+00:00 ― 7 min lire

Calcul et langage Les symboles de la parole générée par ordinateur suivent-ils la loi de Zipf ?

Cette étude examine si les symboles de la parole appris imitent les modèles de fréquence des mots.

2025-09-09T04:12:40+00:00 ― 7 min lire

Son DiCon : Une nouvelle approche de la synthèse vocale

Présentation d'une méthode plus rapide pour la synthèse vocale de haute qualité utilisant des modèles de diffusion.

2025-09-09T03:24:05+00:00 ― 8 min lire

Traitement de l'audio et de la parole HiFTNet : Faire avancer la technologie de synthèse vocale

HiFTNet propose une synthèse vocale rapide et de haute qualité en utilisant des techniques innovantes et efficaces.

2025-09-09T02:35:30+00:00 ― 6 min lire

Son Avancées dans la technologie de conversion vocale grâce aux images de visage

Une nouvelle méthode transforme les voix en utilisant les traits du visage pour diverses applications.

2025-09-09T01:46:55+00:00 ― 11 min lire

Traitement de l'audio et de la parole Présentation d'AV-SUPERB : Une nouvelle référence pour les modèles audio-visuels

AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.

2025-09-08T22:32:35+00:00 ― 7 min lire

Son Améliorer la diarisation des locuteurs avec des infos sémantiques

Une nouvelle approche améliore la diarisation des intervenants en intégrant des données sémantiques dans le processus.

2025-09-08T20:06:50+00:00 ― 6 min lire

Son Génération de texte en audio plus rapide grâce à la distillation de consistance

Une nouvelle méthode améliore la vitesse et l'efficacité de la génération de texte en audio.

2025-09-08T18:29:40+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance des émotions dans la parole : une approche multilingue

Des recherches montrent une meilleure précision dans la reconnaissance des émotions dans la parole à travers les langues.

2025-09-08T16:03:55+00:00 ― 6 min lire

Son Améliorer la reconnaissance vocale avec l'entraînement au moment du test

Explore comment TTT améliore la reconnaissance vocale en s'adaptant aux changements de distribution.

2025-09-08T14:26:45+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Amélioration des techniques de localisation des sources sonores

Améliorer la façon dont on identifie les sources sonores en utilisant des données audio-visuelles.

2025-09-08T12:49:35+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Cartographier les sons : Une nouvelle approche de l'analyse des paysages sonores

Une méthode pour visualiser et prédire des sons dans différents environnements en utilisant une technologie avancée.

2025-09-08T11:12:25+00:00 ― 6 min lire

Calcul et langage Avancées dans l'identification de la langue parlée

De nouvelles méthodes combinent l'audio et les métadonnées pour une meilleure reconnaissance des langues.

2025-09-08T07:09:30+00:00 ― 7 min lire

Son Nouveau Système de Reconnaissance Vocale Lutte Contre les Menaces de Spoofing

Un système conçu pour détecter les attaques par présentation vocale renforce la sécurité de la reconnaissance vocale.

2025-09-08T06:20:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer Whisper pour les langues à faibles ressources

Améliorer la reconnaissance vocale de Whisper pour le vietnamien et d'autres langues à faibles ressources.

2025-09-08T03:55:10+00:00 ― 5 min lire

Son Avancées dans l'édition de discours textuel

FluentEditor améliore le montage audio en se concentrant sur le flow naturel et la cohérence.

2025-09-07T20:37:55+00:00 ― 5 min lire

Calcul et langage Nouvelles méthodes dans la traduction simultanée de la parole

Améliorer la traduction en temps réel grâce à des techniques de segmentation avancées.

2025-09-07T18:12:10+00:00 ― 7 min lire

Calcul et langage Avancées dans la traduction simultanée de la parole

Améliorer les traductions en temps réel grâce à des méthodes innovantes et des politiques intelligentes.

2025-09-07T17:23:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancer la reconnaissance automatique de la parole pour l'arabe tunisien

Efforts pour améliorer les systèmes de reconnaissance vocale pour l'arabe tunisien et le code-switching.

2025-09-07T16:35:00+00:00 ― 7 min lire

Son Personnaliser la génération de musique : Nouvelles approches

Des méthodes innovantes visent à adapter la création musicale aux préférences des utilisateurs.

2025-09-07T15:46:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Présentation du modèle SPGM pour la séparation de la parole

Un nouveau modèle améliore l'efficacité et la performance de la séparation des voix.

2025-09-07T10:54:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Nouveau modèle améliore l'évaluation de la qualité audio

Une nouvelle méthode évalue la qualité audio en utilisant plusieurs micros dans différents environnements.

2025-09-07T08:29:10+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les techniques de séparation du son

Une nouvelle méthode améliore la séparation des sons à travers différentes fréquences.

2025-09-07T06:03:25+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la communication vocale avec l'annulation d'écho acoustique

Explore les avancées dans l'annulation d'écho pour améliorer la qualité des appels.

2025-09-07T05:14:50+00:00 ― 5 min lire

Son Avancées dans la synthèse musicale multi-instrumentale

Une nouvelle méthode améliore la génération de musique en ajoutant du contexte de performance.

2025-09-07T01:11:55+00:00 ― 8 min lire

Son Une méthode innovante transforme le sous-titrage audio avec des données textuelles

Une nouvelle approche génère des légendes audio en utilisant seulement du texte, ce qui améliore l'efficacité des données.

2025-09-07T00:23:20+00:00 ― 9 min lire

Son Connecter la musique : récupération audio et partitions

Explorer les défis et les innovations pour faire correspondre les enregistrements audio à la partition.

2025-09-06T21:57:35+00:00 ― 8 min lire

Son Faire avancer la recherche musicale avec l'apprentissage auto-supervisé

Une nouvelle approche utilise l'apprentissage auto-supervisé pour relier l'audio et la partition.

2025-09-06T21:09:00+00:00 ― 7 min lire

Son Lier l'audio et la partition avec des réseaux récurrents

Une nouvelle méthode améliore l'accord entre audio et partitions.

2025-09-06T19:31:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer les jeux de données audio avec le clustering K-Means

Utiliser le clustering k-means pour optimiser les données audio pour un meilleur entraînement des modèles.

2025-09-06T15:28:55+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec des techniques d'augmentation audio

Une étude montre que l'augmentation audio peut améliorer la reconnaissance vocale dans les langues à faibles ressources.

2025-09-06T09:48:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancer la reconnaissance vocale automatique multilingue avec du masquage adaptatif

Une nouvelle approche améliore l'efficacité des modèles ASR multilingues en intégrant des techniques de masquage adaptatif.

2025-09-06T09:00:15+00:00 ― 6 min lire

Son Utiliser l'audio deepfake pour améliorer les systèmes de transcription

Enquête sur l'audio deepfake pour améliorer les modèles de transcription pour les langues moins courantes.

2025-09-06T07:23:05+00:00 ― 11 min lire

Apprentissage automatique Améliorer l'apprentissage avec des étiquettes faibles grâce à la sélection d'exemples négatifs

De nouvelles stratégies améliorent l'apprentissage avec des étiquettes faibles en sélectionnant des exemples négatifs pertinents.

2025-09-06T04:57:20+00:00 ― 8 min lire

Son Nouvelle technique de filigrane pour les modèles audio

Une nouvelle méthode pour marquer des audios créés par des modèles de diffusion pour protéger les droits d'auteur.

2025-09-06T04:08:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale avec des réseaux de mémoire

De nouvelles techniques améliorent les systèmes ASR pour une meilleure reconnaissance de la parole longue.

2025-09-06T03:20:10+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les systèmes de détection de mots-clés

De nouvelles techniques visent à améliorer la précision des appareils activés par la voix contre les attaques.

2025-09-06T01:43:00+00:00 ― 7 min lire

Traitement de l'audio et de la parole DurIAN-E : Faire avancer la technologie de synthèse vocale

DurIAN-E améliore la synthèse vocale avec une expressivité et un flot naturel renforcés.

2025-09-06T00:54:25+00:00 ― 5 min lire

Traitement de l'audio et de la parole Progrès dans la technologie de reconnaissance des émotions vocales

Découvre comment SER améliore les interactions homme-machine grâce à la détection des émotions.

2025-09-06T00:05:50+00:00 ― 7 min lire