Cette étude examine les faiblesses des modèles SER face aux attaques adversariales dans différentes langues.

2025-08-08T21:35:55+00:00 ― 7 min lire

Derniers articles

Traitement de l'audio et de la parole Avancement de l'extraction de la voix du locuteur dans les médias audio-visuels avec SEANet

2025-08-08T20:47:20+00:00 ― 8 min lire

Son SemantiCodec : La prochaine étape dans la technologie audio

2025-08-08T19:10:10+00:00 ― 8 min lire

Son Nouvel outil qui analyse le contenu audio et vidéo

2025-08-08T12:41:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Mesurer l'absorption sonore : une nouvelle méthode

2025-08-08T10:46:48+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie des aides auditives avec l'apprentissage profond

2025-08-08T01:21:20+00:00 ― 8 min lire

Derniers articles

Son Localisation de la source sonore : techniques et applications

Apprends les techniques de localisation du son et leur utilisation dans différents domaines.

2025-08-07T23:44:10+00:00 ― 5 min lire

Son S'attaquer à la montée de la détection des deepfakes audio

Nouveau jeu de données et méthodes améliorent la détection des deepfakes audio générés par ALM.

2025-08-07T06:43:55+00:00 ― 8 min lire

Calcul et langage Nouvelle méthode d'attaque qui rend les systèmes ASR muets

Un clip audio universel peut couper des modèles ASR avancés comme Whisper.

2025-08-07T03:29:35+00:00 ― 8 min lire

Son Un nouvel appareil améliore les conversations dans des environnements bruyants

Un appareil aide à se concentrer sur des voix spécifiques dans des endroits bondés.

2025-08-06T19:23:45+00:00 ― 8 min lire

Son Faire avancer le montage audio avec des modèles de diffusion

Une nouvelle méthode améliore le montage audio en utilisant des modèles de diffusion pour des changements précis.

2025-08-06T16:09:25+00:00 ― 7 min lire

Calcul et langage Intégrer des modèles audio et linguistiques : SpeechVerse

SpeechVerse fait le lien entre la compréhension audio et le traitement du langage pour améliorer l'interaction humain-ordinateur.

2025-08-06T06:26:25+00:00 ― 8 min lire

Son Évaluation du biais dans la technologie des assistants vocaux

Nouveau jeu de données met en avant les écarts de performance entre les groupes démographiques utilisant des assistants vocaux.

2025-08-06T02:23:30+00:00 ― 8 min lire

Calcul et langage Examiner la sécurité des modèles de langage

Cet article examine les vulnérabilités des modèles de discours et les moyens d'améliorer leur sécurité.

2025-08-05T23:09:10+00:00 ― 7 min lire

Apprentissage automatique S'attaquer aux hallucinations dans les modèles d'IA

Comprendre et atténuer les hallucinations dans l'IA pour une performance fiable.

2025-08-05T17:29:05+00:00 ― 10 min lire

Son Nouvelle méthode utilise des graphes pour l'analyse de la musique

Une nouvelle approche utilise des réseaux de convolution de graphes pour une analyse efficace des données musicales.

2025-08-05T15:51:55+00:00 ― 11 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'appariement audio-texte

De nouvelles méthodes améliorent les connexions entre les clips audio et les descriptions textuelles.

2025-08-05T14:14:45+00:00 ― 7 min lire

Traitement de l'audio et de la parole Amélioration de la transcription de la voix chantée avec le modèle ROSVOT

ROSVOT améliore la précision dans la transcription des voix chantées, même dans des environnements bruyants.

2025-08-05T10:11:50+00:00 ― 7 min lire

Intelligence artificielle L'avenir de la génération multimodale avec les LLMs

Explore comment les grands modèles de langage améliorent la créativité à travers la génération multimédia.

2025-08-04T21:12:12+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle approche pour la création de contenu audiovisuel

Présentation d'un modèle qui génère de l'audio et de la vidéo synchronisés avec des niveaux de bruit mélangés.

2025-08-04T14:45:50+00:00 ― 7 min lire

Interaction homme-machine Avancer la communication entre robots : Solution de discours qui se chevauche

Un nouveau système améliore les interactions des robots en filtrant les discours qui se chevauchent.

2025-08-04T13:57:15+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Un modèle simple pour la génération audio-visuelle

Cet article parle d'un nouveau modèle simple pour générer du son à partir d'images et vice versa.

2025-08-04T09:05:45+00:00 ― 6 min lire

Apprentissage automatique Avancées dans la reconnaissance automatique de la parole avec des modèles de langage de débruitage

Les modèles de langage de débruitage améliorent la correction des erreurs dans les systèmes de reconnaissance vocale en utilisant des données synthétiques.

2025-08-03T22:34:10+00:00 ― 10 min lire

Son NeRAF : Fusion du son et des visuels pour plus de réalisme

NeRAF crée des sons et des visuels synchronisés pour des expériences immersives dans divers domaines.

2025-08-03T07:11:05+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Approche innovante pour la génération conjointe audio-vidéo

Une nouvelle méthode améliore l'alignement audio-vidéo en utilisant des modèles pré-entraînés.

2025-08-03T04:45:20+00:00 ― 8 min lire

Son Améliorer la surveillance des joints boulonnés avec l'apprentissage profond

Utiliser l'apprentissage profond pour améliorer la surveillance des émissions acoustiques des joints boulonnés.

2025-08-02T21:28:05+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Rassembler le son et le mouvement dans la musique

Une nouvelle façon de combiner le chant et la danse grâce à des techniques informatiques avancées.

2025-08-02T20:39:30+00:00 ― 7 min lire

Son Revoir le mixage musical : une nouvelle approche

Découvrez une nouvelle méthode pour comprendre le mixage musical grâce à l'analyse audio.

2025-08-02T20:21:18+00:00 ― 7 min lire

Son Avancées dans les techniques de remplissage de voix

Découvrez comment le speech inpainting restaure la qualité audio dans différents domaines.

2025-08-02T18:13:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Réduire les interférences pour un son plus clair

Un nouveau système améliore la clarté de la parole dans des environnements avec plusieurs intervenants.

2025-08-02T14:10:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de reconnaissance des émotions vocales

De nouvelles méthodes améliorent la façon dont les machines reconnaissent les émotions dans la parole.

2025-08-02T13:22:15+00:00 ― 7 min lire

Son Avancées dans la génération de vidéo en audio avec Frieren

Le modèle Frieren améliore la qualité audio et la synchronisation pour les vidéos.

2025-08-02T10:07:55+00:00 ― 8 min lire

Son Synthèse audio innovante à partir de descriptions textuelles

Une nouvelle méthode génère des sons uniques à partir de texte en utilisant un synthétiseur simple.

2025-08-02T08:30:45+00:00 ― 10 min lire

Calcul et langage Avancées dans la technologie de traduction vocale

Une nouvelle méthode améliore la traduction de la parole dans des environnements bruyants tout en préservant l'expressivité.

2025-08-01T13:53:20+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Génération de musique innovante pour les vidéos

Une nouvelle méthode pour créer de la musique qui colle bien au contenu vidéo.

2025-08-01T13:48:30+00:00 ― 10 min lire

Traitement de l'audio et de la parole Les avancées dans la technologie de synthèse vocale

Seed-TTS crée une voix réaliste à partir de texte pour différentes applications.

2025-08-01T10:39:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de la conversion parole-chanson

Une nouvelle méthode améliore la conversion de la parole en chant grâce à l'apprentissage auto-supervisé.

2025-08-01T09:50:25+00:00 ― 9 min lire

Calcul et langage StreamSpeech : Une nouvelle façon de traduire la parole

StreamSpeech améliore la traduction de la parole en temps réel avec efficacité et qualité.

2025-08-01T03:21:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Présentation du modèle 4D dans la reconnaissance vocale

Un nouveau modèle améliore la reconnaissance vocale en utilisant plusieurs méthodes de décodage.

2025-08-01T01:44:35+00:00 ― 9 min lire

Calcul et langage Améliorer la reconnaissance vocale en arabe grâce à la distillation de connaissances

Une étude sur l'amélioration de la reconnaissance vocale automatique pour les dialectes arabes en utilisant des techniques de modèle efficaces.

2025-07-31T23:18:50+00:00 ― 6 min lire

Calcul et langage BLSP-Emo : Une Nouvelle Étape dans l'IA Empathique

Présentation de BLSP-Emo, un modèle qui comprend la parole et les émotions pour de meilleures interactions.

2025-07-31T21:41:40+00:00 ― 6 min lire

Interaction homme-machine Revisiter l'interprétation des données : étude du son et des visuels

Une étude récente reproduit des résultats clés sur l'interprétation des données en utilisant le son et les visuels.

2025-07-31T20:04:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes DenseAV : Relier Sons et Images

Un système qui relie les sons aux visuels, améliorant la compréhension des machines.

2025-07-31T10:21:30+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la synthèse vocale avec ARDiT

Le nouveau modèle ARDiT améliore la synthèse vocale et l'édition de la parole.

2025-07-31T07:55:45+00:00 ― 7 min lire

Calcul et langage Améliorer la compréhension de l'IA grâce à l'analyse contextuelle

Présentation de SPICE, une tâche pour améliorer les interactions avec l'IA en utilisant des infos contextuelles.

2025-07-30T23:49:55+00:00 ― 10 min lire

Son Avancées dans le traitement musical cross-modal

La recherche présente le dataset MOSA, qui améliore la compréhension des aspects visuels et auditifs de la musique.

2025-07-30T23:01:20+00:00 ― 9 min lire

Informatique - Son

Derniers articles