Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Vision par ordinateur et reconnaissance des formes Une nouvelle approche pour la création de contenu audiovisuel

Présentation d'un modèle qui génère de l'audio et de la vidéo synchronisés avec des niveaux de bruit mélangés.

2025-08-04T14:45:50+00:00 ― 7 min lire

Interaction homme-machine Avancer la communication entre robots : Solution de discours qui se chevauche

Un nouveau système améliore les interactions des robots en filtrant les discours qui se chevauchent.

2025-08-04T13:57:15+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Un modèle simple pour la génération audio-visuelle

Cet article parle d'un nouveau modèle simple pour générer du son à partir d'images et vice versa.

2025-08-04T09:05:45+00:00 ― 6 min lire

Apprentissage automatique Avancées dans la reconnaissance automatique de la parole avec des modèles de langage de débruitage

Les modèles de langage de débruitage améliorent la correction des erreurs dans les systèmes de reconnaissance vocale en utilisant des données synthétiques.

2025-08-03T22:34:10+00:00 ― 10 min lire

Traitement de l'audio et de la parole Avancées dans l'amélioration de la parole avec VPIDM

Le nouveau modèle VPIDM améliore la clarté de la parole dans des environnements bruyants.

2025-08-03T16:54:05+00:00 ― 8 min lire

Son NeRAF : Fusion du son et des visuels pour plus de réalisme

NeRAF crée des sons et des visuels synchronisés pour des expériences immersives dans divers domaines.

2025-08-03T07:11:05+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Approche innovante pour la génération conjointe audio-vidéo

Une nouvelle méthode améliore l'alignement audio-vidéo en utilisant des modèles pré-entraînés.

2025-08-03T04:45:20+00:00 ― 8 min lire

Apprentissage automatique Zipper : Une nouvelle approche de l'IA multimodale

Zipper combine efficacement différents types de données pour des modèles d'IA plus intelligents.

2025-08-03T03:08:10+00:00 ― 8 min lire

Son Améliorer la surveillance des joints boulonnés avec l'apprentissage profond

Utiliser l'apprentissage profond pour améliorer la surveillance des émissions acoustiques des joints boulonnés.

2025-08-02T21:28:05+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Rassembler le son et le mouvement dans la musique

Une nouvelle façon de combiner le chant et la danse grâce à des techniques informatiques avancées.

2025-08-02T20:39:30+00:00 ― 7 min lire

Son Avancées dans les techniques de remplissage de voix

Découvrez comment le speech inpainting restaure la qualité audio dans différents domaines.

2025-08-02T18:13:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Réduire les interférences pour un son plus clair

Un nouveau système améliore la clarté de la parole dans des environnements avec plusieurs intervenants.

2025-08-02T14:10:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de reconnaissance des émotions vocales

De nouvelles méthodes améliorent la façon dont les machines reconnaissent les émotions dans la parole.

2025-08-02T13:22:15+00:00 ― 7 min lire

Son Avancées dans la génération de vidéo en audio avec Frieren

Le modèle Frieren améliore la qualité audio et la synchronisation pour les vidéos.

2025-08-02T10:07:55+00:00 ― 8 min lire

Son Synthèse audio innovante à partir de descriptions textuelles

Une nouvelle méthode génère des sons uniques à partir de texte en utilisant un synthétiseur simple.

2025-08-02T08:30:45+00:00 ― 10 min lire

Calcul et langage Avancées dans la technologie de traduction vocale

Une nouvelle méthode améliore la traduction de la parole dans des environnements bruyants tout en préservant l'expressivité.

2025-08-01T13:53:20+00:00 ― 5 min lire

Traitement de l'audio et de la parole Avancées dans l'identification des ragas avec un nouveau dataset

Un nouveau jeu de données améliore l'étude de l'identification des Ragas dans la musique indienne.

2025-08-01T12:16:10+00:00 ― 7 min lire

Traitement de l'audio et de la parole Les avancées dans la technologie de synthèse vocale

Seed-TTS crée une voix réaliste à partir de texte pour différentes applications.

2025-08-01T10:39:00+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de la conversion parole-chanson

Une nouvelle méthode améliore la conversion de la parole en chant grâce à l'apprentissage auto-supervisé.

2025-08-01T09:50:25+00:00 ― 9 min lire

Calcul et langage StreamSpeech : Une nouvelle façon de traduire la parole

StreamSpeech améliore la traduction de la parole en temps réel avec efficacité et qualité.

2025-08-01T03:21:45+00:00 ― 6 min lire

Traitement de l'audio et de la parole Présentation du modèle 4D dans la reconnaissance vocale

Un nouveau modèle améliore la reconnaissance vocale en utilisant plusieurs méthodes de décodage.

2025-08-01T01:44:35+00:00 ― 9 min lire

Calcul et langage Améliorer la reconnaissance vocale en arabe grâce à la distillation de connaissances

Une étude sur l'amélioration de la reconnaissance vocale automatique pour les dialectes arabes en utilisant des techniques de modèle efficaces.

2025-07-31T23:18:50+00:00 ― 6 min lire

Calcul et langage BLSP-Emo : Une Nouvelle Étape dans l'IA Empathique

Présentation de BLSP-Emo, un modèle qui comprend la parole et les émotions pour de meilleures interactions.

2025-07-31T21:41:40+00:00 ― 6 min lire

Interaction homme-machine Revisiter l'interprétation des données : étude du son et des visuels

Une étude récente reproduit des résultats clés sur l'interprétation des données en utilisant le son et les visuels.

2025-07-31T20:04:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Combiner texte et images pour la génération de musique

Un nouveau modèle génère de la musique en utilisant à la fois des infos textuelles et visuelles.

2025-07-31T12:47:15+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes DenseAV : Relier Sons et Images

Un système qui relie les sons aux visuels, améliorant la compréhension des machines.

2025-07-31T10:21:30+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans la synthèse vocale avec ARDiT

Le nouveau modèle ARDiT améliore la synthèse vocale et l'édition de la parole.

2025-07-31T07:55:45+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les techniques de séparation de la parole

De nouvelles méthodes améliorent la clarté pour isoler les voix des mélanges audio.

2025-07-31T04:41:25+00:00 ― 5 min lire

Calcul et langage Améliorer la compréhension de l'IA grâce à l'analyse contextuelle

Présentation de SPICE, une tâche pour améliorer les interactions avec l'IA en utilisant des infos contextuelles.

2025-07-30T23:49:55+00:00 ― 10 min lire

Son Avancées dans le traitement musical cross-modal

La recherche présente le dataset MOSA, qui améliore la compréhension des aspects visuels et auditifs de la musique.

2025-07-30T23:01:20+00:00 ― 9 min lire

Calcul et langage Présentation de mHuBERT-147 : un modèle de parole compact

mHuBERT-147 traite la parole dans plusieurs langues de manière efficace.

2025-07-30T22:12:45+00:00 ― 5 min lire

Son Transformer le sous-titrage audio grâce à des méthodes innovantes

Une nouvelle approche pour la légende audio réduit la dépendance aux données appairées.

2025-07-30T21:24:10+00:00 ― 7 min lire

Son Progrès dans la reconnaissance des émotions par la voix

De nouvelles méthodes améliorent la façon dont les machines reconnaissent les émotions dans la parole humaine.

2025-07-30T18:09:50+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de diarisation de la parole ciblée

Un coup d'œil sur les nouvelles méthodes pour comprendre les discours qui se chevauchent pendant les conversations.

2025-07-30T14:06:55+00:00 ― 9 min lire

Apprentissage automatique Défis des techniques de tatouage audio

Enquête sur les vulnérabilités des méthodes de watermarking audio face aux menaces du monde réel.

2025-07-30T13:18:20+00:00 ― 8 min lire

Son Présentation de PianoMotion10M : un nouveau dataset pour apprendre le piano

PianoMotion10M fournit des mouvements de mains détaillés pour aider les apprentis pianistes.

2025-07-30T01:09:35+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération de son d'action à partir de vidéos

Un nouveau modèle améliore la correspondance sonore avec les actions visuelles dans les vidéos.

2025-07-29T23:32:25+00:00 ― 14 min lire

Son Avancées dans le rendu audio 3D avec AVGS

Nouveau modèle améliore les expériences audio réalistes dans les environnements virtuels.

2025-07-29T20:18:05+00:00 ― 9 min lire

Traitement de l'audio et de la parole Utiliser la technologie audio pour le suivi des piétons

Cette étude examine les méthodes audio pour suivre les mouvements des piétons dans les zones urbaines.

2025-07-29T17:52:20+00:00 ― 9 min lire

Traitement de l'audio et de la parole Faire avancer le son Foley avec le dataset MINT

Un nouveau jeu de données améliore la création de sons foley pour le contenu multimédia.

2025-07-29T17:03:45+00:00 ― 8 min lire