Génie électrique et science des systèmes - Traitement de l'audio et de la parole

Son Un nouvel outil pour la visualisation musicale

Ce document présente un système pour créer des visuels qui réagissent à la musique.

2025-07-26T10:31:10+00:00 ― 9 min lire

Robotique Apprendre avec le son : une nouvelle ère pour les robots

Un nouveau système aide les robots à apprendre des tâches en utilisant des audio de démonstrations réelles.

2025-07-26T09:42:35+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la détection des événements sonores pour 2024

De nouvelles méthodes améliorent la précision dans la reconnaissance des sons qui se chevauchent à partir de diverses sources audio.

2025-07-26T07:16:50+00:00 ― 8 min lire

Calcul et langage Améliorer la correction des erreurs de parole dans les systèmes de reconnaissance vocale

Une nouvelle méthode combine des caractéristiques acoustiques et des scores de confiance pour une meilleure correction des erreurs.

2025-07-25T20:45:15+00:00 ― 6 min lire

Cryptographie et sécurité Protéger les voix à l'ère des deepfakes

SecureSpectra propose une nouvelle façon de protéger l'identité audio contre les menaces des deepfakes.

2025-07-25T16:42:20+00:00 ― 7 min lire

Apprentissage automatique Avancées dans la prédiction de la diffusion acoustique avec PGI-DeepONet

Combiner la physique et la géométrie pour améliorer les prévisions de diffusion acoustique.

2025-07-25T15:54:09+00:00 ― 7 min lire

Calcul et langage Avancées dans les systèmes de traduction vocale en temps réel

Un nouveau système pour une traduction rapide et précise de la parole dans plusieurs langues.

2025-07-25T15:05:10+00:00 ― 7 min lire

Son Nouvelle méthode pour la création de voix dans la synthèse vocale

Une méthode simple pour créer des voix et contrôler les émotions dans la synthèse vocale.

2025-07-25T14:16:35+00:00 ― 7 min lire

Son Avancées dans la séparation de sources musicales en temps réel

Améliorer MMDenseNet pour une séparation musicale rapide et efficace.

2025-07-25T12:39:25+00:00 ― 7 min lire

Traitement de l'audio et de la parole Nouvelle méthode pour un son plus clair dans des environnements bruyants

Une nouvelle méthode pour améliorer la clarté du son en utilisant des techniques avancées d'apprentissage profond.

2025-07-25T11:02:15+00:00 ― 9 min lire

Traitement de l'audio et de la parole Améliorer la détection des intervenants avec des données audio et visuelles

Un système combine audio et vidéo pour améliorer la précision de la détection des intervenants.

2025-07-25T10:13:40+00:00 ― 6 min lire

Calcul et langage Progrès dans les systèmes de dialogue parlé

Une nouvelle méthode améliore le dialogue machine grâce à des données pseudo-stéréo.

2025-07-25T08:36:30+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale chinoise grâce à la régularisation du pinyin

Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.

2025-07-25T07:47:55+00:00 ― 9 min lire

Son Avancée de la technologie des haut-parleurs et contrôle du son

Des techniques innovantes améliorent la conception des haut-parleurs et la direction du son.

2025-07-25T06:10:45+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Progrès dans les modèles linguistiques multimodaux

Un nouveau modèle combine des données audio et visuelles pour une meilleure compréhension.

2025-07-25T05:22:10+00:00 ― 7 min lire

Son Analyse des techniques de détection d'audio deepfake

Cette étude se concentre sur l'amélioration de la détection des faux audios en utilisant des méthodes avancées.

2025-07-25T02:56:25+00:00 ― 6 min lire

Son Approches innovantes pour créer de la musique avec la technologie

Utiliser des interfaces visuelles et des modèles pour améliorer la génération de musique.

2025-07-25T00:30:40+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Approche innovante pour la génération automatique d'effets sonores

Un nouveau cadre pour créer des effets sonores synchronisés dans des vidéos.

2025-07-24T23:42:05+00:00 ― 7 min lire

Son Améliorer la diarisation des locuteurs avec des embeddings de locuteur

Une étude sur l'amélioration de la segmentation audio en intégrant des embeddings de locuteurs.

2025-07-24T21:16:20+00:00 ― 7 min lire

Son Une nouvelle méthode légère pour la technologie de synthèse vocale

Cet article présente un système TTS plus efficace qui s'adapte aux intervenants.

2025-07-24T20:27:45+00:00 ― 7 min lire

Calcul et langage Techniques innovantes en reconnaissance vocale pour les langues à faible ressources

De nouvelles méthodes améliorent les modèles de parole pour les langues avec peu de données.

2025-07-24T19:39:10+00:00 ― 7 min lire

Son L'importance de mesurer l'incertitude dans la reconnaissance des émotions dans la parole

Comprendre l'incertitude améliore la précision de la reconnaissance des émotions dans des situations réelles.

2025-07-24T17:13:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'alignement des phonèmes

Une nouvelle méthode améliore la précision de l'alignement des phonèmes pour différentes applications de la parole.

2025-07-24T10:44:45+00:00 ― 7 min lire

Calcul et langage Le défi linguistique de Nollywood : Rapprocher les dialectes

Une étude sur la traduction de l'anglais nigérian pour une meilleure accessibilité dans les films de Nollywood.

2025-07-24T04:16:05+00:00 ― 7 min lire

Calcul et langage Une nouvelle approche pour l'apprentissage de la représentation de la parole

Cet article présente un système à double encodeur pour un apprentissage efficace de la représentation de la parole.

2025-07-24T01:50:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Nouvelle approche pour la diarisation des locuteurs

Un système de reconnaissance de locuteurs dans des audio multilingues sans avoir besoin de beaucoup de données.

2025-07-24T01:01:45+00:00 ― 7 min lire

Son Faire avancer le traitement musical symbolique avec MelodyT5

MelodyT5 propose une nouvelle approche pour créer et analyser de la musique en utilisant une notation symbolique.

2025-07-23T21:47:25+00:00 ― 7 min lire

Son Un jeu de données de musique synthétique vise à améliorer la classification des genres

Le dataset GTZAN-synth utilise de la musique synthétique pour améliorer les systèmes de tagging musical.

2025-07-23T17:44:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole MelodyLM : L'avenir de la création de chansons

MelodyLM simplifie la création de musique en utilisant des entrées textuelles et vocales.

2025-07-23T16:55:55+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation du modèle SAVE pour la segmentation audio-visuelle

Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.

2025-07-23T16:07:20+00:00 ― 7 min lire

Calcul et langage Avancées dans la traduction parole-texte avec les LLMs

Nouveau modèle améliore la traduction de la parole en texte en utilisant des grands modèles de langage.

2025-07-23T08:01:30+00:00 ― 8 min lire

Son Nouveau modèle estime les mouvements de la bouche dans la parole

La recherche propose un modèle qui relie les enregistrements sonores aux mouvements de la bouche pour la parole.

2025-07-23T07:12:55+00:00 ― 8 min lire

Calcul et langage Wav2Vec2.0 et le son de la reconnaissance vocale

Cet article parle de comment Wav2Vec2.0 traite les sons de la parole en utilisant la phonologie.

2025-07-23T05:35:45+00:00 ― 7 min lire

Calcul et langage Avancées dans l'anonymisation des locuteurs multilingues

Améliorer la technologie d'anonymisation des locuteurs pour neuf langues afin de garantir la vie privée.

2025-07-23T03:58:35+00:00 ― 7 min lire

Méthodes quantitatives Aquaculture numérique : L'avenir de l'élevage de poissons

Explorer le rôle de la technologie dans l'amélioration de l'efficacité et du bien-être de l'aquaculture.

2025-07-23T03:15:54+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la reconnaissance vocale audio-visuelle

Les recherches montrent que la vidéo aide à améliorer la reconnaissance vocale dans des environnements bruyants.

2025-07-22T20:41:20+00:00 ― 6 min lire

Son Nouvelle méthode pour détecter la démence tôt grâce à l'analyse vocale

Une approche novatrice combine l'analyse vocale avec la protection de la vie privée pour détecter la démence.

2025-07-22T19:04:10+00:00 ― 8 min lire

Son Avancement de la classification automatisée des sons animaux

De nouvelles méthodes améliorent la précision pour identifier les sons des animaux pour le suivi de la faune.

2025-07-22T18:15:35+00:00 ― 5 min lire

Traitement de l'audio et de la parole Améliorer la sécurité dans la vérification automatique des locuteurs

De nouvelles méthodes améliorent la sécurité contre le spoofing vocal dans les systèmes ASV.

2025-07-22T16:38:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la détection d'événements sonores avec de nouvelles techniques

Les avancées dans la classification sonore améliorent la précision de la reconnaissance audio.

2025-07-22T15:01:15+00:00 ― 7 min lire