Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Traitement de l'audio et de la parole Avancer la reconstruction du champ sonore avec l'IA

Utiliser l'IA pour améliorer comment on recrée le son dans différents environnements.

2025-09-01T01:52:40+00:00 ― 7 min lire

Traitement de l'audio et de la parole Faire avancer la reconnaissance vocale avec le SSRL

Une nouvelle méthode améliore la reconnaissance vocale en utilisant moins d'étiquettes et de ressources.

2025-09-01T00:15:30+00:00 ― 8 min lire

Son Avancées dans les techniques de mise en relation texte-audio

De nouvelles méthodes améliorent le lien entre les descriptions textuelles et les événements sonores.

2025-08-31T16:09:40+00:00 ― 9 min lire

Traitement de l'audio et de la parole Détection de la direction du son dans des robots en mouvement

Des méthodes innovantes améliorent la façon dont les robots traitent la direction du son en mouvement.

2025-08-31T14:32:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie de formation de faisceaux

Apprends-en sur le beamforming à valeurs réelles et ses avantages pour les réseaux de microphones.

2025-08-31T12:06:45+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans les modèles de synthèse vocale conversationnelle

Une nouvelle approche pour la génération de discours petite, efficace et qui sonne naturel.

2025-08-31T09:41:00+00:00 ― 12 min lire

Son Un nouveau modèle pour la génération de musique avec l'IA

MusicAOG simplifie la création et la compréhension de la musique grâce à une représentation graphique innovante.

2025-08-31T08:52:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Conception de systèmes MIMO efficaces avec des réseaux sphériques

Un nouveau cadre pour combiner des réseaux de microphones sphériques et de haut-parleurs dans les études sonores.

2025-08-31T07:15:15+00:00 ― 7 min lire

Traitement de l'audio et de la parole Concevoir des systèmes auditifs efficaces pour les robots humanoïdes

Un nouveau cadre pour améliorer la détection des sons dans les robots humanoïdes grâce à la conception de réseaux de microphones.

2025-08-31T06:26:40+00:00 ― 10 min lire

Traitement de l'audio et de la parole Améliorer l'acoustique des pièces avec des systèmes MIMO

Découvre comment les systèmes MIMO améliorent l'analyse sonore dans différents environnements.

2025-08-31T02:23:45+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la recherche sur l'acoustique des salles

De nouvelles techniques améliorent l'estimation de la direction du son pour différents réglages audio.

2025-08-31T01:35:10+00:00 ― 6 min lire

Traitement de l'audio et de la parole Contrôler le son pour des expériences d'écoute plus claires

Des recherches montrent des astuces pour ajuster le son dans les pièces afin d'améliorer la clarté.

2025-08-31T00:46:35+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Détecter l'humour dans les vidéos avec FunnyNet-W

Un nouveau modèle identifie des moments drôles dans les vidéos en utilisant des données visuelles, audio et textuelles.

2025-08-30T23:09:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Progrès dans les élastomères diélectriques pour la technologie

Les élastomères diélectriques convertissent l'énergie électrique en mouvement mécanique, offrant des applications diverses.

2025-08-30T20:43:40+00:00 ― 9 min lire

Calcul et langage Utiliser la technologie ASR pour aider au diagnostic de la démence

Les transcriptions ASR avec des erreurs peuvent aider à identifier la maladie d'Alzheimer plus précisément.

2025-08-30T16:40:45+00:00 ― 10 min lire

Calcul et langage Présentation d'ELLA-V : Un nouveau chapitre dans la synthèse vocale

ELLA-V améliore la qualité et le contrôle de la synthèse vocale, surpassant les modèles précédents.

2025-08-30T01:17:40+00:00 ― 7 min lire

Méthodes quantitatives Une nouvelle méthode améliore la surveillance acoustique de la faune

Une nouvelle approche améliore la précision de détection des cris d'animaux sans seuils arbitraires.

2025-08-29T23:46:39+00:00 ― 8 min lire

Calcul et langage Faire avancer la classification de la parole avec des données multimodales

Un nouveau modèle intègre l'audio et le texte pour une meilleure classification de la parole.

2025-08-29T18:49:00+00:00 ― 8 min lire

Son Défi NOTSOFAR-1 : Faire avancer la technologie de transcription des réunions

Une nouvelle initiative pour améliorer la technologie de transcription pour les réunions dans les grandes salles.

2025-08-29T16:23:15+00:00 ― 9 min lire

Calcul et langage Avancées dans la correction des erreurs de reconnaissance vocale

De nouvelles méthodes améliorent la précision dans la reconnaissance vocale brouillée en utilisant de grands modèles de langue.

2025-08-29T01:48:45+00:00 ― 8 min lire

Son Comprendre les vocalisations des poules pondeuses pour une meilleure ferme

Analyser les sons des poules aide à améliorer leur santé et la productivité de la ferme.

2025-08-29T00:11:35+00:00 ― 10 min lire

Interaction homme-machine Démêlage du son : un nouvel outil pour la réalité mixte

Une méthode pour aider les malvoyants à reconnaître des sons en réalité mixte.

2025-08-28T20:57:15+00:00 ― 6 min lire

Traitement de l'audio et de la parole S'attaquer aux défis de la technologie de la parole pour les langues sous-resources

Cet article parle des solutions pour les applications de parole dans les langues avec peu de données transcrites.

2025-08-28T18:31:30+00:00 ― 8 min lire

Apprentissage automatique Avancées dans la classification sonore en utilisant des réseaux de croyance projetés

Des chercheurs combinent des méthodes génératives et discriminatives pour améliorer la classification sonore.

2025-08-28T16:05:45+00:00 ― 7 min lire

Cryptographie et sécurité Renforcer la vérification vocale contre les attaques de spoofing

Un nouveau modèle améliore la sécurité de l'identification vocale et résiste à la contrefaçon vocale.

2025-08-28T15:17:10+00:00 ― 7 min lire

Apprentissage automatique Améliorer les Mécanismes d'Attention avec GAAM

Un aperçu de l'attention adaptative gaussienne pour améliorer les performances de l'IA.

2025-08-28T14:28:35+00:00 ― 8 min lire

Traitement de l'audio et de la parole Analyse du rythme des langues avec l'apprentissage profond

Des recherches montrent que l'apprentissage profond améliore notre compréhension du rythme de la langue.

2025-08-28T12:51:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Progrès en traitement multimodal avec CoAVT

CoAVT intègre des données audio, visuelles et textuelles pour une meilleure compréhension.

2025-08-28T12:02:50+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la diarisation des locuteurs avec la méthode E-SHARC

E-SHARC améliore l'identification des locuteurs dans différents environnements audio.

2025-08-28T06:22:45+00:00 ― 7 min lire

Son MoodLoopGP : Créer des émotions dans de la musique en boucle

Un nouveau système génère de la musique pour exprimer la joie et la tristesse.

2025-08-28T04:45:35+00:00 ― 7 min lire

Calcul et langage Risques de la technologie de synthèse vocale générée par l'IA

Examiner les dangers et les préoccupations éthiques liés à la génération de la parole synthétique.

2025-08-27T23:54:05+00:00 ― 7 min lire

Son Naviguer dans les influences des modèles de musique générative

Un guide pour comprendre la similitude musicale dans les modèles génératifs.

2025-08-27T22:16:55+00:00 ― 11 min lire

Traitement de l'audio et de la parole Techniques pour la reproduction et l'évaluation du son

Une étude sur la synthèse sonore et son évaluation dans des environnements contrôlés.

2025-08-27T16:36:50+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les techniques de localisation de sources sonores

Une nouvelle méthode améliore la précision pour localiser des sources de son en mouvement en utilisant des réseaux de microphones.

2025-08-27T01:13:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole Une nouvelle approche pour l'évaluation de la qualité audio avec PAM

PAM propose une nouvelle façon de mesurer la qualité audio sans avoir besoin d'enregistrements de référence.

2025-08-26T21:10:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Nouvelle méthode pour effacer le discours écho

Une méthode améliore la clarté de la parole dans des environnements bruyants sans données d'entraînement claires.

2025-08-26T17:56:30+00:00 ― 8 min lire

Son Audio Flamingo : Un nouveau modèle pour comprendre le son

Audio Flamingo excelle à écouter, discuter et s'adapter à de nouvelles tâches audio.

2025-08-26T16:19:20+00:00 ― 7 min lire

Traitement de l'audio et de la parole Faire progresser le raisonnement spatial sonore dans les machines

Un nouveau modèle améliore la compréhension de l'audio spatial par les machines.

2025-08-26T15:30:45+00:00 ― 6 min lire

Calcul et langage Améliorer les systèmes de reconnaissance vocale en temps réel

Un nouveau modèle améliore l'efficacité de la conversion de la parole en texte dans les applications en temps réel.

2025-08-26T11:27:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour les langues à faibles ressources

De nouvelles méthodes améliorent la reconnaissance vocale pour les langues sous-représentées en utilisant des données de langues similaires.

2025-08-26T10:39:15+00:00 ― 7 min lire