GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.

2025-07-29T02:29:15+00:00 ― 6 min lire

Traitement de l'audio et de la parole Révolutionner la synthèse vocale avec DiTTo-TTS

Un nouveau modèle améliore la technologie de synthèse vocale avec efficacité et adaptabilité.

2025-07-29T01:40:40+00:00 ― 8 min lire

Traitement de l'audio et de la parole Nouveau cadre pour une production de parole claire

Une nouvelle méthode qui optimise l'analyse et la synthèse de la parole en utilisant les mouvements du tractus vocal.

2025-07-28T20:49:10+00:00 ― 9 min lire

Interaction homme-machine L'impact des gestes dans les explications virtuelles

Cette étude examine comment les gestes influencent l'apprentissage avec des agents virtuels.

2025-07-28T19:12:00+00:00 ― 8 min lire

Son Diarisation de locuteur en temps réel : un aperçu

Découvre la diarisation de locuteur en ligne et son importance dans diverses applications.

2025-07-28T06:14:40+00:00 ― 8 min lire

Son Évaluation des jetons audio discrets pour les tâches de parole

Un nouvel outil de référence évalue les tokens audio discrets pour diverses tâches de traitement de la parole.

2025-07-28T04:37:30+00:00 ― 11 min lire

Son Avancées dans la génération de musique structurée avec SING

Une nouvelle méthode pour générer de la musique en utilisant des matrices d'auto-similarité et des systèmes d'attention.

2025-07-28T01:23:10+00:00 ― 9 min lire

Son Avancées dans le modélisation audio avec des GANs

De nouvelles techniques améliorent la modélisation des amplis de guitare en utilisant des données non appariées et des GAN.

2025-07-27T22:08:50+00:00 ― 9 min lire

Son Analyser des modèles audio avec une dissection de réseau

Une nouvelle méthode pour comprendre comment les modèles audio font des prédictions.

2025-07-27T12:25:50+00:00 ― 6 min lire

Son Avancement de la conversion vocale avec une conscience spatiale

Introduction de la conversion de voix spatiale pour améliorer le réalisme audio et l'immersion.

2025-07-27T01:54:15+00:00 ― 7 min lire

Calcul et langage Analyser la parole pour évaluer le risque de suicide

Des recherches examinent comment l'analyse de la parole peut prédire le risque de suicide, en tenant compte des différences de genre.

2025-07-26T13:45:30+00:00 ― 6 min lire

Son Un nouvel outil pour la visualisation musicale

Ce document présente un système pour créer des visuels qui réagissent à la musique.

2025-07-26T10:31:10+00:00 ― 9 min lire

Robotique Apprendre avec le son : une nouvelle ère pour les robots

Un nouveau système aide les robots à apprendre des tâches en utilisant des audio de démonstrations réelles.

2025-07-26T09:42:35+00:00 ― 9 min lire

Traitement de l'audio et de la parole Avancées dans la détection des événements sonores pour 2024

De nouvelles méthodes améliorent la précision dans la reconnaissance des sons qui se chevauchent à partir de diverses sources audio.

2025-07-26T07:16:50+00:00 ― 8 min lire

Calcul et langage Améliorer la correction des erreurs de parole dans les systèmes de reconnaissance vocale

Une nouvelle méthode combine des caractéristiques acoustiques et des scores de confiance pour une meilleure correction des erreurs.

2025-07-25T20:45:15+00:00 ― 6 min lire

Cryptographie et sécurité Protéger les voix à l'ère des deepfakes

SecureSpectra propose une nouvelle façon de protéger l'identité audio contre les menaces des deepfakes.

2025-07-25T16:42:20+00:00 ― 7 min lire

Apprentissage automatique Avancées dans la prédiction de la diffusion acoustique avec PGI-DeepONet

Combiner la physique et la géométrie pour améliorer les prévisions de diffusion acoustique.

2025-07-25T15:54:09+00:00 ― 7 min lire

Calcul et langage Avancées dans les systèmes de traduction vocale en temps réel

Un nouveau système pour une traduction rapide et précise de la parole dans plusieurs langues.

2025-07-25T15:05:10+00:00 ― 7 min lire

Son Nouvelle méthode pour la création de voix dans la synthèse vocale

Une méthode simple pour créer des voix et contrôler les émotions dans la synthèse vocale.

2025-07-25T14:16:35+00:00 ― 7 min lire

Son Avancées dans la séparation de sources musicales en temps réel

Améliorer MMDenseNet pour une séparation musicale rapide et efficace.

2025-07-25T12:39:25+00:00 ― 7 min lire

Calcul et langage Progrès dans les systèmes de dialogue parlé

Une nouvelle méthode améliore le dialogue machine grâce à des données pseudo-stéréo.

2025-07-25T08:36:30+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale chinoise grâce à la régularisation du pinyin

Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.

2025-07-25T07:47:55+00:00 ― 9 min lire

Son Avancée de la technologie des haut-parleurs et contrôle du son

Des techniques innovantes améliorent la conception des haut-parleurs et la direction du son.

2025-07-25T06:10:45+00:00 ― 5 min lire

Son Analyse des techniques de détection d'audio deepfake

Cette étude se concentre sur l'amélioration de la détection des faux audios en utilisant des méthodes avancées.

2025-07-25T02:56:25+00:00 ― 6 min lire

Son Approches innovantes pour créer de la musique avec la technologie

Utiliser des interfaces visuelles et des modèles pour améliorer la génération de musique.

2025-07-25T00:30:40+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Approche innovante pour la génération automatique d'effets sonores

Un nouveau cadre pour créer des effets sonores synchronisés dans des vidéos.

2025-07-24T23:42:05+00:00 ― 7 min lire

Son Améliorer la diarisation des locuteurs avec des embeddings de locuteur

Une étude sur l'amélioration de la segmentation audio en intégrant des embeddings de locuteurs.

2025-07-24T21:16:20+00:00 ― 7 min lire

Son Une nouvelle méthode légère pour la technologie de synthèse vocale

Cet article présente un système TTS plus efficace qui s'adapte aux intervenants.

2025-07-24T20:27:45+00:00 ― 7 min lire

Calcul et langage Techniques innovantes en reconnaissance vocale pour les langues à faible ressources

De nouvelles méthodes améliorent les modèles de parole pour les langues avec peu de données.

2025-07-24T19:39:10+00:00 ― 7 min lire

Son L'importance de mesurer l'incertitude dans la reconnaissance des émotions dans la parole

Comprendre l'incertitude améliore la précision de la reconnaissance des émotions dans des situations réelles.

2025-07-24T17:13:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans les techniques d'alignement des phonèmes

Une nouvelle méthode améliore la précision de l'alignement des phonèmes pour différentes applications de la parole.

2025-07-24T10:44:45+00:00 ― 7 min lire

Calcul et langage Le défi linguistique de Nollywood : Rapprocher les dialectes

Une étude sur la traduction de l'anglais nigérian pour une meilleure accessibilité dans les films de Nollywood.

2025-07-24T04:16:05+00:00 ― 7 min lire

Calcul et langage Une nouvelle approche pour l'apprentissage de la représentation de la parole

Cet article présente un système à double encodeur pour un apprentissage efficace de la représentation de la parole.

2025-07-24T01:50:20+00:00 ― 7 min lire

Son Faire avancer le traitement musical symbolique avec MelodyT5

MelodyT5 propose une nouvelle approche pour créer et analyser de la musique en utilisant une notation symbolique.

2025-07-23T21:47:25+00:00 ― 7 min lire

Son Un jeu de données de musique synthétique vise à améliorer la classification des genres

Le dataset GTZAN-synth utilise de la musique synthétique pour améliorer les systèmes de tagging musical.

2025-07-23T17:44:30+00:00 ― 7 min lire

Traitement de l'audio et de la parole MelodyLM : L'avenir de la création de chansons

MelodyLM simplifie la création de musique en utilisant des entrées textuelles et vocales.

2025-07-23T16:55:55+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation du modèle SAVE pour la segmentation audio-visuelle

Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.

2025-07-23T16:07:20+00:00 ― 7 min lire

Calcul et langage Avancées dans la traduction parole-texte avec les LLMs

Nouveau modèle améliore la traduction de la parole en texte en utilisant des grands modèles de langage.

2025-07-23T08:01:30+00:00 ― 8 min lire

Son Nouveau modèle estime les mouvements de la bouche dans la parole

La recherche propose un modèle qui relie les enregistrements sonores aux mouvements de la bouche pour la parole.

2025-07-23T07:12:55+00:00 ― 8 min lire

Calcul et langage Wav2Vec2.0 et le son de la reconnaissance vocale

Cet article parle de comment Wav2Vec2.0 traite les sons de la parole en utilisant la phonologie.

2025-07-23T05:35:45+00:00 ― 7 min lire

Informatique - Son