Cet article parle des méthodes pour améliorer la reconnaissance vocale pour les discours accentués.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 min lire
La science de pointe expliquée simplement
Cet article parle des méthodes pour améliorer la reconnaissance vocale pour les discours accentués.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 min lire
Une nouvelle méthode améliore l'interprétabilité de la détection de discours truqué.
Manasi Chhibber, Jagabandhu Mishra, Hyejin Shim
― 6 min lire
Un aperçu du nouveau système TTS à une seule étape qui améliore la génération de la parole.
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh
― 8 min lire
Cette étude aborde les défis des modèles audio pour les langues à faibles ressources.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 min lire
Cette étude améliore les systèmes de reconnaissance des émotions pour les langues moins courantes en utilisant des données à forte ressource.
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou
― 9 min lire
Un modèle améliore les tâches de parole dans des environnements multilingues, en s'attaquant aux défis du code-switching.
Jing Xu, Daxin Tan, Jiaqi Wang
― 7 min lire
Améliorer la synthèse vocale dans les langues indiennes en utilisant des unités inter-pausales.
Anusha Prakash, Hema A Murthy
― 8 min lire
DeFT-Mamba améliore la séparation et la classification des sons dans des environnements bruyants.
Dongheon Lee, Jung-Woo Choi
― 6 min lire
CADA-GAN améliore la performance des systèmes ASR dans différents environnements d'enregistrement.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 7 min lire
EVA combine des signaux audio et visuels pour une meilleure précision de reconnaissance vocale.
Yihan Wu, Yifan Peng, Yichen Lu
― 5 min lire
Un nouveau cadre simplifie la reconnaissance vocale dans des environnements bruyants.
Jinhan Wang, Weiqing Wang, Kunal Dhawan
― 6 min lire
Llama-AVSR combine l'audio et les visuels pour améliorer la précision de la reconnaissance vocale.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 8 min lire
WMCodec améliore le marquage audio pour plus de sécurité et d'authenticité.
Junzuo Zhou, Jiangyan Yi, Yong Ren
― 6 min lire
De nouveaux modèles s'attaquent à la classification sonore avec peu de données d'entraînement.
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai
― 7 min lire
Une nouvelle méthode améliore la détection des faux audios en utilisant des modèles préentraînés.
Zhiyong Wang, Ruibo Fu, Zhengqi Wen
― 7 min lire
Une nouvelle méthode améliore la qualité et l'efficacité de la génération de discours.
Xin Qi, Ruibo Fu, Zhengqi Wen
― 6 min lire
Une méthode qui combine des données étiquetées et non étiquetées améliore la détection des sources sonores.
Vadim Rozenfeld, Bracha Laufer Goldshtein
― 7 min lire
Découvrez comment les sons aident les joueurs de ping-pong.
Thomas Gossard, Julian Schmalzl, Andreas Ziegler
― 7 min lire
Un système qui met la mélodie en avant tout en permettant de contrôler la génération de musique orchestrale.
Dinh-Viet-Toan Le, Yi-Hsuan Yang
― 7 min lire
Une nouvelle méthode utilise l'ombre virtuelle pour améliorer le retour sur la prononciation des apprenants en langues.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 7 min lire
De nouvelles méthodes améliorent la qualité audio binaurale dans des environnements sonores difficiles.
Ami Berger, Vladimir Tourbabin, Jacob Donley
― 10 min lire
Une nouvelle méthode ASR aide la technologie à mieux comprendre la parole des enfants.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 7 min lire
Le compositeur utilise des invites textuelles pour créer des compositions musicales complexes en format MIDI.
Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara
― 7 min lire
Une ressource pour étudier les motifs de chant dans la musique des idoles japonaises.
Hitoshi Suda, Shunsuke Yoshida, Tomohiko Nakamura
― 8 min lire
ViolinDiff améliore le réalisme de la musique de violon générée par ordinateur.
Daewoong Kim, Hao-Wen Dong, Dasaem Jeong
― 6 min lire
Combiner des caractéristiques améliore la précision de la classification des sons sous-marins.
Amirmohammad Mohammadi, Iren'e Masabarakiza, Ethan Barnes
― 8 min lire
L'apprentissage par transfert améliore la classification audio pour la détection des sons sous-marins.
Amirmohammad Mohammadi, Tejashri Kelhe, Davelle Carreiro
― 8 min lire
La technologie de l'IA change le paysage des arnaques par vishing, ce qui augmente les risques pour les gens.
João Figueiredo, Afonso Carvalho, Daniel Castro
― 7 min lire
Un nouveau modèle crée de l'audio qui correspond à la vidéo, améliorant les expériences médiales.
Ilpo Viertola, Vladimir Iashin, Esa Rahtu
― 6 min lire
Une méthode pour améliorer la reconnaissance vocale automatique en mélangeant des listes de mots-clés avec des modèles de langue.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 6 min lire
Une étude sur les techniques d'imitation vocale utilisant la technologie pour améliorer la communication.
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum
― 6 min lire
Apprends à entraîner des modèles de parole de manière efficace avec moins de ressources étiquetées.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 9 min lire
Une analyse de la terminologie de genre dans la technologie de la parole et ses implications sociétales.
Ariadna Sanchez, Alice Ross, Nina Markl
― 9 min lire
Un nouveau cadre améliore la détection des événements sonores qui se chevauchent dans des environnements audio complexes.
Han Yin, Jisheng Bai, Yang Xiao
― 8 min lire
Recherche sur l'amélioration de l'identification des sons d'oiseaux grâce aux techniques d'apprentissage automatique.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 8 min lire
Une nouvelle méthode améliore la création automatique de covers de piano en utilisant la technologie de transcription musicale existante.
Kazuma Komiya, Yoshihisa Fukuhara
― 8 min lire
Un aperçu des résultats du défi Codec-SUPERB et des métriques de performance des codecs.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 6 min lire
Le projet MultiMed améliore la reconnaissance vocale automatique pour une meilleure communication dans le domaine de la santé.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 7 min lire
Une nouvelle approche pour évaluer la qualité audio sans avoir besoin de références propres.
Jozef Coldenhoff, Milos Cernak
― 8 min lire
Le cadre ECHO améliore la précision de la classification sonore en utilisant des étiquettes structurées et un processus d'apprentissage en deux étapes.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 6 min lire