Les modèles de reconnaissance vocale évoluent avec la prédiction multi-token pour des réponses plus rapides.
Desh Raj, Gil Keren, Junteng Jia
― 6 min lire
La science de pointe expliquée simplement
Les modèles de reconnaissance vocale évoluent avec la prédiction multi-token pour des réponses plus rapides.
Desh Raj, Gil Keren, Junteng Jia
― 6 min lire
Derniers articles
Michael Ong, Sean Robertson, Leo Peckham
― 6 min lire
Wangjin Zhou, Fengrun Zhang, Yiming Liu
― 7 min lire
Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen
― 6 min lire
Shakeel A. Sheikh, Yacouba Kaloga, Md Sahidullah
― 6 min lire
Beilong Tang, Bang Zeng, Ming Li
― 7 min lire
La recherche associe des peintures à de la musique en interprétant les émotions.
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 8 min lire
Une étude sur l'utilisation des modèles de langue pour corriger les erreurs dans les systèmes de reconnaissance vocale.
Zhiyuan Tang, Dong Wang, Shen Huang
― 7 min lire
FLAMO simplifie le traitement audio grâce à des techniques différentiables et à l'échantillonnage de fréquence.
Gloria Dal Santo, Gian Marco De Bortoli, Karolina Prawda
― 7 min lire
Une nouvelle méthode améliore la détection automatique des problèmes de parole liés à la maladie de Parkinson.
Yacouba Kaloga, Shakeel A. Sheikh, Ina Kodrasi
― 6 min lire
Une nouvelle méthode améliore les systèmes ASR pour une meilleure communication en classe.
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi
― 6 min lire
Cet article examine comment des entrées variées peuvent améliorer la précision de la reconnaissance vocale.
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 6 min lire
Un système qui rend la création musicale facile et accessible pour tous les niveaux de compétence.
Ye Bai, Haonan Chen, Jitong Chen
― 8 min lire
ReCLAP améliore la classification audio avec des indications détaillées pour plus de précision.
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru
― 6 min lire
Un projet vise à améliorer la technologie de la parole pour ceux qui ont des difficultés de communication.
Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek
― 7 min lire
MambaFoley révolutionne la synthèse sonore Foley avec un timing et un réalisme améliorés.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 7 min lire
Un nouveau système améliore la précision des accents dans la synthèse vocale pour une meilleure communication.
Jinzuomu Zhong, Korin Richmond, Zhiba Su
― 7 min lire
L'utilisation des embeddings CLAP améliore considérablement les systèmes de recommandation musicale.
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer
― 9 min lire
Une étude explore le développement de l'ASR pour l'Amis et le Seediq, en se concentrant sur l'utilisation des données.
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee
― 9 min lire
LLaQo propose des retours super détaillés pour évaluer les performances musicales, ce qui booste l'apprentissage des élèves.
Huan Zhang, Vincent Cheung, Hayato Nishioka
― 6 min lire
Des chercheurs développent de nouvelles stratégies pour distinguer les animaux individuels grâce à leurs sons uniques.
Ines Nolasco, Ilyass Moummad, Dan Stowell
― 7 min lire
Une nouvelle méthode simplifie la détection des sirènes pour améliorer la sécurité des véhicules.
Stefano Damiano, Thomas Dietzen, Toon van Waterschoot
― 7 min lire
Une nouvelle approche combine la détection d'événements sonores et la diarisation des locuteurs pour une meilleure compréhension audio.
Yidi Jiang, Ruijie Tao, Wen Huang
― 6 min lire
Une nouvelle approche améliore la reconnaissance vocale en se concentrant sur des détails spécifiques des locuteurs.
Alexander Polok, Dominik Klement, Matthew Wiesner
― 7 min lire
Une étude qui révèle comment les modèles d'apprentissage profond reconnaissent les émotions dans la voix.
Satvik Dixit, Daniel M. Low, Gasser Elbanna
― 6 min lire
Un outil facile à utiliser pour peaufiner des modèles de parole sans code compliqué.
Masao Someki, Kwanghee Choi, Siddhant Arora
― 8 min lire
De nouvelles méthodes améliorent l'isolation sonore des environnements bruyants sans données étiquetées.
Hao Ma, Zhiyuan Peng, Xu Li
― 7 min lire
Une nouvelle approche s'attaque à la variation de canal dans les systèmes de reconnaissance vocale.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 7 min lire
Une nouvelle méthode améliore la reconnaissance vocale des machines pour la vérification des locuteurs.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 7 min lire
Un nouveau modèle améliore la génération audio en utilisant des textes et des sons de référence détaillés.
Chenxu Xiong, Ruibo Fu, Shuchen Shi
― 8 min lire
L'intelligence artificielle est en train de transformer la musique avec de nouveaux outils et des approches.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 8 min lire
MaskSR2 améliore la clarté et la qualité de la voix grâce à des techniques innovantes.
Xiaoyu Liu, Xu Li, Joan Serrà
― 6 min lire
Une nouvelle méthode pour générer de la parole accentuée en utilisant la translittération du texte.
Sho Inoue, Shuai Wang, Wanxing Wang
― 8 min lire
E1 TTS transforme le texte en parole naturelle plus rapidement et plus efficacement.
Zhijun Liu, Shuai Wang, Pengcheng Zhu
― 6 min lire
Wave-U-Mamba améliore les enregistrements vocaux de mauvaise qualité pour une communication plus claire.
Yongjoon Lee, Chanwoo Kim
― 6 min lire
Un nouveau système prédit des scores de naturel pour la parole synthétique en utilisant des méthodes innovantes.
Kaito Baba, Wataru Nakata, Yuki Saito
― 7 min lire
Une nouvelle méthode utilise l'audio pour améliorer la précision de la prononciation des machines.
Siqi Sun, Korin Richmond
― 7 min lire
De nouvelles méthodes améliorent la synchronisation audio avec les scènes vidéo qui changent.
Mingjing Yi, Ming Li
― 5 min lire
Explorer le défi GenSEC pour améliorer la précision de la transcription vocale.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 6 min lire
Une nouvelle méthode d'évaluation pour la schizophrénie utilisant des données multimodales.
Gowtham Premananth, Carol Espy-Wilson
― 7 min lire
De nouvelles méthodes aident les machines à mieux interpréter les sons individuels.
Sripathi Sridhar, Mark Cartwright
― 7 min lire
Un aperçu des technologies de détection de mots-clés et de leurs défis avec la langue ourdou.
Syed Muhammad Aqdas Rizvi
― 8 min lire
Des recherches montrent les galères avec la reconnaissance vocale des transmissions radio de la police.
Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff
― 9 min lire
PDMX propose une énorme collection de musique symbolique dans le domaine public pour le développement de l'IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 8 min lire
Une étude montre que les i-vectors peuvent rivaliser avec des modèles complexes dans la reconnaissance vocale.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 min lire
Une étude sur comment les choix de design impactent les modèles de fond de parole.
Li-Wei Chen, Takuya Higuchi, He Bai
― 9 min lire