Un aperçu des technologies de détection de mots-clés et de leurs défis avec la langue ourdou.
Syed Muhammad Aqdas Rizvi
― 8 min lire
La science de pointe expliquée simplement
Un aperçu des technologies de détection de mots-clés et de leurs défis avec la langue ourdou.
Syed Muhammad Aqdas Rizvi
― 8 min lire
Une étude sur comment les choix de design impactent les modèles de fond de parole.
Li-Wei Chen, Takuya Higuchi, He Bai
― 9 min lire
Cet article parle des méthodes pour améliorer la reconnaissance vocale pour les discours accentués.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 min lire
Cette étude aborde les défis des modèles audio pour les langues à faibles ressources.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 min lire
Améliorer la synthèse vocale dans les langues indiennes en utilisant des unités inter-pausales.
Anusha Prakash, Hema A Murthy
― 8 min lire
CADA-GAN améliore la performance des systèmes ASR dans différents environnements d'enregistrement.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 7 min lire
Llama-AVSR combine l'audio et les visuels pour améliorer la précision de la reconnaissance vocale.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 8 min lire
Une nouvelle méthode utilise l'ombre virtuelle pour améliorer le retour sur la prononciation des apprenants en langues.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 7 min lire
Une nouvelle méthode ASR aide la technologie à mieux comprendre la parole des enfants.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 7 min lire
YOSS utilise l'audio pour améliorer l'identification des objets dans les images.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 5 min lire
Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale et s'adapte à différents tâches de parole.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 min lire
De nouvelles méthodes améliorent la reconnaissance vocale pour les langues à faibles ressources sans texte.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 6 min lire
De nouvelles méthodes améliorent la précision des systèmes de reconnaissance vocale grâce à une compréhension phonétique.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 7 min lire
De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
Muhammad A. Shah, Bhiksha Raj
― 6 min lire
Nouveau modèle permet une transcription vocale plus rapide sans sacrifier la précision.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 min lire
Le nouveau modèle VoiceGuider améliore la TTS pour les voix variées.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour les longs enregistrements.
Hao Yen, Shaoshi Ling, Guoli Ye
― 6 min lire
Une nouvelle méthode pour les modèles de langage parlés réduit le besoin de données massives.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 8 min lire
Comment de nouvelles méthodes transforment l'identification des locuteurs dans les enregistrements audio.
Petr Pálka, Federico Landini, Dominik Klement
― 7 min lire
Apprends comment TSE améliore la reconnaissance vocale dans les environnements bruyants en utilisant des indices textuels.
Ziyang Jiang, Xinyuan Qian, Jiahe Lei
― 6 min lire
Les assistants vocaux aident à repérer les premiers signes de problèmes de mémoire chez les personnes âgées.
Nana Lin, Youxiang Zhu, Xiaohui Liang
― 9 min lire
Mamba améliore la reconnaissance vocale avec rapidité et précision, redéfinissant l'interaction avec les appareils.
Yoshiki Masuyama, Koichi Miyazaki, Masato Murata
― 5 min lire
Une nouvelle méthode améliore la clarté de la parole en utilisant des infos visuelles de l'environnement.
Xinyuan Qian, Jiaran Gao, Yaodan Zhang
― 6 min lire
SAMOS propose une nouvelle façon de mesurer la qualité de la parole, en améliorant le naturel.
Yu-Fei Shi, Yang Ai, Ye-Xin Lu
― 7 min lire
Tiny-Align améliore les assistants vocaux pour une meilleure interaction personnelle sur les petits appareils.
Ruiyang Qin, Dancheng Liu, Gelei Xu
― 7 min lire
Présentation de VQalAttent, un modèle plus simple pour générer des discours machine réalistes.
Armani Rodriguez, Silvija Kokalj-Filipovic
― 6 min lire
Un nouveau système ASR améliore la reconnaissance vocale médicale pour un soin des patients précis.
Sourav Banerjee, Ayushi Agarwal, Promila Ghosh
― 8 min lire
Explorer comment les modèles ASR aident à identifier efficacement les deepfakes vocaux.
Davide Salvi, Amit Kumar Singh Yadav, Kratika Bhagtani
― 9 min lire
Suit à des conférenciers dans des environnements multilingues grâce à la reconnaissance vocale automatique.
Thai-Binh Nguyen, Alexander Waibel
― 8 min lire
Améliorer la transcription automatique pour mieux comprendre les troubles de la parole.
Jiachen Lian, Xuanru Zhou, Zoe Ezzes
― 7 min lire
Un nouveau modèle améliore significativement la précision de la reconnaissance vocale chinoise.
Junhong Liang
― 7 min lire
Noro améliore la conversion vocale, la rendant efficace même dans des environnements bruyants.
Haorui He, Yuchen Song, Yuancheng Wang
― 7 min lire
Un nouveau chatbot qui propose des conversations comme des humains avec une conscience émotionnelle.
Aohan Zeng, Zhengxiao Du, Mingdao Liu
― 3 min lire
Découvre comment l'évaluation sans style améliore les systèmes de reconnaissance automatique de la parole.
Quinten McNamara, Miguel Ángel del Río Fernández, Nishchal Bhandari
― 9 min lire
Apprends comment le dropout adaptatif améliore l'efficacité des systèmes de reconnaissance vocale.
Yotaro Kubo, Xingyu Cai, Michiel Bacchiani
― 9 min lire
Des recherches testent la capacité de l'IA à communiquer avec les enfants comme le feraient des parents.
Jing Liu, Abdellah Fourtassi
― 7 min lire
Un outil de reconnaissance vocale transforme facilement les maths parlées en LaTeX.
Evangelia Gkritzali, Panagiotis Kaliosis, Sofia Galanaki
― 7 min lire
Révolutionner la synthèse vocale avec des voix plus naturelles et une meilleure efficacité.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 7 min lire