Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 min lire
La science de pointe expliquée simplement
Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale et s'adapte à différents tâches de parole.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 min lire
De nouvelles méthodes sont nécessaires pour détecter les technologies de discours deepfake avancées.
Lam Pham, Phat Lam, Dat Tran
― 8 min lire
De nouvelles méthodes améliorent la précision pour identifier les sons des animaux à partir de données limitées.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 6 min lire
Une nouvelle méthode améliore l'intégration sonore virtuelle dans les environnements AR.
Francesc Lluís, Nils Meyer-Kahlen
― 8 min lire
Une nouvelle méthode vise à préserver la vie privée de la voix tout en permettant une communication efficace.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 min lire
De nouvelles méthodes améliorent la reconnaissance vocale pour les langues à faibles ressources sans texte.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 6 min lire
De nouvelles méthodes améliorent la précision des systèmes de reconnaissance vocale grâce à une compréhension phonétique.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 7 min lire
Ce cadre améliore les animations en temps réel en synchronisant la parole et les gestes sans problème.
Zixin Guo, Jian Zhang
― 6 min lire
De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
Muhammad A. Shah, Bhiksha Raj
― 6 min lire
Une nouvelle fonction de perte améliore la qualité audio en alignant la phase et l'amplitude.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 7 min lire
Un nouveau modèle de TTS ajoute de la profondeur émotionnelle à la parole générée par ordinateur.
Yunji Chu, Yunseob Shim, Unsang Park
― 7 min lire
Évaluer des modèles de reconnaissance vocale pour des sessions de diagnostic de l'autisme.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 8 min lire
Des méthodes récentes améliorent la clarté et la qualité du son en utilisant des modèles avancés.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 8 min lire
Une nouvelle approche améliore la détection des faux enregistrements audio.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 6 min lire
ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 9 min lire
Explorer des méthodes pour adapter les RNN aux taux d'échantillonnage audio variables.
Alistair Carson, Alec Wright, Stefan Bilbao
― 7 min lire
Nouveau modèle permet une transcription vocale plus rapide sans sacrifier la précision.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 min lire
Présentation de NanoVoice, un modèle de synthèse vocale rapide et efficace pour un audio personnalisé.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 7 min lire
Le nouveau modèle VoiceGuider améliore la TTS pour les voix variées.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min lire
Une nouvelle méthode pour traduire des voix à travers les langues tout en gardant leurs caractéristiques uniques.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 7 min lire
De nouvelles techniques améliorent la qualité de la parole expressive chez différents locuteurs.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 7 min lire
Cet article explore le rôle des métriques perceptuelles dans la classification des genres musicaux.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 6 min lire
Une nouvelle méthode améliore le traitement de la parole et de l'audio dans plusieurs tâches.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 7 min lire
Un nouveau système améliore l'identification des intervenants lors de discussions avec plusieurs participants.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 6 min lire
Un nouveau cadre améliore l'expression émotionnelle dans les systèmes TTS.
Kun Zhou, You Zhang, Shengkui Zhao
― 7 min lire
Des découvertes récentes montrent que les capteurs de pression peuvent être utilisés pour espionner.
Yonatan Gizachew Achamyeleh, Mohamad Habib Fakih, Gabriel Garcia
― 5 min lire
Un nouvel algorithme améliore la détection d'événements sonores en utilisant l'apprentissage auto-supervisé.
Pengfei Cai, Yan Song, Nan Jiang
― 7 min lire
La recherche se concentre sur l'amélioration des méthodes pour détecter des discours fake réalistes.
Davide Salvi, Viola Negroni, Luca Bondi
― 6 min lire
Une nouvelle méthode simplifie la création audio et vidéo pour une meilleure synchronisation.
Masato Ishii, Akio Hayakawa, Takashi Shibuya
― 7 min lire
Contrôle les effets audio avec des descriptions simples pour des ajustements de son plus faciles.
Annie Chu, Patrick O'Reilly, Julia Barnett
― 7 min lire
Présentation d'un nouveau modèle et d'une référence pour évaluer les tâches multi-audio.
Yiming Chen, Xianghu Yue, Xiaoxue Gao
― 7 min lire
Un nouveau système modélise l'intensité émotionnelle des personnages animés pour un réalisme accru.
Jingyi Xu, Hieu Le, Zhixin Shu
― 7 min lire
OpenSep automatise la séparation audio pour des expériences sonores plus claires sans intervention manuelle.
Tanvir Mahmud, Diana Marculescu
― 8 min lire
PALM améliore la reconnaissance audio en optimisant la représentation des invites et l'efficacité.
Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi
― 6 min lire
Explore comment les tours de fil et l'épaisseur influencent le son des micros de guitare.
Charles Batchelor, Jack Gooding, William Marriott
― 9 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour les longs enregistrements.
Hao Yen, Shaoshi Ling, Guoli Ye
― 6 min lire
Cette étude analyse comment l'audio, la vidéo et le texte fonctionnent ensemble dans la reconnaissance vocale.
Chen Chen, Xiaolou Li, Zehua Liu
― 9 min lire
Un nouveau modèle améliore la naturalité des systèmes de synthèse vocale en analysant les motifs de hauteur.
Tomilov A. A., Gromova A. Y., Svischev A. N
― 6 min lire