Une nouvelle approche améliore la reconnaissance des phrases en code-switching dans le discours bilingue.
Xucheng Wan, Naijun Zheng, Kai Liu
― 7 min lire
La science de pointe expliquée simplement
Une nouvelle approche améliore la reconnaissance des phrases en code-switching dans le discours bilingue.
Xucheng Wan, Naijun Zheng, Kai Liu
― 7 min lire
Derniers articles
Junwon Lee, Jaekwon Im, Dabin Kim
― 10 min lire
Xujiang Xing, Mingxing Xu, Thomas Fang Zheng
― 6 min lire
Anastasia Avdeeva, Aleksei Gusev
― 7 min lire
Yen-Tung Yeh, Yu-Hua Chen, Yuan-Chiao Cheng
― 6 min lire
Nithya Shikarpur, Krishna Maneesha Dendukuri, Yusong Wu
― 8 min lire
Une nouvelle méthode pour modéliser avec précision des compresseurs optiques en utilisant des réseaux de neurones.
Riccardo Simionato, Stefano Fasciani
― 10 min lire
WhisperMask capte la voix clairement même dans des endroits bruyants, améliorant la communication.
Hirotaka Hiraki, Shusuke Kanazawa, Takahiro Miura
― 7 min lire
De nouvelles méthodes améliorent les évaluations de la qualité vocale pour les patients ayant des problèmes au niveau du système vocal.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 7 min lire
VoiceX simplifie la création de voix personnalisées pour plein d'applis.
Silvan Mertes, Daksitha Withanage Don, Otto Grothe
― 5 min lire
Examiner comment les patterns vocaux influencent le sens et la performance technologique.
Nigel G. Ward, Divette Marco, Olac Fuentes
― 6 min lire
NEST propose une approche plus rapide et efficace pour les tâches de parole auto-supervisées.
He Huang, Taejin Park, Kunal Dhawan
― 7 min lire
Les benchmarks actuels sous-estiment la capacité des modèles à relier les données audio et visuelles.
Liangyu Chen, Zihao Yue, Boshen Xu
― 6 min lire
Wav2Small améliore la détection des émotions dans la parole avec moins de ressources.
Dionyssos Kounadis-Bastian, Oliver Schrüfer, Anna Derington
― 6 min lire
Un aperçu des complexités pour identifier des pistes audio mixées.
Viola Negroni, Davide Salvi, Paolo Bestagini
― 8 min lire
Un aperçu des riches dialectes tamouls et des méthodes d'identification.
M. Nanmalar, P. Vijayalakshmi, T. Nagarajan
― 6 min lire
Une nouvelle méthode pour détecter les problèmes machines sans compromettre la vie privée des données.
Anbai Jiang, Yuchen Shi, Pingyi Fan
― 7 min lire
VoiceTailor transforme les systèmes TTS pour des sorties vocales efficaces et personnalisées.
Heeseung Kim, Sang-gil Lee, Jiheum Yeom
― 6 min lire
Apprends comment le son se propage dans les espaces et ses applications.
Shoichi Koyama, Juliano G. C. Ribeiro, Tomohiko Nakamura
― 8 min lire
StyleSpeech fait avancer les systèmes TTS en capturant les nuances de la parole naturelle.
Haowei Lou, Helen Paik, Wen Hu
― 7 min lire
Examiner des méthodes pour améliorer la clarté de la parole dans des environnements bruyants grâce à l'apprentissage profond.
Shrishti Saha Shetu, Emanuël A. P. Habets, Andreas Brendel
― 7 min lire
Le modèle DualSpeech améliore la clarté de la synthèse vocale et la ressemblance avec le locuteur.
Jinhyeok Yang, Junhyeok Lee, Hyeong-Seok Choi
― 7 min lire
Découvrez SONICS, un dataset conçu pour identifier la musique générée par IA avec précision.
Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker
― 11 min lire
De nouvelles méthodes améliorent la détection des faux audio dans des conditions réelles.
Xuechen Liu, Xin Wang, Junichi Yamagishi
― 5 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour l'hindi en utilisant des techniques de pseudo-étiquetage.
Kaushal Santosh Bhogale, Deovrat Mehendale, Niharika Parasa
― 6 min lire
EmoAttack utilise la conversion vocale émotionnelle pour exploiter les failles des systèmes de parole.
Wenhan Yao, Zedong XingXiarun Chen, Jia Liu
― 7 min lire
Cet article passe en revue des techniques pour l'analyse automatique des sons vocaux des suricates.
Imen Ben Mahmoud, Eklavya Sarkar, Marta Manser
― 7 min lire
Découvre comment les transformers transforment les systèmes de reconnaissance vocale à travers le monde.
Shruti Singh, Muskaan Singh, Virender Kadyan
― 9 min lire
Un nouveau modèle sépare le timbre et la structure pour une meilleure création audio.
Nils Demerlé, Philippe Esling, Guillaume Doras
― 9 min lire
Un nouveau système utilise la technologie pour classifier la maturité des noix de coco plus rapidement et avec plus de précision.
June Anne Caladcad, Eduardo Jr Piedad
― 7 min lire
Explorer comment le ton et le choix des mots façonnent notre compréhension du sarcasme.
Zhu Li, Xiyuan Gao, Yuqing Zhang
― 6 min lire
Une nouvelle méthode simplifie la création de jeux de données musicaux pour la transcription automatique.
S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan
― 8 min lire
Un aperçu des avancées en reconnaissance vocale grâce au défi VoxCeleb.
Jaesung Huh, Joon Son Chung, Arsha Nagrani
― 6 min lire
L'IA est en train de transformer la façon dont la musique est composée et vécue.
Sangjun Han, Jiwon Ham, Chaeeun Lee
― 8 min lire
Une nouvelle approche améliore la modélisation de la dysfluidité pour la thérapie et l'apprentissage des langues.
Jiachen Lian, Xuanru Zhou, Zoe Ezzes
― 7 min lire
Un aperçu du micro-batch clipping et ses avantages pour l'entraînement des modèles.
Lun Wang
― 7 min lire
Des recherches montrent comment les LLM améliorent la reconnaissance vocale automatique en japonais.
Yuka Ko, Sheng Li, Chao-Han Huck Yang
― 7 min lire
Des méthodes innovantes améliorent la sécurité des systèmes de reconnaissance vocale.
Oğuzhan Kurnaz, Selim Can Demirtaş, Aykut Büker
― 7 min lire
Un nouveau cadre améliore la classification audio en utilisant les connaissances des dispositifs multi-modaux.
Tiantian Feng, Tuo Zhang, Salman Avestimehr
― 6 min lire
Une nouvelle approche améliore la clarté des communications en réduisant l'écho et le bruit de fond.
Shrishti Saha Shetu, Naveen Kumar Desiraju, Jose Miguel Martinez Aponte
― 6 min lire
VoxInstruct combine le contenu et le style pour une génération de discours plus naturelle.
Yixuan Zhou, Xiaoyu Qin, Zeyu Jin
― 6 min lire
Un aperçu de la mesure de la précision dans les systèmes de reconnaissance vocale avec de nouvelles méthodes.
Korbinian Kuhn, Verena Kersken, Gottfried Zimmermann
― 7 min lire
Une nouvelle méthode améliore la précision de la reconnaissance vocale dans plusieurs langues.
Yiyang Zhao, Shuai Wang, Guangzhi Sun
― 7 min lire
Explorer une nouvelle approche pour améliorer la qualité de la parole en utilisant des fenêtres temporelles contextuelles.
Luan Vinícius Fiorio, Boris Karanov, Bruno Defraene
― 7 min lire
Des méthodes récentes améliorent le tatouage audio pour une meilleure qualité sonore et gestion des droits d'auteur.
Martin Moritz, Toni Olán, Tuomas Virtanen
― 6 min lire
Une nouvelle méthode pour améliorer la qualité de la conversion vocale en temps réel.
Anders R. Bargum, Simon Lajboschitz, Cumhur Erkut
― 7 min lire