De nouveaux modèles identifient la voix synthétique et luttent contre l'utilisation abusive de la technologie vocale.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 7 min lire
La science de pointe expliquée simplement
De nouveaux modèles identifient la voix synthétique et luttent contre l'utilisation abusive de la technologie vocale.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 7 min lire
TAME utilise le son pour détecter les drones, améliorant la sécurité et la surveillance.
Zhenyuan Xiao, Huanran Hu, Guili Xu
― 7 min lire
Découvrez comment CAMEL améliore la compréhension des conversations en langues mélangées.
He Wang, Xucheng Wan, Naijun Zheng
― 7 min lire
Des recherches montrent que l'activité cérébrale peut aider les machines à reconnaître la musique efficacement.
Taketo Akama, Zhuohao Zhang, Pengcheng Li
― 8 min lire
La technologie audio offre un moyen économique de suivre les UAVs en toute sécurité.
Allen Lei, Tianchen Deng, Han Wang
― 7 min lire
Une nouvelle méthode d'IA analyse les voix pour détecter le risque de cancer du larynx.
Mary Paterson, James Moor, Luisa Cutillo
― 9 min lire
Découvrez comment la synthèse vidéo-audio transforme nos expériences médias avec un son parfaitement aligné.
Ho Kei Cheng, Masato Ishii, Akio Hayakawa
― 9 min lire
Un nouveau système révolutionne la façon dont les designers sonores créent des audio pour les vidéos.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 10 min lire
Un aperçu de comment l'amélioration de la parole booste la communication grâce aux caractéristiques des données.
Leying Zhang, Wangyou Zhang, Chenda Li
― 10 min lire
De nouvelles méthodes améliorent les systèmes ASR pour des langues qu'ils n'ont jamais rencontrées avant.
Shao-Syuan Huang, Kuan-Po Huang, Andy T. Liu
― 8 min lire
Découvrez comment la tech TTA fusionne mots et sons pour des expériences audio plus riches.
Yuhang He, Yash Jain, Xubo Liu
― 9 min lire
Des chercheurs améliorent la reconnaissance vocale en suisse-allemand grâce à une génération de données innovante.
Vincenzo Timmel, Claudio Paonessa, Reza Kakooee
― 8 min lire
Une nouvelle méthode améliore la synchronisation labiale dans les vidéos doublées pour une expérience de visionnage plus naturelle.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 8 min lire
Découvrez comment Whisper améliore la reconnaissance vocale dans les conversations multilingues.
Jiahui Zhao, Hao Shi, Chenrui Cui
― 6 min lire
Découvrez comment SpeechRAG améliore la réponse aux questions audio sans erreurs ASR.
Do June Min, Karel Mundnich, Andy Lapastora
― 7 min lire
Une nouvelle approche rend la reconnaissance sonore plus accessible et efficace.
Noriyuki Tonami, Wataru Kohno, Keisuke Imoto
― 8 min lire
Apprends comment l'anonymisation vocale protège les infos perso dans un monde dominé par la tech.
Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi
― 7 min lire
Fusion des indices audio et visuels pour améliorer la reconnaissance vocale dans des environnements bruyants.
Zhaofeng Lin, Naomi Harte
― 7 min lire
La technologie d'amélioration de la parole s'adapte pour réduire le bruit et améliorer la communication.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 6 min lire
Une nouvelle tech combine le son et les visuels pour une meilleure détection des drones.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 8 min lire
Une nouvelle approche combine la parole et le texte pour de meilleures évaluations de la dysarthrie.
Anuprabha M, Krishna Gurugubelli, Kesavaraj V
― 7 min lire
Explorer des nouvelles technologies qui détectent des sons provenant de sources invisibles.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min lire
Découvrez comment Smooth-Foley améliore la génération audio pour les vidéos.
Yaoyun Zhang, Xuenan Xu, Mengyue Wu
― 7 min lire
Une technique innovante relie les paroles et les mélodies pour créer de meilleures chansons.
Jiaxing Yu, Xinda Wu, Yunfei Xu
― 8 min lire
Améliorer la compréhension par les machines des dynamiques de tour de parole dans les dialogues humains.
Hyunbae Jeon, Frederic Guintu, Rayvant Sahni
― 10 min lire
Explorer comment la langue influence la précision de détection des DeepFake dans différentes langues.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 7 min lire
VERSA évalue efficacement la qualité de la parole, de l'audio et de la musique.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 11 min lire
Découvrez comment les modèles audio-linguistiques transforment la technologie de reconnaissance sonore.
Gongyu Chen, Haomin Zhang, Chaofan Ding
― 7 min lire
De nouvelles méthodes améliorent le dialogue naturel dans la technologie de la parole.
Zhenqi Jia, Rui Liu
― 7 min lire
Découvrez comment SpeechSSM transforme la génération de discours long pour de meilleures interactions.
Se Jin Park, Julian Salazar, Aren Jansen
― 6 min lire
Découvrez comment la traduction en temps réel transforme la communication entre les langues.
Sara Papi, Peter Polak, Ondřej Bojar
― 7 min lire
Un modèle léger conçu pour séparer efficacement les discours mélangés dans des environnements bruyants.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 7 min lire
Des chercheurs s'attaquent au spoofing audio pour améliorer la sécurité de la reconnaissance vocale.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 11 min lire
Découvrez comment l'AV-ASR combine audio et visuels pour améliorer la reconnaissance vocale.
Yihan Wu, Yichen Lu, Yifan Peng
― 7 min lire
Une nouvelle méthode transforme la façon dont les machines apprennent de la musique.
Julien Guinot, Elio Quinton, György Fazekas
― 8 min lire
Une nouvelle technologie transforme les murmures silencieux en communication audible pour ceux qui en ont besoin.
Neil Shah, Shirish Karande, Vineet Gandhi
― 7 min lire
De nouvelles méthodes en synthèse vocale améliorent la clarté et l'adaptabilité pour des applications variées.
Neil Shah, Ayan Kashyap, Shirish Karande
― 9 min lire
Découvre la riche tradition des chants de l'Église orthodoxe éthiopienne Tewahedo.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Li Su
― 8 min lire
Un nouveau dataset met en avant la beauté des chants orthodoxes éthiopiens.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Worku Abebe Degife
― 9 min lire
De nouvelles avancées aident la technologie de reconnaissance vocale à mieux servir les personnes ayant des troubles de la parole.
Jimmy Tobin, Katrin Tomanek, Subhashini Venugopalan
― 8 min lire