Une étude sur les techniques d'imitation vocale utilisant la technologie pour améliorer la communication.
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum
― 6 min lire
La science de pointe expliquée simplement
Une étude sur les techniques d'imitation vocale utilisant la technologie pour améliorer la communication.
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum
― 6 min lire
Apprends à entraîner des modèles de parole de manière efficace avec moins de ressources étiquetées.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 9 min lire
Une analyse de la terminologie de genre dans la technologie de la parole et ses implications sociétales.
Ariadna Sanchez, Alice Ross, Nina Markl
― 9 min lire
Un nouveau cadre améliore la détection des événements sonores qui se chevauchent dans des environnements audio complexes.
Han Yin, Jisheng Bai, Yang Xiao
― 8 min lire
Recherche sur l'amélioration de l'identification des sons d'oiseaux grâce aux techniques d'apprentissage automatique.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 8 min lire
Une nouvelle méthode améliore la création automatique de covers de piano en utilisant la technologie de transcription musicale existante.
Kazuma Komiya, Yoshihisa Fukuhara
― 8 min lire
Un aperçu des résultats du défi Codec-SUPERB et des métriques de performance des codecs.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 6 min lire
Le projet MultiMed améliore la reconnaissance vocale automatique pour une meilleure communication dans le domaine de la santé.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 7 min lire
Une nouvelle approche pour évaluer la qualité audio sans avoir besoin de références propres.
Jozef Coldenhoff, Milos Cernak
― 8 min lire
Le cadre ECHO améliore la précision de la classification sonore en utilisant des étiquettes structurées et un processus d'apprentissage en deux étapes.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 6 min lire
Une nouvelle méthode améliore la clarté de la parole en intégrant des infos visuelles.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 6 min lire
Une nouvelle méthode améliore l'estimation de la direction du son pour les intervenants en mouvement dans des environnements difficiles.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 10 min lire
La récupération de moments audio permet de repérer des moments précis dans de longs enregistrements.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 6 min lire
Safe Guard détecte les discours haineux en temps réel pendant les interactions vocales en VR sociale.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 7 min lire
L'IA évolue pour avoir des conversations plus naturelles.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 min lire
Une nouvelle approche utilise l'IRM en temps réel pour visualiser les mouvements de production de la parole.
Hong Nguyen, Sean Foley, Kevin Huang
― 7 min lire
Une nouvelle méthode pour détecter les réflexions de salle précoces améliore les expériences audio.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 9 min lire
Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale et s'adapte à différents tâches de parole.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 min lire
De nouvelles méthodes sont nécessaires pour détecter les technologies de discours deepfake avancées.
Lam Pham, Phat Lam, Dat Tran
― 8 min lire
De nouvelles méthodes améliorent la précision pour identifier les sons des animaux à partir de données limitées.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 6 min lire
Une nouvelle méthode améliore l'intégration sonore virtuelle dans les environnements AR.
Francesc Lluís, Nils Meyer-Kahlen
― 8 min lire
Une nouvelle méthode vise à préserver la vie privée de la voix tout en permettant une communication efficace.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 min lire
De nouvelles méthodes améliorent la reconnaissance vocale pour les langues à faibles ressources sans texte.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 6 min lire
De nouvelles méthodes améliorent la précision des systèmes de reconnaissance vocale grâce à une compréhension phonétique.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 7 min lire
Ce cadre améliore les animations en temps réel en synchronisant la parole et les gestes sans problème.
Zixin Guo, Jian Zhang
― 6 min lire
De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
Muhammad A. Shah, Bhiksha Raj
― 6 min lire
Une nouvelle fonction de perte améliore la qualité audio en alignant la phase et l'amplitude.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 7 min lire
Un nouveau modèle de TTS ajoute de la profondeur émotionnelle à la parole générée par ordinateur.
Yunji Chu, Yunseob Shim, Unsang Park
― 7 min lire
Évaluer des modèles de reconnaissance vocale pour des sessions de diagnostic de l'autisme.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 8 min lire
Des méthodes récentes améliorent la clarté et la qualité du son en utilisant des modèles avancés.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 8 min lire
Une nouvelle approche améliore la détection des faux enregistrements audio.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 6 min lire
ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 9 min lire
Explorer des méthodes pour adapter les RNN aux taux d'échantillonnage audio variables.
Alistair Carson, Alec Wright, Stefan Bilbao
― 7 min lire
Nouveau modèle permet une transcription vocale plus rapide sans sacrifier la précision.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 min lire
Présentation de NanoVoice, un modèle de synthèse vocale rapide et efficace pour un audio personnalisé.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 7 min lire
Le nouveau modèle VoiceGuider améliore la TTS pour les voix variées.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min lire
Une nouvelle méthode pour traduire des voix à travers les langues tout en gardant leurs caractéristiques uniques.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 7 min lire
De nouvelles techniques améliorent la qualité de la parole expressive chez différents locuteurs.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 7 min lire