De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
Muhammad A. Shah, Bhiksha Raj
― 6 min lire
La science de pointe expliquée simplement
De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
Muhammad A. Shah, Bhiksha Raj
― 6 min lire
Une nouvelle fonction de perte améliore la qualité audio en alignant la phase et l'amplitude.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 7 min lire
Un nouveau modèle de TTS ajoute de la profondeur émotionnelle à la parole générée par ordinateur.
Yunji Chu, Yunseob Shim, Unsang Park
― 7 min lire
Évaluer des modèles de reconnaissance vocale pour des sessions de diagnostic de l'autisme.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 8 min lire
Des méthodes récentes améliorent la clarté et la qualité du son en utilisant des modèles avancés.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 8 min lire
Une nouvelle approche améliore la détection des faux enregistrements audio.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 6 min lire
ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 9 min lire
Explorer des méthodes pour adapter les RNN aux taux d'échantillonnage audio variables.
Alistair Carson, Alec Wright, Stefan Bilbao
― 7 min lire
Nouveau modèle permet une transcription vocale plus rapide sans sacrifier la précision.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 min lire
Présentation de NanoVoice, un modèle de synthèse vocale rapide et efficace pour un audio personnalisé.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 7 min lire
Le nouveau modèle VoiceGuider améliore la TTS pour les voix variées.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min lire
Une nouvelle méthode pour traduire des voix à travers les langues tout en gardant leurs caractéristiques uniques.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 7 min lire
De nouvelles techniques améliorent la qualité de la parole expressive chez différents locuteurs.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 7 min lire
Cet article explore le rôle des métriques perceptuelles dans la classification des genres musicaux.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 6 min lire
Une nouvelle méthode améliore le traitement de la parole et de l'audio dans plusieurs tâches.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 7 min lire
Un nouveau système améliore l'identification des intervenants lors de discussions avec plusieurs participants.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 6 min lire
Un nouveau cadre améliore l'expression émotionnelle dans les systèmes TTS.
Kun Zhou, You Zhang, Shengkui Zhao
― 7 min lire
Des découvertes récentes montrent que les capteurs de pression peuvent être utilisés pour espionner.
Yonatan Gizachew Achamyeleh, Mohamad Habib Fakih, Gabriel Garcia
― 5 min lire
Un nouvel algorithme améliore la détection d'événements sonores en utilisant l'apprentissage auto-supervisé.
Pengfei Cai, Yan Song, Nan Jiang
― 7 min lire
La recherche se concentre sur l'amélioration des méthodes pour détecter des discours fake réalistes.
Davide Salvi, Viola Negroni, Luca Bondi
― 6 min lire
Une nouvelle méthode simplifie la création audio et vidéo pour une meilleure synchronisation.
Masato Ishii, Akio Hayakawa, Takashi Shibuya
― 7 min lire
Contrôle les effets audio avec des descriptions simples pour des ajustements de son plus faciles.
Annie Chu, Patrick O'Reilly, Julia Barnett
― 7 min lire
Présentation d'un nouveau modèle et d'une référence pour évaluer les tâches multi-audio.
Yiming Chen, Xianghu Yue, Xiaoxue Gao
― 7 min lire
Un nouveau système modélise l'intensité émotionnelle des personnages animés pour un réalisme accru.
Jingyi Xu, Hieu Le, Zhixin Shu
― 7 min lire
OpenSep automatise la séparation audio pour des expériences sonores plus claires sans intervention manuelle.
Tanvir Mahmud, Diana Marculescu
― 8 min lire
PALM améliore la reconnaissance audio en optimisant la représentation des invites et l'efficacité.
Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi
― 6 min lire
Explore comment les tours de fil et l'épaisseur influencent le son des micros de guitare.
Charles Batchelor, Jack Gooding, William Marriott
― 9 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour les longs enregistrements.
Hao Yen, Shaoshi Ling, Guoli Ye
― 6 min lire
Cette étude analyse comment l'audio, la vidéo et le texte fonctionnent ensemble dans la reconnaissance vocale.
Chen Chen, Xiaolou Li, Zehua Liu
― 9 min lire
Un nouveau modèle améliore la naturalité des systèmes de synthèse vocale en analysant les motifs de hauteur.
Tomilov A. A., Gromova A. Y., Svischev A. N
― 6 min lire
Un nouveau modèle améliore la représentation de la parole pour les langues africaines, augmentant l'inclusivité dans la tech.
Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow
― 6 min lire
Un nouveau modèle améliore la création musicale en utilisant des mélodies et des descriptions textuelles.
Shaopeng Wei, Manzhen Wei, Haoyu Wang
― 6 min lire
Une nouvelle méthode pour les modèles de langage parlés réduit le besoin de données massives.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 8 min lire
Apprends comment fonctionne la conversion de voix et ses applications trop cool.
Arip Asadulaev, Rostislav Korst, Vitalii Shutov
― 5 min lire
Découvrez comment CCI améliore les évaluations de la qualité multimédia.
Alessandro Ragano, Helard Becerra Martinez, Andrew Hines
― 7 min lire
Des chercheurs combinent des indices audio et visuels pour détecter les mensonges plus précisément.
Abdelrahman Abdelwahab, Akshaj Vishnubhatla, Ayaan Vaswani
― 7 min lire
Un nouveau réseau vocal comble les lacunes linguistiques en cas d'urgence.
Majid Behravan, Elham Mohammadrezaei, Mohamed Azab
― 7 min lire
Apprends comment les assistants virtuels comprennent mieux les commandes des utilisateurs.
Ognjen, Rudovic, Pranay Dighe
― 7 min lire
MACE améliore la légende audio en liant les sons à des descriptions textuelles précises.
Satvik Dixit, Soham Deshmukh, Bhiksha Raj
― 5 min lire