MambaFoley revolutioniert die Foley-Sound-Synthese mit besserem Timing und mehr Realismus.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 6 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
MambaFoley revolutioniert die Foley-Sound-Synthese mit besserem Timing und mehr Realismus.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 6 min Lesedauer
Neueste Artikel
Jinzuomu Zhong, Korin Richmond, Zhiba Su
― 5 min Lesedauer
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer
― 7 min Lesedauer
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee
― 7 min Lesedauer
Ines Nolasco, Ilyass Moummad, Dan Stowell
― 6 min Lesedauer
Stefano Damiano, Thomas Dietzen, Toon van Waterschoot
― 6 min Lesedauer
Ein neuer Ansatz kombiniert die Erkennung von Geräuschen und die Sprechertrennung für ein besseres Audioverständnis.
Yidi Jiang, Ruijie Tao, Wen Huang
― 5 min Lesedauer
Ein neuer Ansatz verbessert die ASR, indem er sich auf bestimmte Sprecherdetails konzentriert.
Alexander Polok, Dominik Klement, Matthew Wiesner
― 6 min Lesedauer
Eine Studie zeigt, wie Deep-Learning-Modelle Emotionen in Sprache erkennen.
Satvik Dixit, Daniel M. Low, Gasser Elbanna
― 5 min Lesedauer
Ein einfach zu bedienendes Tool, um Sprachmodelle ohne komplexen Code fein abzustimmen.
Masao Someki, Kwanghee Choi, Siddhant Arora
― 7 min Lesedauer
Neue Methoden verbessern die Schalldämmung aus lauten Umgebungen ohne gelabelte Daten.
Hao Ma, Zhiyuan Peng, Xu Li
― 6 min Lesedauer
Ein neuer Ansatz geht die Kanalvariationen in Spracherkennungssystemen an.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 6 min Lesedauer
Eine neue Methode verbessert die Spracherkennung von Maschinen zur Sprecherverifizierung.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 6 min Lesedauer
Ein neues Modell verbessert die Audiogenerierung mit detaillierten Text- und Soundvorgaben.
Chenxu Xiong, Ruibo Fu, Shuchen Shi
― 6 min Lesedauer
Künstliche Intelligenz verändert die Musik mit neuen Werkzeugen und Ansätzen.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 6 min Lesedauer
MaskSR2 verbessert die Sprachklarheit und -qualität mit innovativen Techniken.
Xiaoyu Liu, Xu Li, Joan Serrà
― 5 min Lesedauer
Eine neue Methode zur Erzeugung von akzentuierter Sprache durch Texttransliteration.
Sho Inoue, Shuai Wang, Wanxing Wang
― 6 min Lesedauer
E1 TTS verwandelt Text schneller und effizienter in natürliche Sprache.
Zhijun Liu, Shuai Wang, Pengcheng Zhu
― 5 min Lesedauer
Wave-U-Mamba verbessert die Qualität von Sprachaufnahmen, damit man klarer kommunizieren kann.
Yongjoon Lee, Chanwoo Kim
― 5 min Lesedauer
Ein neues System sagt die Natürlichkeitswerte für synthetische Sprache mit innovativen Methoden voraus.
Kaito Baba, Wataru Nakata, Yuki Saito
― 6 min Lesedauer
Eine neue Methode nutzt Audio, um die Aussprachegenauigkeit von Maschinen zu verbessern.
Siqi Sun, Korin Richmond
― 6 min Lesedauer
Neue Methoden verbessern die Audio-Synchronisation bei wechselnden Videoszenen.
Mingjing Yi, Ming Li
― 4 min Lesedauer
Die GenSEC-Herausforderung erkunden, um die Genauigkeit der Spracherkennung zu verbessern.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 5 min Lesedauer
Eine neuartige Bewertungsmethode für Schizophrenie mit multimodalen Daten.
Gowtham Premananth, Carol Espy-Wilson
― 6 min Lesedauer
Neue Methoden helfen Maschinen, einzelne Geräusche besser zu interpretieren.
Sripathi Sridhar, Mark Cartwright
― 6 min Lesedauer
Eine Übersicht über Technologien zur Erkennung von Schlüsselwörtern und deren Herausforderungen mit der Urdu-Sprache.
Syed Muhammad Aqdas Rizvi
― 6 min Lesedauer
Forschung zeigt die Schwierigkeiten bei der Spracherkennung von Polizeifunkübertragungen.
Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff
― 7 min Lesedauer
PDMX bietet eine riesige Sammlung von Symbolmusik im öffentlichen Bereich für die KI-Entwicklung an.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 6 min Lesedauer
Eine Studie zeigt, dass i-Vektoren mit komplexen Modellen in der Sprechererkennung konkurrieren können.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 5 min Lesedauer
Eine Studie darüber, wie Designentscheidungen die Sprachmodelle beeinflussen.
Li-Wei Chen, Takuya Higuchi, He Bai
― 7 min Lesedauer
Eine neue Methode bewertet selbstüberwachte Sprachmodelle mithilfe von Rangmessungen.
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 5 min Lesedauer
Die Studie hebt Fortschritte bei der Emotionserkennung von Robotern mit Vision Transformers hervor.
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 7 min Lesedauer
Forschung zeigt, wie wichtig eine faire Diagnose bei Atemwegserkrankungen ist.
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 7 min Lesedauer
MusicLIME hilft zu erklären, wie KI Musik durch Audio und Texte analysiert.
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 6 min Lesedauer
Entdecke, wie Quantencomputing die musikalische Kreativität mit dem Variational Quantum Harmonizer neu gestaltet.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 12 min Lesedauer
Das MCMamba-Modell verbessert die Sprachqualität in lauten Umgebungen, indem es räumliche und spektrale Informationen nutzt.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 4 min Lesedauer
Diese Studie bewertet Low-Latenz-Methoden zur Verbesserung der Sprachqualität in lauten Umgebungen.
Haibin Wu, Sebastian Braun
― 6 min Lesedauer
Untersuchen, wie 2D- und 3D-Gesten die Kommunikation von virtuellen Charakteren beeinflussen.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 7 min Lesedauer
Eine Studie zur Verbesserung von Spracherkennungssystemen in lauten Umgebungen.
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 6 min Lesedauer
Forscher nutzen Sprache, um verschiedene Gesundheitszustände zu identifizieren und zu überwachen.
Catarina Botelho, Alberto Abad, Tanja Schultz
― 8 min Lesedauer
RF-GML misst die Audioqualität, ohne ein Referenzsignal zu brauchen.
Arijit Biswas, Guanxin Jiang
― 5 min Lesedauer
Lern, wie Raumequalisierung das Klangerlebnis in verschiedenen Umgebungen verbessert.
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 6 min Lesedauer
StyleTTS-ZS bietet effiziente, hochwertige Sprachsynthese ohne umfangreiches Sprechertraining.
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 5 min Lesedauer
Eine neue Methode verbessert das synthetisierte Ensemble-Singen, indem sie die Interaktionen der Sänger modelliert.
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 5 min Lesedauer
Ein neues Framework verbessert die Spracherkennung, indem es die Klangbeziehungen effektiv modelliert.
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 5 min Lesedauer
Neue Maskierungsmethode verbessert die Sprachumwandlung, indem sie die Sprecheridentität von der Phonetik trennt.
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 6 min Lesedauer