Erfahre mehr über die Frechet Music Distance und ihre Rolle bei der Bewertung von KI-generierter Musik.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 9 min Lesedauer
New Science Research Articles Everyday
Erfahre mehr über die Frechet Music Distance und ihre Rolle bei der Bewertung von KI-generierter Musik.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 9 min Lesedauer
Neueste Artikel
Sudha Krishnamurthy
― 6 min Lesedauer
Jianwei Cui, Yu Gu, Shihao Chen
― 5 min Lesedauer
Evangelia Gkritzali, Panagiotis Kaliosis, Sofia Galanaki
― 6 min Lesedauer
Quang-Anh N. D., Manh-Hung Ha, Thai Kim Dinh
― 6 min Lesedauer
Hugo Flores García, Oriol Nieto, Justin Salamon
― 8 min Lesedauer
Wasserzeichen-Techniken schützen die Rechte von Künstlern bei der Musikproduktion mit KI.
Pascal Epple, Igor Shilov, Bozhidar Stevanoski
― 7 min Lesedauer
Mono-Audio in fesselnde binaurale Erlebnisse verwandeln mit innovativen Techniken.
Alon Levkovitch, Julian Salazar, Soroosh Mariooryad
― 8 min Lesedauer
Die Forschung untersucht, wie Sprachverbesserungsmodelle die Silbenbetonung inmitten von Lärm aufrechterhalten.
Rangavajjala Sankara Bharadwaj, Jhansi Mallela, Sai Harshitha Aluru
― 6 min Lesedauer
Ein neues Framework verbessert die Abstimmung von Sounds und Bildern in Videos.
Kexin Li, Zongxin Yang, Yi Yang
― 6 min Lesedauer
Die Text-zu-Sprache-Technologie revolutionieren mit besserer Effizienz und natürlicher klingenden Stimmen.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 6 min Lesedauer
Entdeck, wie TTS-Systeme sich weiterentwickeln, um menschlicher zu klingen.
Haowei Lou, Helen Paik, Wen Hu
― 8 min Lesedauer
Neues System verwandelt die Audiosteuerung durch detaillierte Textbeschreibungen.
Sonal Kumar, Prem Seetharaman, Justin Salamon
― 8 min Lesedauer
Kombination von Video und Audio für bessere Emotionserkennung.
Antonio Fernandez, Suzan Awinat
― 9 min Lesedauer
YingSound verwandelt die Videoproduktion, indem es die Generierung von Soundeffekten automatisiert.
Zihao Chen, Haomin Zhang, Xinhan Di
― 7 min Lesedauer
Forscher nutzen Echos, um Audio zu kennzeichnen und die Rechte der Creator zu schützen.
Christopher J. Tralie, Matt Amery, Benjamin Douglas
― 8 min Lesedauer
Roboter können jetzt dank SonicBoom in schwierigen Umgebungen mit Sound navigieren.
Moonyoung Lee, Uksang Yoo, Jean Oh
― 6 min Lesedauer
Das MASV-Modell verbessert die Sprachverifikation und sorgt für Sicherheit und Effizienz.
Yang Liu, Li Wan, Yiteng Huang
― 6 min Lesedauer
Die Auswirkungen von KI-Tools auf die Musikproduktion und die Sichtweisen von Komponisten erkunden.
Eleanor Row, György Fazekas
― 8 min Lesedauer
Sprachrecognitionstechnik verbessert die Erkennung von Ziffern, besonders in lauten Umgebungen.
Ali Nasr-Esfahani, Mehdi Bekrani, Roozbeh Rajabi
― 5 min Lesedauer
Die Verbesserung der mehrsprachigen ASR-Leistung für Japanisch durch gezieltes Feintuning.
Mark Bajo, Haruka Fukukawa, Ryuji Morita
― 5 min Lesedauer
Untersuchen, wie BCIs vorgestellte Sprache entschlüsseln, um die Kommunikation zu verbessern.
Byung-Kwan Ko, Jun-Young Kim, Seo-Hyun Lee
― 7 min Lesedauer
SonicMesh nutzt Sound, um die 3D-Modellierung von menschlichen Körpern aus Bildern zu verbessern.
Xiaoxuan Liang, Wuyang Zhang, Hong Zhou
― 6 min Lesedauer
Entdecke die neuesten Durchbrüche in der automatischen Spracherkennung und wie sie unsere Interaktionen verbessern.
Rongxiang Wang, Zhiming Xu, Felix Xiaozhu Lin
― 5 min Lesedauer
Forscher verbessern die Sprachverarbeitung mit Libri2Vox und Techniken für synthetische Daten.
Yun Liu, Xuechen Liu, Xiaoxiao Miao
― 6 min Lesedauer
Entdeck, wie emotionale TTS die Kommunikation mit Maschinen verändert und sie dadurch sympathischer macht.
Sho Inoue, Kun Zhou, Shuai Wang
― 6 min Lesedauer
Lern, wie Insektensounds helfen können, Ökosysteme zu überwachen und Schädlinge zu managen.
Yinxuan Wang, Sudip Vhaduri
― 8 min Lesedauer
Neue Methoden helfen Maschinen, wichtige Informationen aus gesprochenem Inhalt zu finden.
Yueqian Lin, Yuzhe Fu, Jingyang Zhang
― 6 min Lesedauer
Entdecke, wie KI die Sammlung von Sprachdaten durch Crowdsourcing vereinfacht.
Beomseok Lee, Marco Gaido, Ioan Calapodescu
― 5 min Lesedauer
Untersuche die Unterschiede zwischen spontaner und geskripteter Sprache in der Audioverarbeitung.
Shahar Elisha, Andrew McDowell, Mariano Beguerisse-Díaz
― 7 min Lesedauer
DAAN verbessert, wie Maschinen aus audiovisuellen Daten in Zero-Shot-Szenarien lernen.
RunLin Yu, Yipu Gong, Wenrui Li
― 6 min Lesedauer
Neue Methode verbessert die Erkennung von Audio-Deepfakes mit innovativen Lerntechniken.
Yujie Chen, Jiangyan Yi, Cunhang Fan
― 7 min Lesedauer
Ein neues Modell aus Singapur verbessert das Verständnis von maschineller Sprache.
Muhammad Huzaifah, Geyu Lin, Tianchi Liu
― 7 min Lesedauer
Während Maschinen Musik produzieren, müssen wir die menschliche Kreativität durch effektive Erkennungsmethoden schützen.
Yupei Li, Qiyang Sun, Hanqian Li
― 9 min Lesedauer
Neue Modelle erkennen synthetische Sprache und bekämpfen den Missbrauch von Sprachtechnologie.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 6 min Lesedauer
TAME nutzt Schall, um Drohnen zu erkennen, was Sicherheit und Überwachung verbessert.
Zhenyuan Xiao, Huanran Hu, Guili Xu
― 7 min Lesedauer
Erfahre, wie CAMEL das Verständnis von Gesprächen in verschiedenen Sprachen verbessert.
He Wang, Xucheng Wan, Naijun Zheng
― 6 min Lesedauer
Forschung zeigt, dass Gehirnaktivität Maschinen helfen kann, Musik effektiv zu erkennen.
Taketo Akama, Zhuohao Zhang, Pengcheng Li
― 7 min Lesedauer
Audiotechnologie bietet eine kostengünstige Möglichkeit, UAVs sicher zu verfolgen.
Allen Lei, Tianchen Deng, Han Wang
― 6 min Lesedauer
Eine neue KI-Methode analysiert Stimmen, um das Risiko für Kehlkopfkrebs zu erkennen.
Mary Paterson, James Moor, Luisa Cutillo
― 7 min Lesedauer
Entdecke, wie die Video-zu-Audio-Synthese die Medienerlebnisse mit perfekter Klangabstimmung verändert.
Ho Kei Cheng, Masato Ishii, Akio Hayakawa
― 8 min Lesedauer
Ein neues System revolutioniert, wie Sounddesigner Audio für Videos erstellen.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 8 min Lesedauer
Ein Blick darauf, wie Sprachverbesserung die Kommunikation durch Datenmerkmale verbessert.
Leying Zhang, Wangyou Zhang, Chenda Li
― 8 min Lesedauer
Neue Methoden verbessern ASR-Systeme für Sprachen, mit denen sie vorher nicht konfrontiert wurden.
Shao-Syuan Huang, Kuan-Po Huang, Andy T. Liu
― 7 min Lesedauer
Entdecke, wie TTA-Technik Worte und Klänge kombiniert, um intensivere Audioerlebnisse zu schaffen.
Yuhang He, Yash Jain, Xubo Liu
― 8 min Lesedauer
Forscher verbessern die Spracherkennung für Schweizerdeutsch mit innovativer Datengenerierung.
Vincenzo Timmel, Claudio Paonessa, Reza Kakooee
― 6 min Lesedauer
Eine neue Methode verbessert die Lippen-Synchronisation in synchronisierten Videos für ein natürliches Seherlebnis.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 7 min Lesedauer
Entdecke, wie Whisper die Spracherkennung in mehrsprachigen Gesprächen verbessert.
Jiahui Zhao, Hao Shi, Chenrui Cui
― 5 min Lesedauer
Erfahre, wie SpeechRAG Audio-Fragen beantworten kann, ohne ASR-Fehler.
Do June Min, Karel Mundnich, Andy Lapastora
― 6 min Lesedauer
Ein neuer Ansatz macht die Geräuscherkennung zugänglicher und effizienter.
Noriyuki Tonami, Wataru Kohno, Keisuke Imoto
― 8 min Lesedauer
Erfahre, wie Sprach-Anonymisierung persönliche Infos in einer technologiegetriebenen Welt schützt.
Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi
― 6 min Lesedauer
Audio- und visuelle Hinweise kombinieren, um die Spracherkennung in lauten Umgebungen zu verbessern.
Zhaofeng Lin, Naomi Harte
― 6 min Lesedauer
Die Sprachverbesserungstechnologie passt sich an, um Lärm zu reduzieren und die Kommunikation zu verbessern.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 5 min Lesedauer
Neue Technik kombiniert Sound und visuelle Elemente für bessere Drohnenerkennung.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 7 min Lesedauer
Ein neuer Ansatz kombiniert Sprache und Text für bessere Dysarthrie-Bewertungen.
Anuprabha M, Krishna Gurugubelli, Kesavaraj V
― 6 min Lesedauer
Neue Technologie erkunden, die Geräusche aus unsichtbaren Quellen erkennt.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min Lesedauer
Entdecke, wie Smooth-Foley die Audioerzeugung für Videos verbessert.
Yaoyun Zhang, Xuenan Xu, Mengyue Wu
― 6 min Lesedauer
Innovative Technik verbindet Texte und Melodien für bessere Songkreation.
Jiaxing Yu, Xinda Wu, Yunfei Xu
― 7 min Lesedauer
Die Verbesserung des maschinellen Verständnisses von den Dynamiken des Dialogwechsels bei Menschen.
Hyunbae Jeon, Frederic Guintu, Rayvant Sahni
― 9 min Lesedauer
Erforschen, wie Sprache die Genauigkeit der DeepFake-Erkennung in verschiedenen Sprachen beeinflusst.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 7 min Lesedauer
VERSA bewertet Sprache, Audio und Musikqualität effektiv.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 9 min Lesedauer
Entdecke, wie Audio-Sprachmodelle die Sounderkennungstechnologie verändern.
Gongyu Chen, Haomin Zhang, Chaofan Ding
― 7 min Lesedauer
Neue Methoden verbessern den natürlichen Dialog in der Sprachtechnologie.
Zhenqi Jia, Rui Liu
― 6 min Lesedauer
Entdecke, wie SpeechSSM die Langzeitsprache-Generierung für bessere Interaktionen verändert.
Se Jin Park, Julian Salazar, Aren Jansen
― 5 min Lesedauer
Lerne, wie Echtzeitübersetzung die Kommunikation über Sprachen hinweg verändert.
Sara Papi, Peter Polak, Ondřej Bojar
― 6 min Lesedauer
Ein leichtgewichtiges Modell, das entwickelt wurde, um gemischte Sprache in lauten Umgebungen effektiv zu trennen.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 6 min Lesedauer
Forscher kümmern sich um Audio-Spoofing, um die Sicherheit der Spracherkennung zu verbessern.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 9 min Lesedauer
Lern, wie AV-ASR Audio und Visuals kombiniert, um die Spracherkennung zu verbessern.
Yihan Wu, Yichen Lu, Yifan Peng
― 6 min Lesedauer
Eine neue Methode verändert, wie Maschinen aus Musik lernen.
Julien Guinot, Elio Quinton, György Fazekas
― 7 min Lesedauer
Neue Technologie verwandelt stille Murmeln in hörbare Kommunikation für die Bedürftigen.
Neil Shah, Shirish Karande, Vineet Gandhi
― 6 min Lesedauer
Neue Methoden in der Sprachsynthese verbessern die Klarheit und Anpassungsfähigkeit für verschiedene Anwendungen.
Neil Shah, Ayan Kashyap, Shirish Karande
― 8 min Lesedauer
Entdecke die reiche Tradition der Gesänge der äthiopisch-orthodoxen Tewahedo-Kirche.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Li Su
― 8 min Lesedauer
Ein neues Datenset hebt die Schönheit der äthiopisch-orthodoxen Gesänge hervor.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Worku Abebe Degife
― 8 min Lesedauer
Neue Fortschritte helfen der Spracherkennungstechnologie, Menschen mit Sprachstörungen besser zu unterstützen.
Jimmy Tobin, Katrin Tomanek, Subhashini Venugopalan
― 6 min Lesedauer
Entdecke, wie ETTA Worte in kreative Audioerlebnisse verwandelt.
Sang-gil Lee, Zhifeng Kong, Arushi Goel
― 6 min Lesedauer
Ein neuer Blick darauf, wie Musik unsere Emotionen beeinflusst.
Dengming Zhang, Weitao You, Ziheng Liu
― 7 min Lesedauer
Ein neues Framework für die Erstellung von synchronen und natürlichen Gruppentänzen.
Kaixing Yang, Xulong Tang, Haoyu Wu
― 8 min Lesedauer
Neuer Ansatz bei der Emotionserkennung konzentriert sich auf Mundbewegungen statt auf Geräusche.
Shreya G. Upadhyay, Ali N. Salman, Carlos Busso
― 6 min Lesedauer
Entdecke, wie Stable-TTS die Text-zu-Sprache-Technologie verbessert für ein menschlicheres Erlebnis.
Wooseok Han, Minki Kang, Changhun Kim
― 7 min Lesedauer
Innovative Schallwellentechnologie bietet neue Einblicke in die Gehgeschwindigkeit drinnen.
Sheng Lyu, Chenshu Wu
― 6 min Lesedauer
Audio-Assistenten werden mit AQA-K schlauer und verbessern ihre Antworten durch Wissen.
Abhirama Subramanyam Penamakuri, Kiran Chhatre, Akshat Jain
― 7 min Lesedauer
Forscher untersuchen, wie unser Gehirn Sprache steuert und was das für die Genesung bedeutet.
Eric Easthope
― 7 min Lesedauer
Entdecke, wie Text mit modernen Modellen in Audio verwandelt werden kann.
Chia-Yu Hung, Navonil Majumder, Zhifeng Kong
― 3 min Lesedauer