Der Komponist nutzt Textanweisungen, um komplexe Musikkompositionen im MIDI-Format zu erstellen.
Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Der Komponist nutzt Textanweisungen, um komplexe Musikkompositionen im MIDI-Format zu erstellen.
Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara
― 5 min Lesedauer
Eine Ressource zum Studieren von Gesangsmustern in japanischer Idol-Musik.
Hitoshi Suda, Shunsuke Yoshida, Tomohiko Nakamura
― 7 min Lesedauer
ViolinDiff verbessert den Realismus von computer-generierter Geigenmusik.
Daewoong Kim, Hao-Wen Dong, Dasaem Jeong
― 5 min Lesedauer
Die Kombination von Features verbessert die Genauigkeit der Unterwasser-Schallklassifikation.
Amirmohammad Mohammadi, Iren'e Masabarakiza, Ethan Barnes
― 6 min Lesedauer
Transfer-Lernen verbessert die Audio-Klassifizierung für die Erkennung von Unterwassergeräuschen.
Amirmohammad Mohammadi, Tejashri Kelhe, Davelle Carreiro
― 6 min Lesedauer
Ein neues Modell erstellt Audio, das zum Video passt und verbessert so das Medienerlebnis.
Ilpo Viertola, Vladimir Iashin, Esa Rahtu
― 5 min Lesedauer
Eine Methode, um die automatische Spracherkennung zu verbessern, indem man Schlüsselwortlisten mit Sprachmodellen kombiniert.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 5 min Lesedauer
Eine Studie über Stimmimitationstechniken, die Technologie nutzt, um die Kommunikation zu verbessern.
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum
― 5 min Lesedauer
Lerne, wie man Sprachmodelle effektiv mit weniger gekennzeichneten Ressourcen trainiert.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 7 min Lesedauer
Eine Analyse der Geschlechterterminologie in der Sprachtechnologie und ihrer gesellschaftlichen Auswirkungen.
Ariadna Sanchez, Alice Ross, Nina Markl
― 7 min Lesedauer
Ein neues Framework verbessert die Erkennung von überlappenden Geräuscheffekten in komplexen Audio-Umgebungen.
Han Yin, Jisheng Bai, Yang Xiao
― 6 min Lesedauer
Forschung zur Verbesserung der Vogelstimmenidentifikation durch Machine-Learning-Techniken.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 7 min Lesedauer
Eine neue Methode verbessert die automatische Erstellung von Klaviercovern mithilfe bestehender Musiktranskriptions-technologie.
Kazuma Komiya, Yoshihisa Fukuhara
― 6 min Lesedauer
Ein Blick auf die Ergebnisse der Codec-SUPERB-Challenge und die Leistungskennzahlen der Codecs.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 5 min Lesedauer
Das MultiMed-Projekt verbessert die automatische Spracherkennung für bessere Kommunikation im Gesundheitswesen.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 6 min Lesedauer
Ein neuer Ansatz zur Bewertung der Audioqualität, ganz ohne saubere Referenzen.
Jozef Coldenhoff, Milos Cernak
― 6 min Lesedauer
Der ECHO-Rahmen verbessert die Genauigkeit der Klangklassifizierung mit strukturierten Labels und einem zweistufigen Lernprozess.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 5 min Lesedauer
Neues Verfahren verbessert die Sprachklarheit, indem es visuelle Informationen integriert.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 5 min Lesedauer
Ein neuer Ansatz verbessert die Schätzung der Schallrichtung für sich bewegende Sprecher in schwierigen Umgebungen.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 8 min Lesedauer
Audio Moment Retrieval ermöglicht es, bestimmte Momente in langen Aufnahmen genau zu finden.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 5 min Lesedauer
Safe Guard erkennt Hassrede in Echtzeit während Sprachinteraktionen in sozialer VR.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 6 min Lesedauer
KI entwickelt sich weiter, um natürlichere Gespräche zu führen.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 min Lesedauer
Ein neuer Ansatz nutzt Echtzeit-MRT, um die Bewegungen bei der Sprachproduktion sichtbar zu machen.
Hong Nguyen, Sean Foley, Kevin Huang
― 6 min Lesedauer
Eine neue Methode zur Erkennung von frühen Raumreflexionen verbessert das Audioerlebnis.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 7 min Lesedauer
Ein Projekt, das Sprach- und Textdatensätze für Sprachen mit begrenzten Ressourcen entwickelt.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 5 min Lesedauer
Ein neues Framework verbessert die Spracherkennung und passt sich verschiedenen Sprachaufgaben an.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 4 min Lesedauer
Es werden neue Methoden gebraucht, um fortschrittliche Deepfake-Sprachtechnologien zu erkennen.
Lam Pham, Phat Lam, Dat Tran
― 6 min Lesedauer
Neue Methoden verbessern die Genauigkeit bei der Identifizierung von Tiergeräuschen aus begrenzten Daten.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 5 min Lesedauer
Neue Methode verbessert die virtuelle Klangintegration in AR-Umgebungen.
Francesc Lluís, Nils Meyer-Kahlen
― 6 min Lesedauer
Eine neue Methode zielt darauf ab, die Sprachprivatsphäre zu wahren und gleichzeitig effektive Kommunikation zu ermöglichen.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 min Lesedauer
Neue Methoden verbessern die Spracherkennung für ressourcenarme Sprachen ohne Text.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 5 min Lesedauer
Neue Methoden verbessern die Genauigkeit in Spracherkennungssystemen durch phoneticisches Verständnis.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 6 min Lesedauer
Dieses Framework verbessert Echtzeit-Animationen, indem es Sprache und Gesten nahtlos synchronisiert.
Zixin Guo, Jian Zhang
― 5 min Lesedauer
Neue akustische Merkmale verbessern die Leistung von ASR-Systemen in lauten Umgebungen.
Muhammad A. Shah, Bhiksha Raj
― 5 min Lesedauer
Eine neue Verlustfunktion verbessert die Audioqualität, indem sie Phase und Magnitude ausrichtet.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 6 min Lesedauer
Ein neues TTS-Modell bringt emotionale Tiefe in computer-generierte Sprache.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 min Lesedauer
Bewertung von Spracherkennungsmodellen für Autismus-Diagnosesitzungen.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 6 min Lesedauer
Neuere Methoden verbessern die Audio-Klarheit und -Qualität mit fortschrittlichen Modellen.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 6 min Lesedauer
Ein neuer Ansatz verbessert die Erkennung von gefälschten Audioaufnahmen.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 5 min Lesedauer
ESPnet-Codec verbessert das Training und die Bewertung von neuronalen Codecs für Audio und Sprache.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 7 min Lesedauer