Forscher entwickeln einen Datensatz, um die Spracherkennung und Analyse-Techniken zu verbessern.
Xiangyu Zhang, Daijiao Liu, Tianyi Xiao
― 6 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Forscher entwickeln einen Datensatz, um die Spracherkennung und Analyse-Techniken zu verbessern.
Xiangyu Zhang, Daijiao Liu, Tianyi Xiao
― 6 min Lesedauer
Neueste Artikel
Helin Wang, Jiarui Hai, Yen-Ju Lu
― 5 min Lesedauer
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak
― 5 min Lesedauer
Waldemar Bauer, Marta Zagorowska, Jerzy Baranowski
― 5 min Lesedauer
Desh Raj, Gil Keren, Junteng Jia
― 5 min Lesedauer
Michael Ong, Sean Robertson, Leo Peckham
― 6 min Lesedauer
Eine neue Zero-Shot-Methode verbessert die Genauigkeit der Sprachumwandlung und minimiert Tonverlust.
Wangjin Zhou, Fengrun Zhang, Yiming Liu
― 5 min Lesedauer
Studie zeigt, wie sich Töne im alltäglichen taiwanesischen Mandarin-Sprech ändern.
Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen
― 5 min Lesedauer
Neue Methode verbessert die Erkennung von Parkinson durch Sprachanalyse mit moderner Technologie.
Shakeel A. Sheikh, Yacouba Kaloga, Md Sahidullah
― 5 min Lesedauer
Neuer Ansatz verbessert die Sprachisolierung in gemischten Audio-Umgebungen mit diskreten Tokens.
Beilong Tang, Bang Zeng, Ming Li
― 5 min Lesedauer
Forschung verbindet Gemälde mit Musik, indem sie Emotionen interpretiert.
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 6 min Lesedauer
Eine Studie über die Verwendung von Sprachmodellen zur Korrektur von Fehlern in Spracherkennungssystemen.
Zhiyuan Tang, Dong Wang, Shen Huang
― 5 min Lesedauer
FLAMO vereinfacht die Audiobearbeitung durch differenzierbare Techniken und Frequenzab sampling.
Gloria Dal Santo, Gian Marco De Bortoli, Karolina Prawda
― 6 min Lesedauer
Eine neue Methode verbessert die automatische Erkennung von Sprachproblemen, die mit Parkinson verbunden sind.
Yacouba Kaloga, Shakeel A. Sheikh, Ina Kodrasi
― 5 min Lesedauer
Ein neuer Ansatz verbessert ASR-Systeme für eine bessere Kommunikation im Klassenzimmer.
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi
― 5 min Lesedauer
Dieser Artikel beleuchtet, wie unterschiedliche Eingaben die Spracherkennung verbessern können.
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 5 min Lesedauer
Ein System, das Musikmachen für alle Fähigkeitsstufen einfach und zugänglich macht.
Ye Bai, Haonan Chen, Jitong Chen
― 7 min Lesedauer
ReCLAP verbessert die Audioklassifizierung mit detaillierten Aufforderungen für genauere Ergebnisse.
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru
― 6 min Lesedauer
Ein Projekt hat das Ziel, die Sprachtechnologie für Menschen mit Kommunikationsproblemen zu verbessern.
Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek
― 6 min Lesedauer
MambaFoley revolutioniert die Foley-Sound-Synthese mit besserem Timing und mehr Realismus.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 6 min Lesedauer
Ein neues System verbessert die Akzentgenauigkeit in TTS für bessere Kommunikation.
Jinzuomu Zhong, Korin Richmond, Zhiba Su
― 5 min Lesedauer
Die Verwendung von CLAP-Embeddings verbessert Musikempfehlungssysteme erheblich.
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer
― 7 min Lesedauer
Die Studie untersucht die Entwicklung von ASR für Amis und Seediq, mit Schwerpunkt auf der Datennutzung.
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee
― 7 min Lesedauer
LLaQo bietet detailliertes Feedback zur Bewertung von Musikaufführungen und verbessert so das Lernen der Schüler.
Huan Zhang, Vincent Cheung, Hayato Nishioka
― 5 min Lesedauer
Forscher entwickeln neue Strategien, um individuelle Tiere anhand ihrer einzigartigen Geräusche zu unterscheiden.
Ines Nolasco, Ilyass Moummad, Dan Stowell
― 6 min Lesedauer
Eine neue Methode vereinfacht die Erkennung von Sirenen für mehr Fahrzeugsicherheit.
Stefano Damiano, Thomas Dietzen, Toon van Waterschoot
― 6 min Lesedauer
Ein neuer Ansatz kombiniert die Erkennung von Geräuschen und die Sprechertrennung für ein besseres Audioverständnis.
Yidi Jiang, Ruijie Tao, Wen Huang
― 5 min Lesedauer
Ein neuer Ansatz verbessert die ASR, indem er sich auf bestimmte Sprecherdetails konzentriert.
Alexander Polok, Dominik Klement, Matthew Wiesner
― 6 min Lesedauer
Eine Studie zeigt, wie Deep-Learning-Modelle Emotionen in Sprache erkennen.
Satvik Dixit, Daniel M. Low, Gasser Elbanna
― 5 min Lesedauer
Ein einfach zu bedienendes Tool, um Sprachmodelle ohne komplexen Code fein abzustimmen.
Masao Someki, Kwanghee Choi, Siddhant Arora
― 7 min Lesedauer
Neue Methoden verbessern die Schalldämmung aus lauten Umgebungen ohne gelabelte Daten.
Hao Ma, Zhiyuan Peng, Xu Li
― 6 min Lesedauer
Ein neuer Ansatz geht die Kanalvariationen in Spracherkennungssystemen an.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 6 min Lesedauer
Eine neue Methode verbessert die Spracherkennung von Maschinen zur Sprecherverifizierung.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 6 min Lesedauer
Ein neues Modell verbessert die Audiogenerierung mit detaillierten Text- und Soundvorgaben.
Chenxu Xiong, Ruibo Fu, Shuchen Shi
― 6 min Lesedauer
Künstliche Intelligenz verändert die Musik mit neuen Werkzeugen und Ansätzen.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 6 min Lesedauer
MaskSR2 verbessert die Sprachklarheit und -qualität mit innovativen Techniken.
Xiaoyu Liu, Xu Li, Joan Serrà
― 5 min Lesedauer
Eine neue Methode zur Erzeugung von akzentuierter Sprache durch Texttransliteration.
Sho Inoue, Shuai Wang, Wanxing Wang
― 6 min Lesedauer
E1 TTS verwandelt Text schneller und effizienter in natürliche Sprache.
Zhijun Liu, Shuai Wang, Pengcheng Zhu
― 5 min Lesedauer
Wave-U-Mamba verbessert die Qualität von Sprachaufnahmen, damit man klarer kommunizieren kann.
Yongjoon Lee, Chanwoo Kim
― 5 min Lesedauer
Ein neues System sagt die Natürlichkeitswerte für synthetische Sprache mit innovativen Methoden voraus.
Kaito Baba, Wataru Nakata, Yuki Saito
― 6 min Lesedauer
Eine neue Methode nutzt Audio, um die Aussprachegenauigkeit von Maschinen zu verbessern.
Siqi Sun, Korin Richmond
― 6 min Lesedauer
Neue Methoden verbessern die Audio-Synchronisation bei wechselnden Videoszenen.
Mingjing Yi, Ming Li
― 4 min Lesedauer
Die GenSEC-Herausforderung erkunden, um die Genauigkeit der Spracherkennung zu verbessern.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 5 min Lesedauer
Eine neuartige Bewertungsmethode für Schizophrenie mit multimodalen Daten.
Gowtham Premananth, Carol Espy-Wilson
― 6 min Lesedauer
Neue Methoden helfen Maschinen, einzelne Geräusche besser zu interpretieren.
Sripathi Sridhar, Mark Cartwright
― 6 min Lesedauer
Eine Übersicht über Technologien zur Erkennung von Schlüsselwörtern und deren Herausforderungen mit der Urdu-Sprache.
Syed Muhammad Aqdas Rizvi
― 6 min Lesedauer