Eine Studie darüber, wie Designentscheidungen die Sprachmodelle beeinflussen.
Li-Wei Chen, Takuya Higuchi, He Bai
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Eine Studie darüber, wie Designentscheidungen die Sprachmodelle beeinflussen.
Li-Wei Chen, Takuya Higuchi, He Bai
― 7 min Lesedauer
Dieser Artikel behandelt Methoden zur Verbesserung der Spracherkennung für Akzentgespräche.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 6 min Lesedauer
Diese Studie befasst sich mit den Herausforderungen von Audio-Sprachmodellen für ressourcenarme Sprachen.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 6 min Lesedauer
Verbesserung der Sprachsynthese in indischen Sprachen mithilfe von Inter-Pause-Einheiten.
Anusha Prakash, Hema A Murthy
― 7 min Lesedauer
CADA-GAN verbessert die Leistung von ASR-Systemen in verschiedenen Aufnahmeumgebungen.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 6 min Lesedauer
Llama-AVSR kombiniert Audio- und visuelle Eingaben für eine verbesserte Spracherkennungsgenauigkeit.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 6 min Lesedauer
Eine neue Methode nutzt virtuelle Schattenbildung, um das Aussprachefeedback für Sprachlerner zu verbessern.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 6 min Lesedauer
Eine neue ASR-Methode hilft der Technik, die Sprache von Kindern besser zu verstehen.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 5 min Lesedauer
YOSS nutzt Audio, um die Objekterkennung in Bildern zu verbessern.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 5 min Lesedauer
Ein Projekt, das Sprach- und Textdatensätze für Sprachen mit begrenzten Ressourcen entwickelt.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 5 min Lesedauer
Ein neues Framework verbessert die Spracherkennung und passt sich verschiedenen Sprachaufgaben an.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 4 min Lesedauer
Neue Methoden verbessern die Spracherkennung für ressourcenarme Sprachen ohne Text.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 5 min Lesedauer
Neue Methoden verbessern die Genauigkeit in Spracherkennungssystemen durch phoneticisches Verständnis.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 6 min Lesedauer
Neue akustische Merkmale verbessern die Leistung von ASR-Systemen in lauten Umgebungen.
Muhammad A. Shah, Bhiksha Raj
― 5 min Lesedauer
Neues Modell erzielt schnellere Spracherkennung, ohne die Genauigkeit zu opfern.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 4 min Lesedauer
Entdecke, wie Matryoshka-Embeddings die Effizienz und Flexibilität der Sprechererkennung verbessern.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 5 min Lesedauer
Das neue Modell VoiceGuider verbessert TTS für verschiedene Sprecher.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 6 min Lesedauer
Eine neue Methode verbessert die Spracherkennung für lange Aufnahmen.
Hao Yen, Shaoshi Ling, Guoli Ye
― 5 min Lesedauer
Neue Methode für Sprachmodelle verringert den Bedarf an umfangreichen Daten.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 6 min Lesedauer
Wie neue Methoden die Sprecheridentifizierung in Audioaufnahmen verändern.
Petr Pálka, Federico Landini, Dominik Klement
― 6 min Lesedauer
Erfahre, wie TSE die Spracherkennung in lauten Umgebungen mit Text-Hinweisen verbessert.
Ziyang Jiang, Xinyuan Qian, Jiahe Lei
― 6 min Lesedauer
Sprachassistenten helfen dabei, frühe Anzeichen von Gedächtnisproblemen bei älteren Menschen zu erkennen.
Nana Lin, Youxiang Zhu, Xiaohui Liang
― 7 min Lesedauer
Mamba verbessert die Spracherkennung mit Schnelligkeit und Genauigkeit und verändert die Interaktion mit Geräten.
Yoshiki Masuyama, Koichi Miyazaki, Masato Murata
― 4 min Lesedauer
Neue Methode verbessert die Sprachverständlichkeit durch visuelle Informationen aus der Umgebung.
Xinyuan Qian, Jiaran Gao, Yaodan Zhang
― 5 min Lesedauer
SAMOS bietet eine neue Möglichkeit, die Sprachqualität zu messen und die Natürlichkeit zu verbessern.
Yu-Fei Shi, Yang Ai, Ye-Xin Lu
― 6 min Lesedauer
Tiny-Align verbessert Sprachassistenten für eine bessere persönliche Interaktion auf kleinen Geräten.
Ruiyang Qin, Dancheng Liu, Gelei Xu
― 6 min Lesedauer
Hier ist VQalAttent, ein einfacheres Modell zur Erzeugung realistischer Maschinenansprache.
Armani Rodriguez, Silvija Kokalj-Filipovic
― 5 min Lesedauer
Ein neues ASR-System verbessert die medizinische Spracherkennung für eine präzise Patientenversorgung.
Sourav Banerjee, Ayushi Agarwal, Promila Ghosh
― 6 min Lesedauer
Erforschen, wie ASR-Modelle helfen, Sprachdeepfakes effektiv zu erkennen.
Davide Salvi, Amit Kumar Singh Yadav, Kratika Bhagtani
― 7 min Lesedauer
Verfolgt Sprecher in mehrsprachigen Umgebungen effizient mit automatischer Spracherkennung.
Thai-Binh Nguyen, Alexander Waibel
― 7 min Lesedauer
Die Verbesserung der maschinellen Transkription für ein besseres Verständnis von Sprachstörungen.
Jiachen Lian, Xuanru Zhou, Zoe Ezzes
― 6 min Lesedauer
Neues Modell verbessert die Genauigkeit der chinesischen Spracherkennung erheblich.
Junhong Liang
― 6 min Lesedauer
Noro verbessert die Sprachumwandlung, sodass sie selbst in lauten Umgebungen effektiv ist.
Haorui He, Yuchen Song, Yuancheng Wang
― 6 min Lesedauer
Ein neuer Chatbot, der menschliche Gespräche mit emotionalem Bewusstsein bietet.
Aohan Zeng, Zhengxiao Du, Mingdao Liu
― 3 min Lesedauer
Entdecke, wie stilunabhängige Bewertungen die Systeme zur automatischen Spracherkennung verbessern.
Quinten McNamara, Miguel Ángel del Río Fernández, Nishchal Bhandari
― 8 min Lesedauer
Erfahre, wie adaptives Dropout die Effizienz in Spracherkennungssystemen verbessert.
Yotaro Kubo, Xingyu Cai, Michiel Bacchiani
― 8 min Lesedauer
Forschung testet, wie gut KI mit Kindern kommunizieren kann, ähnlich wie es Betreuer tun.
Jing Liu, Abdellah Fourtassi
― 6 min Lesedauer
Ein Sprach-zu-Text-Tool verwandelt gesprochene Mathematik mühelos in LaTeX.
Evangelia Gkritzali, Panagiotis Kaliosis, Sofia Galanaki
― 6 min Lesedauer
Die Text-zu-Sprache-Technologie revolutionieren mit besserer Effizienz und natürlicher klingenden Stimmen.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 6 min Lesedauer
Sprachrecognitionstechnik verbessert die Erkennung von Ziffern, besonders in lauten Umgebungen.
Ali Nasr-Esfahani, Mehdi Bekrani, Roozbeh Rajabi
― 5 min Lesedauer