Techniken zur Sprecheranonymisierung schützen persönliche Informationen und sorgen gleichzeitig für klare Kommunikation.
Jixun Yao, Nikita Kuzmin, Qing Wang
― 6 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Techniken zur Sprecheranonymisierung schützen persönliche Informationen und sorgen gleichzeitig für klare Kommunikation.
Jixun Yao, Nikita Kuzmin, Qing Wang
― 6 min Lesedauer
Neueste Artikel
Mattes Ohlenbusch, Christian Rollwage, Simon Doclo
― 5 min Lesedauer
Ju-Chiang Wang, Wei-Tsung Lu, Jitong Chen
― 5 min Lesedauer
Tzu-Quan Lin, Guan-Ting Lin, Hung-yi Lee
― 8 min Lesedauer
Nidula Elgiriyewithana, N. D. Kodikara
― 6 min Lesedauer
Junkai Wu, Xulin Fan, Bo-Ru Lu
― 5 min Lesedauer
Ein selbstüberwachter Lernansatz verringert den Bedarf an beschrifteten Audiodaten.
Chunxi Wang, Maoshen Jia, Meiran Li
― 6 min Lesedauer
Eine Studie zeigt, wie Sprachdaten dabei helfen, Emotionen bei spanischsprechenden Personen zu erkennen.
Elena Ortega-Beltrán, Josep Cabacas-Maso, Ismael Benito-Altamirano
― 6 min Lesedauer
Eine neue Methode verbessert die Sprachklarheit in lauten Umgebungen.
Siyi Wang, Siyi Liu, Andrew Harper
― 5 min Lesedauer
Innovative Ansätze zielen darauf ab, die Musikqualität für Menschen mit Hörverlust zu verbessern.
Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister
― 6 min Lesedauer
GenRep bietet einen neuen Ansatz, um ungewöhnliche Maschinengeräusche mit wenig Daten zu erkennen.
Phurich Saengthong, Takahiro Shinozaki
― 5 min Lesedauer
TF-Mamba verbessert die Klanglokalisierung mit einem neuartigen Ansatz, der Zeit- und Frequenzdaten integriert.
Yang Xiao, Rohan Kumar Das
― 5 min Lesedauer
Die Forschung an modularen ASR-Systemen zielt darauf ab, die Leistung in lauten Umgebungen zu verbessern.
Louise Coppieters de Gibson, Philip N. Garner, Pierre-Edouard Honnet
― 4 min Lesedauer
Eine neue Methode kombiniert Bedeutung und Klang für eine verbesserte Emotionserkennung in der Sprache.
Soumya Dutta, Sriram Ganapathy
― 7 min Lesedauer
In diesem Artikel geht's um effektive Trainingsmethoden für Sprachmodelle mit selbstüberwachtem Lernen.
Andy T. Liu, Yi-Cheng Lin, Haibin Wu
― 5 min Lesedauer
Eine neue Architektur verbessert die Schallerkennung in verschiedenen Umgebungen.
Zehao Wang, Haobo Yue, Zhicheng Zhang
― 6 min Lesedauer
Ein neues Modell verbessert die Musikgenerierung, indem es sich auf einzelne Instrumente konzentriert.
Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei
― 6 min Lesedauer
Wir präsentieren DENSE, eine Methode zur Verbesserung der Sprachtrennung mit dynamischen Einbettungen.
Yiwen Wang, Zeyu Yuan, Xihong Wu
― 6 min Lesedauer
Eine neue Methode verbessert die Audio-Transformation, während Melodie und Klangqualität erhalten bleiben.
Michele Mancusi, Yurii Halychanskyi, Kin Wai Cheuk
― 6 min Lesedauer
Diese Methode verbessert die Erkennungsgenauigkeit für seltene Namen in Sprachausgaben.
Ernest Pusateri, Anmol Walia, Anirudh Kashi
― 6 min Lesedauer
Die Verbesserung der Identifizierung gesprochener Wörter durch visuelle Hinweise in unterversorgten Sprachen.
Leanne Nortje, Dan Oneata, Herman Kamper
― 8 min Lesedauer
Ein neues Modell verbessert die Erkennung von Audio-Deepfakes mit kontinuierlichem Lernen.
Tuan Duy Nguyen Le, Kah Kuan Teh, Huy Dat Tran
― 6 min Lesedauer
Ein Überblick über audio-visuelle Sprecherdiarisierungsmethoden, Herausforderungen und Systeme.
Victoria Mingote, Alfonso Ortega, Antonio Miguel
― 5 min Lesedauer
BigCodec verbessert die Klangqualität bei Audioübertragungen mit niedriger Bitrate.
Detai Xin, Xu Tan, Shinnosuke Takamichi
― 5 min Lesedauer
Neue Methode verbessert die Tonaufnahme mit runden Mikrofonen für bessere Audioqualität.
Yue Qiao, Vinay Kothapally, Meng Yu
― 6 min Lesedauer
In diesem Artikel geht's um die Vorteile, Transformer-Modelle für Sprachaufgaben zu vereinfachen.
Teresa Dorszewski, Albert Kjøller Jacobsen, Lenka Tětková
― 5 min Lesedauer
Sortformer integriert Sprecherdiarisierung und ASR für eine verbesserte Audioverarbeitung.
Taejin Park, Ivan Medennikov, Kunal Dhawan
― 5 min Lesedauer
Ein neuer Ansatz, um realistische Klavierklänge durch Klangkomponententrennung zu erzeugen.
Riccardo Simionato, Stefano Fasciani
― 8 min Lesedauer
ParaEVITS verbessert den emotionalen Ausdruck in TTS durch natürliche Sprachführung.
Xin Jing, Kun Zhou, Andreas Triantafyllopoulos
― 5 min Lesedauer
Lerne, wie Audio-Inpainting fehlende Teile von Signalen wiederherstellt.
Ondřej Mokrý, Peter Balušík, Pavel Rajmic
― 5 min Lesedauer
Neue Methoden verbessern das Verständnis gesprochener Sprache durch innovative Datensätze.
Lennart Keller, Goran Glavaš
― 5 min Lesedauer
Neue Methoden verbessern die Mensch-Roboter-Konversation, indem sie die Sprachklarheit erhöhen.
Yue Li, Koen V. Hindriks, Florian A. Kunneman
― 5 min Lesedauer
Neue Methoden verbessern den Zugang zu gesprochenen Nachrichten, indem sie Themen effektiver segmentieren.
Sakshi Deo Shukla, Pavel Denisov, Tugtekin Turan
― 7 min Lesedauer
Diese Forschung analysiert Mambas Leistung bei Sprachaufgaben und legt den Fokus auf Klangrekonstruktion und -erkennung.
Xiangyu Zhang, Jianbo Ma, Mostafa Shahin
― 6 min Lesedauer
Eine neue Methode zum Musiktagging mit Few-Shot-Learning zeigt vielversprechende Ergebnisse.
T. Aleksandra Ma, Alexander Lerch
― 6 min Lesedauer
FlowSep bringt ne Methode raus, um Sounds mit Sprachabfragen zu extrahieren.
Yi Yuan, Xubo Liu, Haohe Liu
― 5 min Lesedauer
SSR-Speech bietet neue Lösungen für Sprachgenerierung und -bearbeitung an.
Helin Wang, Meng Yu, Jiarui Hai
― 5 min Lesedauer
Fortschritte in der KI machen Fake-Audio alltäglich, was die Notwendigkeit für Erkennung erhöht.
Hong-Hanh Nguyen-Le, Van-Tuan Tran, Dinh-Thuc Nguyen
― 7 min Lesedauer
Neues Modell verbessert die Sprachgenerierung in verschiedenen Dialekten von Tonakzentsprachen.
Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
― 5 min Lesedauer
Eine neue Methode verbessert die Genauigkeit der Schalllokalisation und sorgt gleichzeitig für Datensicherheit.
Xinyuan Qian, Xianghu Yue, Jiadong Wang
― 4 min Lesedauer
Eine neue Methode zur Erstellung von strukturierter Popmusik mithilfe graphbasierter Techniken.
Wen Qing Lim, Jinhua Liang, Huan Zhang
― 6 min Lesedauer
Eine neue Methode zur Verbesserung des Keyword-Spotting, während das erlernte Wissen erhalten bleibt.
Tianyi Peng, Yang Xiao
― 6 min Lesedauer
Forscher entwickeln einen Datensatz, um die Spracherkennung und Analyse-Techniken zu verbessern.
Xiangyu Zhang, Daijiao Liu, Tianyi Xiao
― 6 min Lesedauer
SoloAudio verbessert die Klange extraction durch fortschrittliche Techniken und synthetische Daten.
Helin Wang, Jiarui Hai, Yen-Ju Lu
― 5 min Lesedauer
OpenACE bietet einen fairen Massstab, um Audio-Codecs unter verschiedenen Bedingungen zu bewerten.
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak
― 5 min Lesedauer
Eine Methode zur Identifizierung von Fehlern in Elektromotoren durch Klanganalyse und bayesianische neuronale Netze.
Waldemar Bauer, Marta Zagorowska, Jerzy Baranowski
― 5 min Lesedauer