Ein Blick darauf, wie sich die Klangmerkmale in der populären Musik im Laufe der Jahrzehnte verändert haben.
Emmanuel Deruty, David Meredith, Stefan Lattner
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Ein Blick darauf, wie sich die Klangmerkmale in der populären Musik im Laufe der Jahrzehnte verändert haben.
Emmanuel Deruty, David Meredith, Stefan Lattner
― 5 min Lesedauer
Neueste Artikel
Drew Edwards, Xavier Riley, Pedro Sarmento
― 5 min Lesedauer
Kento Nozawa, Takashi Masuko, Toru Taniguchi
― 6 min Lesedauer
Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
― 5 min Lesedauer
Teresa Dorszewski, Lenka Tětková, Lars Kai Hansen
― 6 min Lesedauer
Mhd Modar Halimeh, Matteo Torcoli, Emanuël Habets
― 7 min Lesedauer
MAT-SED nutzt ein neuartiges Transformer-Modell für effektive Geräuscherkennung.
Pengfei Cai, Yan Song, Kang Li
― 5 min Lesedauer
Kombination von Herzgeräuschen und Echokardiographie, um die Diagnose von angeborenen Herzfehlern zu verbessern.
Zihan Zhao, Pingjie Wang, Liudan Zhao
― 6 min Lesedauer
Ein umfangreicher Datensatz von Gitarrenaufnahmen, der mit Notenblättern für Forschung und Analyse verknüpft ist.
Xavier Riley, Zixun Guo, Drew Edwards
― 5 min Lesedauer
Auptimize verbessert die Platzierung von Audiohinweisen für eine bessere Benutzerinteraktion in XR.
Hyunsung Cho, Alexander Wang, Divya Kartik
― 6 min Lesedauer
Malacopula stellt die Zuverlässigkeit von automatischen Sprecherverifizierungstechnologien in Frage.
Massimiliano Todisco, Michele Panariello, Xin Wang
― 7 min Lesedauer
Eine neue Methode für realistischere 3D-Gesichtsanimationen, die sich an persönliche Sprechstile anpassen.
Xukun Zhou, Fengxin Li, Ziqiao Peng
― 5 min Lesedauer
Feindliches Training verbessert die Genauigkeit der Schlüsselworterkennung in synthetischer und echter Sprache.
Hyun Jin Park, Dhruuv Agarwal, Neng Chen
― 5 min Lesedauer
Dieses Stück behandelt Few-Shot-Lernen und seinen Einfluss auf Audioaufgaben.
Athul Raimon, Shubha Masti, Shyam K Sateesh
― 7 min Lesedauer
Neue Technologie verknüpft Gesichtszüge mit Stimme und hilft bei der Kommunikation für Leute ohne Stimme.
Jaejun Lee, Yoori Oh, Injune Hwang
― 5 min Lesedauer
Eine neue Methode verbessert die Audio-Trennung und -Generierung ohne beschriftete Daten.
Giovanni Bindi, Philippe Esling
― 6 min Lesedauer
Die Herausforderungen von Fake-Audio und Sprecherverifizierung angehen.
Johan Rohdin, Lin Zhang, Oldřich Plchot
― 5 min Lesedauer
Analyse von Wutmusik-Features durch maschinelles Lernen für eine bessere Genre-Klassifikation.
Akul Kumar
― 5 min Lesedauer
Fake Audio-Clips sind ein ernsthaftes Problem; effektive Erkennungsmethoden sind wichtig.
Yuankun Xie, Chenxu Xiong, Xiaopeng Wang
― 6 min Lesedauer
Eine neue Methode verbessert die Genauigkeit bei der Erkennung von synthetischer Audios.
Zhiyong Wang, Xiaopeng Wang, Yuankun Xie
― 5 min Lesedauer
Eine neue Methode zum Trennen und Manipulieren von Musikklängen.
Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi
― 5 min Lesedauer
SSL-TTS macht die Sprachsynthese einfacher, indem es mit wenig Trainingsdaten hochwertige Ergebnisse erzielt.
Karl El Hajal, Ajinkya Kulkarni, Enno Hermann
― 6 min Lesedauer
Neue Methoden verbessern ASR-Modelle für mehrere Sprachen und bewahren das vorhandene Wissen.
Tianyi Xu, Kaixun Huang, Pengcheng Guo
― 6 min Lesedauer
Ein neuer Ansatz verbessert die Erkennung von Code-Switching-Phrasen in zweisprachiger Sprache.
Xucheng Wan, Naijun Zheng, Kai Liu
― 6 min Lesedauer
Ein innovatives System automatisiert die Klangproduktion für Filme und Spiele.
Junwon Lee, Jaekwon Im, Dabin Kim
― 8 min Lesedauer
Neue Methoden verbessern die Spracherkennung in lauten Umgebungen.
Xujiang Xing, Mingxing Xu, Thomas Fang Zheng
― 5 min Lesedauer
Neues Modell verbessert die Sprachumwandlung, besonders für geflüsterte Sprache und Echtzeitanwendungen.
Anastasia Avdeeva, Aleksei Gusev
― 6 min Lesedauer
Einen neuen digitalen Ansatz zur Klangmodellierung von Gitarrenverstärkern erkunden.
Yen-Tung Yeh, Yu-Hua Chen, Yuan-Chiao Cheng
― 6 min Lesedauer
Wir präsentieren ein bahnbrechendes System zur Generierung von hindustanischer Vokalmusik.
Nithya Shikarpur, Krishna Maneesha Dendukuri, Yusong Wu
― 7 min Lesedauer
Eine neue Methode zur genauen Modellierung von optischen Kompressoren mit neuronalen Netzwerken.
Riccardo Simionato, Stefano Fasciani
― 7 min Lesedauer
WhisperMask fängt die Stimme klar in lauten Umgebungen ein und verbessert die Kommunikation.
Hirotaka Hiraki, Shusuke Kanazawa, Takahiro Miura
― 6 min Lesedauer
Neue Methoden verbessern die Qualitätsbewertung der Stimme für Patienten mit Stimmproblemen.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 6 min Lesedauer
VoiceX vereinfacht den Prozess, personalisierte Stimmen für verschiedene Anwendungen zu erstellen.
Silvan Mertes, Daksitha Withanage Don, Otto Grothe
― 5 min Lesedauer
Untersuchen, wie Sprachmuster Bedeutung und Technologieleistung beeinflussen.
Nigel G. Ward, Divette Marco, Olac Fuentes
― 5 min Lesedauer
NEST bietet einen schnelleren, effizienteren Ansatz für selbstüberwachte Sprachaufgaben.
He Huang, Taejin Park, Kunal Dhawan
― 6 min Lesedauer
Aktuelle Benchmarks schätzen die Fähigkeit von Modellen, Audio- und Videodaten zu verbinden, falsch ein.
Liangyu Chen, Zihao Yue, Boshen Xu
― 6 min Lesedauer
Wav2Small verbessert die Emotionserkennung in Sprache mit geringeren Ressourcenbedarf.
Dionyssos Kounadis-Bastian, Oliver Schrüfer, Anna Derington
― 5 min Lesedauer
Ein Blick auf die Komplexität, gemischte Audiospuren zu identifizieren.
Viola Negroni, Davide Salvi, Paolo Bestagini
― 6 min Lesedauer
Ein Überblick über die reichen Dialekte des Tamil und Methoden zur Identifikation.
M. Nanmalar, P. Vijayalakshmi, T. Nagarajan
― 5 min Lesedauer
Ein neuer Ansatz zur Erkennung von Maschinenproblemen, ohne die Datensicherheit zu gefährden.
Anbai Jiang, Yuchen Shi, Pingyi Fan
― 6 min Lesedauer
VoiceTailor verwandelt TTS-Systeme für effiziente, personalisierte Sprachausgaben.
Heeseung Kim, Sang-gil Lee, Jiheum Yeom
― 5 min Lesedauer
Lern, wie sich Sound in Räumen ausbreitet und wofür man das nutzen kann.
Shoichi Koyama, Juliano G. C. Ribeiro, Tomohiko Nakamura
― 6 min Lesedauer
StyleSpeech verbessert TTS-Systeme, indem es natürliche Sprachnuancen einfängt.
Haowei Lou, Helen Paik, Wen Hu
― 6 min Lesedauer
Untersuchung von Methoden zur Verbesserung der Sprachklarheit in lauten Umgebungen durch Deep Learning.
Shrishti Saha Shetu, Emanuël A. P. Habets, Andreas Brendel
― 6 min Lesedauer
Das DualSpeech-Modell verbessert die Klarheit der TTS und die Ähnlichkeit zum Sprecher.
Jinhyeok Yang, Junhyeok Lee, Hyeong-Seok Choi
― 6 min Lesedauer
Wir stellen SONICS vor, ein Datensatz, der dafür entwickelt wurde, KI-generierte Musik genau zu erkennen.
Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker
― 9 min Lesedauer