Neue akustische Merkmale verbessern die Leistung von ASR-Systemen in lauten Umgebungen.
Muhammad A. Shah, Bhiksha Raj
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Neue akustische Merkmale verbessern die Leistung von ASR-Systemen in lauten Umgebungen.
Muhammad A. Shah, Bhiksha Raj
― 5 min Lesedauer
Eine neue Verlustfunktion verbessert die Audioqualität, indem sie Phase und Magnitude ausrichtet.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 6 min Lesedauer
Ein neues TTS-Modell bringt emotionale Tiefe in computer-generierte Sprache.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 min Lesedauer
Bewertung von Spracherkennungsmodellen für Autismus-Diagnosesitzungen.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 6 min Lesedauer
Neuere Methoden verbessern die Audio-Klarheit und -Qualität mit fortschrittlichen Modellen.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 6 min Lesedauer
Ein neuer Ansatz verbessert die Erkennung von gefälschten Audioaufnahmen.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 5 min Lesedauer
ESPnet-Codec verbessert das Training und die Bewertung von neuronalen Codecs für Audio und Sprache.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 7 min Lesedauer
Erforschen von Methoden, um RNNs für unterschiedliche Audio-Abtastraten anzupassen.
Alistair Carson, Alec Wright, Stefan Bilbao
― 6 min Lesedauer
Neues Modell erzielt schnellere Spracherkennung, ohne die Genauigkeit zu opfern.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 4 min Lesedauer
Entdecke, wie Matryoshka-Embeddings die Effizienz und Flexibilität der Sprechererkennung verbessern.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 5 min Lesedauer
Hier ist NanoVoice, ein schnelles und effektives Text-zu-Sprache-Modell für personalisierte Audios.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 5 min Lesedauer
Das neue Modell VoiceGuider verbessert TTS für verschiedene Sprecher.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 6 min Lesedauer
Eine neuartige Methode, um Stimmen über Sprachen hinweg zu konvertieren und dabei einzigartige Merkmale zu bewahren.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 min Lesedauer
Neue Techniken verbessern die Ausdrucksqualität der Sprache bei verschiedenen Sprechern.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 min Lesedauer
Dieser Artikel untersucht die Rolle von Wahrnehmungsmetriken in der Klassifizierung von Musikgenres.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 5 min Lesedauer
Eine neue Methode verbessert die Sprach- und Audioverarbeitung bei verschiedenen Aufgaben.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 5 min Lesedauer
Ein neues System verbessert die Sprecheridentifikation bei Gesprächen mit mehreren Teilnehmern.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 5 min Lesedauer
Ein neues Framework verbessert den emotionalen Ausdruck in TTS-Systemen.
Kun Zhou, You Zhang, Shengkui Zhao
― 6 min Lesedauer
Neueste Erkenntnisse zeigen, dass Drucksensoren zum Abhören verwendet werden können.
Yonatan Gizachew Achamyeleh, Mohamad Habib Fakih, Gabriel Garcia
― 4 min Lesedauer
Ein neuer Algorithmus verbessert die Erkennung von Klangereignissen mithilfe von selbstüberwachtem Lernen.
Pengfei Cai, Yan Song, Nan Jiang
― 5 min Lesedauer
Die Forschung konzentriert sich darauf, Methoden zur Erkennung von realistisch gefälschter Sprache zu verbessern.
Davide Salvi, Viola Negroni, Luca Bondi
― 5 min Lesedauer
Eine neue Methode vereinfacht die Erstellung von Audio und Video für bessere Synchronisation.
Masato Ishii, Akio Hayakawa, Takashi Shibuya
― 6 min Lesedauer
Steuer die Audioeffekte mit einfachen Sprachbeschreibungen für einfachere Soundanpassungen.
Annie Chu, Patrick O'Reilly, Julia Barnett
― 6 min Lesedauer
Ein neues Modell und Benchmark zur Bewertung von Multi-Audio-Aufgaben vorstellen.
Yiming Chen, Xianghu Yue, Xiaoxue Gao
― 6 min Lesedauer
Ein neues System modelliert die emotionale Intensität bei animierten Charakteren für mehr Realismus.
Jingyi Xu, Hieu Le, Zhixin Shu
― 7 min Lesedauer
OpenSep automatisiert die Audio-Trennung für klarere Klangerlebnisse ohne manuelle Eingaben.
Tanvir Mahmud, Diana Marculescu
― 6 min Lesedauer
PALM verbessert die Audioerkennung, indem es die Darstellung und Effizienz von Prompts optimiert.
Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi
― 5 min Lesedauer
Erforscht, wie Drahtwicklungen und Stärke den Sound von Gitarren-Pickups beeinflussen.
Charles Batchelor, Jack Gooding, William Marriott
― 7 min Lesedauer
Eine neue Methode verbessert die Spracherkennung für lange Aufnahmen.
Hao Yen, Shaoshi Ling, Guoli Ye
― 5 min Lesedauer
Diese Studie untersucht, wie Audio, Video und Text zusammen in der Spracherkennung funktionieren.
Chen Chen, Xiaolou Li, Zehua Liu
― 7 min Lesedauer
Ein neues Modell verbessert die Natürlichkeit in Text-zu-Sprache-Systemen, indem es Tonhöhenmuster analysiert.
Tomilov A. A., Gromova A. Y., Svischev A. N
― 5 min Lesedauer
Ein neues Modell verbessert die Sprachdarstellung für afrikanische Sprachen und fördert die Inklusivität in der Technologie.
Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow
― 5 min Lesedauer
Ein neues Modell verbessert die Musikproduktion mit Melodien und Textbeschreibungen.
Shaopeng Wei, Manzhen Wei, Haoyu Wang
― 5 min Lesedauer
Neue Methode für Sprachmodelle verringert den Bedarf an umfangreichen Daten.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 6 min Lesedauer
Lern, wie Sprachumwandlung funktioniert und welche spannenden Anwendungen es gibt.
Arip Asadulaev, Rostislav Korst, Vitalii Shutov
― 5 min Lesedauer
Entdecke, wie CCI die Qualitätseinschätzungen von Multimedia verbessert.
Alessandro Ragano, Helard Becerra Martinez, Andrew Hines
― 7 min Lesedauer
Forscher kombinieren Audio- und visuelle Hinweise, um Lügen genauer zu erkennen.
Abdelrahman Abdelwahab, Akshaj Vishnubhatla, Ayaan Vaswani
― 6 min Lesedauer
Ein neues sprachbasiertes Netzwerk überbrückt Sprachbarrieren in Notfällen.
Majid Behravan, Elham Mohammadrezaei, Mohamed Azab
― 6 min Lesedauer
Lern, wie virtuelle Assistenten Nutzerbefehle besser verstehen.
Ognjen, Rudovic, Pranay Dighe
― 7 min Lesedauer
MACE verbessert Audio-Beschreibungen, indem es Geräusche mit genauen Textbeschreibungen verknüpft.
Satvik Dixit, Soham Deshmukh, Bhiksha Raj
― 5 min Lesedauer