Erschliessen, wie Gesten und Mimik unser Verständnis von gesprochener Sprache verbessern.
― 8 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Erschliessen, wie Gesten und Mimik unser Verständnis von gesprochener Sprache verbessern.
― 8 min Lesedauer
Ein Blick auf das Mischen von Musik, wo technisches Können auf künstlerische Vision trifft.
― 5 min Lesedauer
Neue Methoden zur Geräuscherkennung und -lokalisierung mit synthetischen Daten erforschen.
― 6 min Lesedauer
Ein neues System hilft Musikern, Sound auf einer virtuellen Bühne zu erleben.
― 7 min Lesedauer
Neue Methode verbessert die Erkennung von gefälschten Audio-Segmenten in Aufnahmen.
― 6 min Lesedauer
Computer lernen, Rhythmus und Harmonie in Musik für kreative Anwendungen zu trennen.
― 4 min Lesedauer
Microsofts MuLanTTS bietet natürliche und ausdrucksstarke Text-zu-Sprache-Funktionen für Französisch.
― 5 min Lesedauer
Neue Datensätze und Methoden verbessern die Fahrzeugklassifizierung für ein besseres Verkehrsmanagement.
― 6 min Lesedauer
Neue Methoden verbessern die Genauigkeit und Geschwindigkeit in der Spracherkennungstechnologie.
― 6 min Lesedauer
Ein neuer Synthesizer verbessert die Erzeugung von realistischen Soundeffekten für Medien.
― 6 min Lesedauer
Ein neuer Ansatz verbessert die Vertrauensschätzung in ASR-Systemen für bessere Genauigkeit.
― 5 min Lesedauer
Einführung eines Rahmens für natürlichere und ausdrucksvollere Sprachsynthese.
― 6 min Lesedauer
Lern, wie Technologie dabei hilft, Musikgenres effizient zu kategorisieren.
― 6 min Lesedauer
Ein einheitlicher Ansatz zur Bewertung der Fischfütterung mit Audio- und Videodaten.
― 5 min Lesedauer
Eine neue Methode verbessert die Erstellung von emotional ausdrucksvollen Talking-Head-Videos.
― 7 min Lesedauer
Diese Studie untersucht Probleme bei der Verwendung von ConvNets zur Erstellung von Audio-Filterbänken.
― 5 min Lesedauer
Das CLAP-Modell verbindet Audio- und Textverarbeitung für verschiedene Anwendungen.
― 4 min Lesedauer
Ein Projekt zielt darauf ab, die Verarbeitung von französischer Sprache mit selbstüberwachtem Lernen zu verbessern.
― 6 min Lesedauer
Neue Methoden verbessern, wie Maschinen Sprachrhythmus und Emotionen erkennen.
― 7 min Lesedauer
Ein neuer Ansatz verbessert die Schallabschätzung in Räumen mit streuenden Objekten.
― 6 min Lesedauer
Untersucht, wie Unentscheidbarkeit die Musikkomposition und -produktion heute beeinflusst.
― 5 min Lesedauer
Dieser Artikel untersucht Fortschritte in der Sprecherdiarisierung mithilfe von Sprachmodellen für eine bessere Genauigkeit.
― 5 min Lesedauer
Diese Studie verbessert die Fähigkeit von ASR-Systemen, die Sprache von Kindern zu erkennen.
― 6 min Lesedauer
Forscher untersuchen Audiotechnologie zur Verbesserung der Fussgängererkennung in städtischen Gebieten.
― 6 min Lesedauer
Neue Methode verbessert die Lokalisierung von Klangquellen und die Trennung von Schallfeldern.
― 6 min Lesedauer
Eine neue Methode verbessert die Synthese von Schlagzeugklängen, indem sie sich auf spitze Transientelemente konzentriert.
― 6 min Lesedauer
Forscher entwickeln synthetische Sprachdaten, um die Privatsphäre bei der Sprach erken nung zu schützen.
― 6 min Lesedauer
VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.
― 4 min Lesedauer
Neues System verbessert die Spracherkennung mit kontextbezogenen Aufforderungen.
― 4 min Lesedauer
EnCodecMAE kombiniert selbstüberwachtes Lernen und Audio-Codecs für bessere Audio-Aufgabenleistung.
― 6 min Lesedauer
Eine Studie über den Einsatz von Machine Learning zur Identifizierung von Kindergeräuschen für die ASD-Beurteilung.
― 6 min Lesedauer
Eine flexible Methode zur Erkennung von Schlüsselwörtern in der Sprache über verschiedene Sprachen hinweg.
― 6 min Lesedauer
Ein Blick darauf, wie die Sprachqualität mit Crowdsourcing getestet wird.
― 5 min Lesedauer
Eine neue Methode trainiert Audio-Untertitelungssysteme nur mit Textbeschreibungen.
― 7 min Lesedauer
Ein Leitfaden zum Verfassen von klaren und effektiven wissenschaftlichen Arbeiten.
― 3 min Lesedauer
Überprüfung der Risiken von Backdoor-Angriffen auf Sprachverifizierungssysteme.
― 7 min Lesedauer
Eine neue Methode verbessert die audio-visuelle Segmentierung ohne detaillierte Labels.
― 6 min Lesedauer
PIAVE hilft Maschinen, Stimmen klar zu erfassen, selbst wenn die Sprecher den Kopf drehen.
― 6 min Lesedauer
Libriheavy bietet 50.000 Stunden gesprochenes Englisch an, um die Spracherkennungstechnologie zu verbessern.
― 5 min Lesedauer
AV2Wav verbessert die Sprachqualität mit Audio- und visuellen Hinweisen.
― 5 min Lesedauer