Ein neues Framework nutzt schwach gelabelte Daten für eine effektive Audio-Trennung.
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Ein neues Framework nutzt schwach gelabelte Daten für eine effektive Audio-Trennung.
― 7 min Lesedauer
Neueste Artikel
― 4 min Lesedauer
― 6 min Lesedauer
Neueste Artikel
Ein neues System verbessert die Sprachgenerierung mit hochwertigen Ausgaben.
― 7 min Lesedauer
Ein neues Modell verbessert die Spracherkennung bei emotionaler Sprache.
― 6 min Lesedauer
Lerne, wie du FM und PM effektiv im Sounddesign einsetzt.
― 6 min Lesedauer
Eine neuartige Methode verbessert Spracherkennungsaufgaben mit weniger gekennzeichneten Daten.
― 6 min Lesedauer
Dieser Artikel untersucht die neuesten Verbesserungen bei der Erstellung von schriftlichen Audio-Beschreibungen.
― 5 min Lesedauer
Effiziente Audioerkennungstechnik, die für stromsparende Fernsehgeräte entwickelt wurde.
― 5 min Lesedauer
SCHmUBERT bietet einen frischen Ansatz, um symbolische Musik mit KI zu erstellen.
― 7 min Lesedauer
Ein neues Modell verbessert die Vertrauenswerte in Spracherkennungssystemen.
― 5 min Lesedauer
Neue Techniken verbessern das Verständnis von dysartherischer Sprache in Kommunikationssystemen.
― 5 min Lesedauer
Ein neuartiger unbeaufsichtigter Ansatz verbessert die Sprachisolierung in Audiomischungen.
― 5 min Lesedauer
Ein neuer Massstab zur Bewertung von Machine-Learning-Modellen in der Sprachverständnis über verschiedene Sprachen.
― 6 min Lesedauer
Dieser Artikel behandelt Methoden zur Verbesserung der Telefonklassifizierung mithilfe von Audio-Features.
― 7 min Lesedauer
Ein neues Modell verbessert die Audiowahrnehmung und Denkfähigkeiten in KI.
― 6 min Lesedauer
NASS verbessert die Sprachisolierung in lauten Umgebungen und schlägt dabei die herkömmlichen Methoden.
― 5 min Lesedauer
Verbesserung der Soundqualitätsmetriken mit neuen Lautheitsberechnungsmethoden.
― 5 min Lesedauer
AlignAtt verbessert die gleichzeitige Sprachübersetzung mit mehr Geschwindigkeit und Qualität.
― 5 min Lesedauer
Eine neue Methode sorgt dafür, dass die Privatsphäre bei der Sprachklassifizierung gewahrt bleibt, ohne die Leistung zu beeinträchtigen.
― 6 min Lesedauer
Diese Studie zeigt, wie man TTS-Technologie effizient an verschiedene Akzente anpassen kann.
― 5 min Lesedauer
Das AMII-Modell verbessert die Kommunikation für sozial interaktive Agenten durch bessere nonverbale Verhaltensweisen.
― 6 min Lesedauer
Wir stellen ein Modell vor, das verschiedene Datentypen für komplexe Aufgaben integriert.
― 6 min Lesedauer
Forscher verbessern, wie wir Tiergeräusche automatisch erkennen.
― 7 min Lesedauer
Entdeck, wie Whisper sich an verschiedene Sprachaufgaben anpasst, indem es mit Prompt Engineering arbeitet.
― 5 min Lesedauer
FastFit verbessert die Sprachgenerierungsgeschwindigkeit, ohne die Klangqualität zu verlieren.
― 5 min Lesedauer
Eine neue Methode verbessert die Erkennung von Schlüsselwörtern in Audioaufnahmen.
― 6 min Lesedauer
Das AED-EEND-System verbessert die Sprecherdiarisierung, indem es fortschrittliche Techniken für bessere Genauigkeit integriert.
― 5 min Lesedauer
Pengi vereint Audioverstehen und Textgenerierung in einem einzigen Modell.
― 7 min Lesedauer
Eine neue Methode verbessert die Keyword-Erkennungssysteme für eine bessere Leistung bei wechselnden Audio.
― 4 min Lesedauer
Ein neues TTS-System verbessert die Sprachgenerierung in mehreren Sprachen mit wenig Daten.
― 6 min Lesedauer
CoDi ermöglicht die gleichzeitige Erstellung verschiedener Inhaltsarten aus unterschiedlichen Eingaben.
― 4 min Lesedauer
Neue Techniken verbessern die Klangtrennung aus Ambisonics-Mischungen für bessere Audioerlebnisse.
― 6 min Lesedauer
Neue Methoden, die Sprache nutzen, zeigen vielversprechende Ansätze zur Identifizierung von Atemmustern und Gesundheitszuständen.
― 5 min Lesedauer
MIDI-Draw ermöglicht es jedem, Musik zu machen, indem er Melodien intuitiv zeichnet.
― 5 min Lesedauer
Neue Techniken, die aus der Bildverarbeitung entlehnt sind, verbessern die Bewertung der Audioqualität.
― 7 min Lesedauer
Neue Methoden verbessern das maschinelle Verständnis von Sprache durch Audio- und visuelle Hinweise.
― 5 min Lesedauer
Neues Modell verbessert die Keyword-Erkennung in schwierigen akustischen Bedingungen.
― 6 min Lesedauer
Eine neue Methode verbessert Sprachmodelle, indem sie Wissen von Textmodellen überträgt.
― 6 min Lesedauer
Eine Sammlung von Atemgeräuschen hilft dabei, COVID-19-Fälle zu identifizieren.
― 5 min Lesedauer
Ein neues Modell verbessert die Sprachverifikation mit effizienten Techniken.
― 5 min Lesedauer
Ein genauer Blick auf die Sprechererkennungstechniken, die für den Wettbewerb 2022 entwickelt wurden.
― 5 min Lesedauer
Ein neuer Ansatz trainiert KI, um Sprache und Emotionen in lauten Umgebungen besser zu erkennen.
― 6 min Lesedauer