Eine Methode zur Verbesserung der Spracherkennung in lauten Umgebungen.
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Eine Methode zur Verbesserung der Spracherkennung in lauten Umgebungen.
― 7 min Lesedauer
Forscher entwickeln SaSLaW, um die Sprachadaptation von Maschinen in verschiedenen Umgebungen zu verbessern.
― 5 min Lesedauer
Ein neuer Datensatz hebt Vorurteile in Sprachmodellen basierend auf Geschlecht und Alter hervor.
― 8 min Lesedauer
Forschung zeigt, wie man Sprachmodelle kleiner und effizienter machen kann.
― 6 min Lesedauer
Feindliches Training verbessert die Genauigkeit der Schlüsselworterkennung in synthetischer und echter Sprache.
― 5 min Lesedauer
Ein neuer Massstab verbessert die Bewertung von Sprachemotionserkennungssystemen über Sprachen und Emotionen hinweg.
― 6 min Lesedauer
Neue Methoden verbessern ASR-Modelle für mehrere Sprachen und bewahren das vorhandene Wissen.
― 6 min Lesedauer
Ein neuer Ansatz verbessert die Erkennung von Code-Switching-Phrasen in zweisprachiger Sprache.
― 6 min Lesedauer
Eine neue Methode, um lange Datensequenzen besser zu verarbeiten.
― 5 min Lesedauer
Untersuchen, wie Sprachmuster Bedeutung und Technologieleistung beeinflussen.
― 5 min Lesedauer
Ein Blick auf die Komplexität, gemischte Audiospuren zu identifizieren.
― 6 min Lesedauer
O-HuBERT verbessert die Spracherkennung, indem es Inhalt und expressive Informationen trennt.
― 6 min Lesedauer
Eine neue Methode verbessert die Spracherkennung für Hindi mithilfe von Pseudo-Labeling-Techniken.
― 5 min Lesedauer
Ein System zur Klassifizierung von literarischen und umgangssprachlichen Tamil-Dialekten anhand von Klangmerkmalen.
― 6 min Lesedauer
Neue Methoden verbessern das Verständnis von geflüstertem und normalem Sprache durch Computer.
― 5 min Lesedauer
Ein Blick auf Micro-Batch Clipping und seine Vorteile fürs Modelltraining.
― 5 min Lesedauer
Forschung zeigt, wie LLMs die automatische Spracherkennung in der japanischen Sprache verbessern.
― 6 min Lesedauer
Dieser Artikel untersucht, wie Modelle Ton, Betonung und Tonhöhenakzente erkennen.
― 5 min Lesedauer
SALSA verbessert die Spracherkennung für Sprachen mit wenig Ressourcen, indem es ASR- und Sprachmodelle integriert.
― 6 min Lesedauer
Neue Methode verbessert die ASR-Genauigkeit mit Sprachmodellen für bessere Transkriptionen.
― 4 min Lesedauer
Ein neues System korrigiert Fehler bei der Sprechererkennung für klarere Gesprächsprotokolle.
― 8 min Lesedauer
Sprachverständlichkeit verbessern mit hybriden Filterbänken und neuronalen Netzen.
― 5 min Lesedauer
Ein neues Modell verbessert die Spracherkennung, indem es Audio- und visuelle Eingaben effektiv kombiniert.
― 5 min Lesedauer
Neue Methoden verbessern die Spracherkennung in schwierigen Situationen mit mehreren Sprechern.
― 5 min Lesedauer
Eine neue Methode verbessert die automatische Spracherkennung, indem sie die Klangreihenfolge beim Wissenstransfer beibehält.
― 4 min Lesedauer
Diese Studie untersucht, wie Lärm die Sprachwahrnehmung bei Herausforderungen verbessern kann.
― 6 min Lesedauer
Innovativer leichter Wandler verbessert die Effizienz und Genauigkeit der Spracherkennung.
― 6 min Lesedauer
Dieser Artikel vergleicht diskrete und kontinuierliche Sprachdarstellungen für effektive Spracherkennung.
― 5 min Lesedauer
Forschung zeigt, wie Neuronen in Sprachmodellen wichtige Merkmale von Schall erkennen.
― 8 min Lesedauer
Diese Studie untersucht, wie Selbstaufmerksamkeit die Spracherkennung im Türkischen und Englischen beeinflusst.
― 5 min Lesedauer
Ein selbstüberwachter Lernansatz verringert den Bedarf an beschrifteten Audiodaten.
― 6 min Lesedauer
TF-Mamba verbessert die Klanglokalisierung mit einem neuartigen Ansatz, der Zeit- und Frequenzdaten integriert.
― 5 min Lesedauer
Die Forschung an modularen ASR-Systemen zielt darauf ab, die Leistung in lauten Umgebungen zu verbessern.
― 4 min Lesedauer
Wir präsentieren DENSE, eine Methode zur Verbesserung der Sprachtrennung mit dynamischen Einbettungen.
― 6 min Lesedauer
Diese Methode verbessert die Erkennungsgenauigkeit für seltene Namen in Sprachausgaben.
― 6 min Lesedauer
Die Verbesserung der Identifizierung gesprochener Wörter durch visuelle Hinweise in unterversorgten Sprachen.
― 8 min Lesedauer
BigCodec verbessert die Klangqualität bei Audioübertragungen mit niedriger Bitrate.
― 5 min Lesedauer
In diesem Artikel geht's um die Vorteile, Transformer-Modelle für Sprachaufgaben zu vereinfachen.
― 5 min Lesedauer
Sortformer integriert Sprecherdiarisierung und ASR für eine verbesserte Audioverarbeitung.
― 5 min Lesedauer
Neue Methoden verbessern das Verständnis gesprochener Sprache durch innovative Datensätze.
― 5 min Lesedauer