Ein neuer Ansatz zur Verbesserung der Audioqualität für die Erstellung synthetischer Stimmen.
― 6 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Ein neuer Ansatz zur Verbesserung der Audioqualität für die Erstellung synthetischer Stimmen.
― 6 min Lesedauer
Neue Techniken verbessern die Effizienz der Spracherkennung und senken die Kosten für die Beschriftung.
― 6 min Lesedauer
Verbesserung der Soundqualitätsmetriken mit neuen Lautheitsberechnungsmethoden.
― 5 min Lesedauer
AlignAtt verbessert die gleichzeitige Sprachübersetzung mit mehr Geschwindigkeit und Qualität.
― 5 min Lesedauer
Eine neue Methode sorgt dafür, dass die Privatsphäre bei der Sprachklassifizierung gewahrt bleibt, ohne die Leistung zu beeinträchtigen.
― 6 min Lesedauer
Diese Studie zeigt, wie man TTS-Technologie effizient an verschiedene Akzente anpassen kann.
― 5 min Lesedauer
Das AMII-Modell verbessert die Kommunikation für sozial interaktive Agenten durch bessere nonverbale Verhaltensweisen.
― 6 min Lesedauer
Federated Learning nutzen, um die Sprachanalyse zur Parkinson-Diagnose über verschiedene Sprachen zu verbessern.
― 6 min Lesedauer
Diese Studie konzentriert sich darauf, arabische Dialekte mit fortschrittlichen Methoden und begrenzten Daten zu erkennen.
― 5 min Lesedauer
Wir stellen ein Modell vor, das verschiedene Datentypen für komplexe Aufgaben integriert.
― 6 min Lesedauer
Forscher verbessern, wie wir Tiergeräusche automatisch erkennen.
― 7 min Lesedauer
Entdeck, wie Whisper sich an verschiedene Sprachaufgaben anpasst, indem es mit Prompt Engineering arbeitet.
― 5 min Lesedauer
Diese Studie untersucht Möglichkeiten, ASR für ressourcenarme Sprachen mit Datentechniken zu verbessern.
― 5 min Lesedauer
FastFit verbessert die Sprachgenerierungsgeschwindigkeit, ohne die Klangqualität zu verlieren.
― 5 min Lesedauer
Eine neue Methode verbessert die Erkennung von Schlüsselwörtern in Audioaufnahmen.
― 6 min Lesedauer
Diese Studie stellt eine Methode vor, um Zungenbewegungen beim Sprechen mithilfe von Röntgendaten besser zu messen.
― 6 min Lesedauer
Das AED-EEND-System verbessert die Sprecherdiarisierung, indem es fortschrittliche Techniken für bessere Genauigkeit integriert.
― 5 min Lesedauer
Pengi vereint Audioverstehen und Textgenerierung in einem einzigen Modell.
― 7 min Lesedauer
Ein neuer Ansatz zielt darauf ab, Verzögerungen in Spracherkennungssystemen zu minimieren, während die Genauigkeit erhalten bleibt.
― 5 min Lesedauer
Eine neue Methode verbessert die Keyword-Erkennungssysteme für eine bessere Leistung bei wechselnden Audio.
― 4 min Lesedauer
Ein neues TTS-System verbessert die Sprachgenerierung in mehreren Sprachen mit wenig Daten.
― 6 min Lesedauer
CoDi ermöglicht die gleichzeitige Erstellung verschiedener Inhaltsarten aus unterschiedlichen Eingaben.
― 4 min Lesedauer
Neue Techniken verbessern die Klangtrennung aus Ambisonics-Mischungen für bessere Audioerlebnisse.
― 6 min Lesedauer
Ein neues Verfahren verbessert Sprachmodelle und verringert gleichzeitig den Ressourcenbedarf.
― 6 min Lesedauer
Neue Methoden, die Sprache nutzen, zeigen vielversprechende Ansätze zur Identifizierung von Atemmustern und Gesundheitszuständen.
― 5 min Lesedauer
MIDI-Draw ermöglicht es jedem, Musik zu machen, indem er Melodien intuitiv zeichnet.
― 5 min Lesedauer
Neue Techniken, die aus der Bildverarbeitung entlehnt sind, verbessern die Bewertung der Audioqualität.
― 7 min Lesedauer
Neue Methoden verbessern die Effizienz von Spracherkennungssystemen, ohne die Genauigkeit zu verlieren.
― 6 min Lesedauer
Neue Methoden verbessern das maschinelle Verständnis von Sprache durch Audio- und visuelle Hinweise.
― 5 min Lesedauer
Neues Modell verbessert die Keyword-Erkennung in schwierigen akustischen Bedingungen.
― 6 min Lesedauer
i-Code V2 integriert Vision, Sprache und Sprache für bessere KI-Antworten.
― 5 min Lesedauer
Eine neue Methode verbessert Sprachmodelle, indem sie Wissen von Textmodellen überträgt.
― 6 min Lesedauer
Eine Sammlung von Atemgeräuschen hilft dabei, COVID-19-Fälle zu identifizieren.
― 5 min Lesedauer
Ein neues Modell verbessert die Sprachverifikation mit effizienten Techniken.
― 5 min Lesedauer
Ein genauer Blick auf die Sprechererkennungstechniken, die für den Wettbewerb 2022 entwickelt wurden.
― 5 min Lesedauer
Ein neuer Ansatz trainiert KI, um Sprache und Emotionen in lauten Umgebungen besser zu erkennen.
― 6 min Lesedauer
Neue Methoden zielen darauf ab, das Verständnis für Familiendynamik und die psychische Gesundheit von Kindern zu verbessern.
― 7 min Lesedauer
Neue Deep-Learning-Methoden verbessern die Vorhersagen zur Bewegung des Lautsprechers Diaphragmas.
― 5 min Lesedauer
Erforschen, wie ciwGAN phonetische Merkmale wie Nasalität lernen und darstellen kann.
― 5 min Lesedauer
Ein neues Modell verbessert die Effizienz und Genauigkeit der Spracherkennung.
― 5 min Lesedauer