Ein robuster Ansatz zur Identifizierung von Audioanomalien und zur Bekämpfung von Stimmfälschungen.

2025-09-09T07:27:00+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte in der EmotionsErkennung in Gesprächen

Ein neues Modell verbessert das Verständnis von Emotionen während Gesprächen.

2025-09-09T06:38:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Folgen computer-generierte Sprachsymbole dem Zipfschen Gesetz?

Diese Studie untersucht, ob erlernte Sprachsymbole Wortfrequenzmuster nachahmen.

2025-09-09T04:12:40+00:00 ― 6 min Lesedauer

Ton DiCon: Ein neuer Ansatz zur Sprachsynthese

Wir stellen eine schnellere Methode für hochwertige Sprachsynthese mit Diffusionsmodellen vor.

2025-09-09T03:24:05+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung HiFTNet: Fortschritte in der Text-zu-Sprache-Technologie

HiFTNet bietet schnellere, hochwertige Sprachsynthese mit effizienten, innovativen Techniken.

2025-09-09T02:35:30+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Sprachkonversionstechnologie mit Gesichtsabbildungen

Neue Methode verwandelt Stimmen mithilfe von Gesichtszügen für verschiedene Anwendungen.

2025-09-09T01:46:55+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Vorhang auf für AV-SUPERB: Ein neuer Massstab für Audio-Visuelle Modelle

AV-SUPERB bewertet Audio- und visuelle Modelle über verschiedene Aufgaben hinweg für eine bessere Leistung.

2025-09-08T22:32:35+00:00 ― 6 min Lesedauer

Ton Verbesserung der Sprecherdiarisierung mit semantischen Informationen

Ein neuer Ansatz verbessert die Sprecherdiarisierung, indem er semantische Daten in den Prozess integriert.

2025-09-08T20:06:50+00:00 ― 5 min Lesedauer

Ton Schnellere Text-zu-Audio-Generierung durch Konsistenz-Destillation

Neue Methode verbessert Geschwindigkeit und Effizienz bei der Text-zu-Audio-Generierung.

2025-09-08T18:29:40+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennung von Emotionen: Ein mehrsprachiger Ansatz

Forschung zeigt, dass die Genauigkeit beim Erkennen von Emotionen aus Sprache über verschiedene Sprachen hinweg besser geworden ist.

2025-09-08T16:03:55+00:00 ― 5 min Lesedauer

Ton Die Verbesserung der Spracherkennung mit Testzeittraining

Erkunde, wie TTT die Spracherkennung verbessert, indem es sich an Verteilungsverschiebungen anpasst.

2025-09-08T14:26:45+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Techniken zur Schallquellenlokalisierung

Die Art und Weise, wie wir Schallquellen mit audio-visuellen Daten identifizieren, zu verbessern.

2025-09-08T12:49:35+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Geräuschkarten: Ein neuer Ansatz zur Analyse von Klanglandschaften

Eine Methode, um Geräusche in verschiedenen Umgebungen mit fortschrittlicher Technik zu visualisieren und vorherzusagen.

2025-09-08T11:12:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der Erkennung gesprochener Sprache

Neue Methoden kombinieren Audio und Metadaten für eine bessere Spracherkennung.

2025-09-08T07:09:30+00:00 ― 6 min Lesedauer

Ton Neues Spracherkennungssystem bekämpft Spoofing-Bedrohungen

Ein System, das Sprachpräsentationsangriffe erkennt, verbessert die Sicherheit bei der Sprachbiometrie.

2025-09-08T06:20:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Whisper für ressourcenarme Sprachen verbessern

Die Spracherkennung von Whisper für Vietnamesisch und andere Sprachen mit geringem Ressourcengehalt verbessern.

2025-09-08T03:55:10+00:00 ― 5 min Lesedauer

Ton Fortschritte in der textbasierten Sprachbearbeitung

FluentEditor verbessert die Audio-Bearbeitung, indem es sich auf natürlichen Fluss und Konsistenz konzentriert.

2025-09-07T20:37:55+00:00 ― 4 min Lesedauer

Rechnen und Sprache Neue Methoden in der gleichzeitigen Sprachübersetzung

Echtzeitübersetzung mit fortschrittlichen Segmentierungstechniken verbessern.

2025-09-07T18:12:10+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte in der simultanen Sprachübersetzung

Echtzeitübersetzungen durch innovative Methoden und smarte Richtlinien verbessern.

2025-09-07T17:23:35+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der automatischen Spracherkennung für tunesisches Arabisch

Bemühungen, ASR-Systeme für tunesisches Arabisch und Code-Switching zu verbessern.

2025-09-07T16:35:00+00:00 ― 6 min Lesedauer

Ton Musikgenerierung personalisieren: Neue Ansätze

Innovative Methoden zielen darauf ab, die Musikgenerierung an die Vorlieben der Nutzer anzupassen.

2025-09-07T15:46:25+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Vorstellung des SPGM-Modells zur Sprachtrennung

Ein neues Modell verbessert die Effizienz und Leistung der Sprachtrennung.

2025-09-07T10:54:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Neues Modell verbessert die Bewertung der Audioqualität

Ein neuer Ansatz bewertet die Audioqualität mit mehreren Mikrofonen in verschiedenen Umgebungen.

2025-09-07T08:29:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Soundtrennungstechniken

Ein neues Verfahren verbessert die Klangtrennung über verschiedene Frequenzen hinweg.

2025-09-07T06:03:25+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprachkommunikation mit akustischer Echounterdrückung

Erforsche Fortschritte bei der Echo-Unterdrückung, um die Sprachqualität zu verbessern.

2025-09-07T05:14:50+00:00 ― 4 min Lesedauer

Ton Fortschritte in der Multi-Instrument Musiksynthetisierung

Eine neue Methode verbessert die Musikgenerierung, indem sie den Aufführungskontext hinzufügt.

2025-09-07T01:11:55+00:00 ― 6 min Lesedauer

Ton Innovative Methode verwandelt Audio-Untertitelung mit Textdaten

Ein neuer Ansatz erstellt Audio-Untertitel nur mit Text, was die Dateneffizienz verbessert.

2025-09-07T00:23:20+00:00 ― 7 min Lesedauer

Ton Musik verbinden: Audio- und Notenabruf

Die Herausforderungen und Innovationen beim Abgleichen von Audioaufnahmen mit Notenblättern erkunden.

2025-09-06T21:57:35+00:00 ― 6 min Lesedauer

Ton Musikretrieval mit selbstüberwachtem Lernen voranbringen

Ein neuer Ansatz nutzt selbstüberwachtes Lernen, um Audio und Notenblätter zu verknüpfen.

2025-09-06T21:09:00+00:00 ― 5 min Lesedauer

Ton Audio und Noten mit rekurrenten Netzwerken verknüpfen

Eine neue Methode verbessert die Übereinstimmung von Audio und Notenblatt.

2025-09-06T19:31:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung von Audiodaten mit K-Means-Clustering

Mit k-Means-Clustering Audio-Daten optimieren für besseres Model-Training.

2025-09-06T15:28:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Die Verbesserung der Spracherkennung mit Audio-Augmentierungstechniken

Eine Studie zeigt, dass Audio-Augmentierung die Spracherkennung in ressourcenschwachen Sprachen verbessern kann.

2025-09-06T09:48:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritt bei mehrsprachiger automatischer Spracherkennung mit adaptivem Maskieren

Ein neuer Ansatz steigert die Effizienz in mehrsprachigen ASR-Modellen, indem er adaptive Maskierungstechniken integriert.

2025-09-06T09:00:15+00:00 ― 5 min Lesedauer

Ton Deepfake-Audio für bessere Transkriptionssysteme nutzen

Die Untersuchung von Deepfake-Audio, um Transkriptionsmodelle für weniger verbreitete Sprachen zu verbessern.

2025-09-06T07:23:05+00:00 ― 8 min Lesedauer

Maschinelles Lernen Verbesserung des Lernens mit schwachen Labels durch Auswahl negativer Beispiele

Neue Strategien verbessern das Lernen mit schwachen Labels, indem sie relevante negative Beispiele auswählen.

2025-09-06T04:57:20+00:00 ― 6 min Lesedauer

Ton Neue Wasserzeichentechnik für Audio-Modelle

Eine neuartige Methode zur Wasserzeichenbildung in Audio, die durch Diffusionsmodelle erstellt wurde, zum Schutz des Eigentums.

2025-09-06T04:08:45+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Spracherkennung mit Gedächtnisnetzwerken

Neue Techniken verbessern ASR-Systeme für eine bessere Erkennung von langen Sprachnachrichten.

2025-09-06T03:20:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Keyword-Erkennungssystemen

Neue Techniken sollen die Genauigkeit von sprachgesteuerten Geräten gegen Angriffe erhöhen.

2025-09-06T01:43:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung DurIAN-E: Fortschritte in der Text-zu-Sprache-Technologie

DurIAN-E verbessert synthetische Sprache mit mehr Ausdruckskraft und natürlichem Fluss.

2025-09-06T00:54:25+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Technologie zur Sprach-Emotionserkennung

Entdecke, wie SER die Interaktionen zwischen Menschen und Maschinen durch Emotionserkennung verbessert.

2025-09-06T00:05:50+00:00 ― 6 min Lesedauer

Computerwissenschaften - Ton