VoiceX vereinfacht den Prozess, personalisierte Stimmen für verschiedene Anwendungen zu erstellen.

2025-06-26T05:49:05+00:00 ― 5 min Lesedauer

Rechnen und Sprache Die Rolle von Prosodie und Pragmatik in der Sprachtechnologie

Untersuchen, wie Sprachmuster Bedeutung und Technologieleistung beeinflussen.

2025-06-25T21:43:15+00:00 ― 5 min Lesedauer

Ton Einführung von NEST: Ein neues Modell zur Sprachverarbeitung

NEST bietet einen schnelleren, effizienteren Ansatz für selbstüberwachte Sprachaufgaben.

2025-06-25T20:06:05+00:00 ― 6 min Lesedauer

Multimedia Überdenken von Audio-Visuellen Quellenlokalisierungsbenchmarks

Aktuelle Benchmarks schätzen die Fähigkeit von Modellen, Audio- und Videodaten zu verbinden, falsch ein.

2025-06-25T16:03:10+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Sprach Emotionserkennung mit Wav2Small

Wav2Small verbessert die Emotionserkennung in Sprache mit geringeren Ressourcenbedarf.

2025-06-25T10:23:05+00:00 ― 5 min Lesedauer

Ton Herausforderungen bei der Erkennung von teilweise gefälschten Sprachsignalen

Ein Blick auf die Komplexität, gemischte Audiospuren zu identifizieren.

2025-06-25T06:20:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verstehen von Tamil Dialekten

Ein Überblick über die reichen Dialekte des Tamil und Methoden zur Identifikation.

2025-06-25T04:43:00+00:00 ― 5 min Lesedauer

Ton Innovativer Rahmen für die Maschinenschallerkennung

Ein neuer Ansatz zur Erkennung von Maschinenproblemen, ohne die Datensicherheit zu gefährden.

2025-06-24T16:34:15+00:00 ― 6 min Lesedauer

Ton VoiceTailor: Personalisierung von Text-zu-Sprache-Technologie

VoiceTailor verwandelt TTS-Systeme für effiziente, personalisierte Sprachausgaben.

2025-06-24T15:45:40+00:00 ― 5 min Lesedauer

Ton Verstehen von Schallfeldschätzung: Ein praktischer Ansatz

Lern, wie sich Sound in Räumen ausbreitet und wofür man das nutzen kann.

2025-06-24T14:57:05+00:00 ― 6 min Lesedauer

Ton StyleSpeech: Die Zukunft der Text-to-Speech-Technologie

StyleSpeech verbessert TTS-Systeme, indem es natürliche Sprachnuancen einfängt.

2025-06-24T14:08:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Techniken zur Geräuschreduzierung mittels Deep Learning

Untersuchung von Methoden zur Verbesserung der Sprachklarheit in lauten Umgebungen durch Deep Learning.

2025-06-24T12:31:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache mit DualSpeech

Das DualSpeech-Modell verbessert die Klarheit der TTS und die Ähnlichkeit zum Sprecher.

2025-06-24T10:54:10+00:00 ― 6 min Lesedauer

Ton SONICS: Ein neuer Datensatz zur Erkennung synthetischer Songs

Wir stellen SONICS vor, ein Datensatz, der dafür entwickelt wurde, KI-generierte Musik genau zu erkennen.

2025-06-24T07:39:50+00:00 ― 9 min Lesedauer

Ton Fortschritte bei Audio-Spoofing-Erkennungstechniken

Neue Methoden verbessern die Erkennung von gefälschtem Audio unter realen Bedingungen.

2025-06-24T06:51:15+00:00 ― 4 min Lesedauer

Rechnen und Sprache Verbesserung der Hindi-Spracherkennung mit Pseudo-Labeling

Eine neue Methode verbessert die Spracherkennung für Hindi mithilfe von Pseudo-Labeling-Techniken.

2025-06-24T06:02:40+00:00 ― 5 min Lesedauer

Ton EmoAttack: Eine neue Bedrohung in der Sprachtechnologie

EmoAttack nutzt emotionale Sprachumwandlung, um Schwachstellen in Sprachsystemen auszunutzen.

2025-06-24T01:59:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Analyse der Sprachlaute von Erdmännchen: Einblicke und Methoden

Dieser Artikel bewertet Techniken zur automatischen Analyse von Erdmännchenvocalisationen.

2025-06-23T22:45:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der Spracherkennungstechnologie

Entdecke, wie Transformatoren die Spracherkennungssysteme weltweit neu gestalten.

2025-06-23T17:53:55+00:00 ― 8 min Lesedauer

Ton Fortschritte in der Steuerung der Audiogenerierung

Ein neues Modell trennt Timbre und Struktur für bessere Audioerstellung.

2025-06-23T17:24:32+00:00 ― 7 min Lesedauer

Ton Automatisierung der Kokosnuss-Reife-Klassifikation mit Deep Learning

Ein neues System nutzt Technologie für eine schnellere und genauere Klassifizierung des Reifegrads von Kokosnüssen.

2025-06-23T16:16:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Die Nuancen von Sarkasmus in der Kommunikation

Erforschen, wie Ton und Wortwahl unser Verständnis von Sarkasmus prägen.

2025-06-23T15:28:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Vereinfachung der Erstellung von Musikdatensätzen für AMT

Eine neue Methode vereinfacht die Erstellung von Musikdatensätzen für automatische Transkription.

2025-06-23T14:39:35+00:00 ― 7 min Lesedauer

Ton Fortschritte bei der Sprechererkennung: Überblick über die VoxCeleb-Herausforderung

Ein Überblick über die Fortschritte in der Sprechererkennung durch die VoxCeleb Challenge.

2025-06-23T13:02:25+00:00 ― 5 min Lesedauer

Ton Künstliche Intelligenz und die Zukunft der Musikproduktion

KI verändert, wie Musik komponiert und erlebt wird.

2025-06-23T08:10:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte im Modellieren von Sprachdysflüssigkeit mit SSDM

Ein neuer Ansatz verbessert die Modelling von Dysflüssigkeit für Therapie und Sprachenlernen.

2025-06-23T06:33:45+00:00 ― 5 min Lesedauer

Maschinelles Lernen Verstehen von Micro-Batch Clipping im Machine Learning

Ein Blick auf Micro-Batch Clipping und seine Vorteile fürs Modelltraining.

2025-06-23T05:45:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Japanischen Spracherkennung mit GER-Techniken

Forschung zeigt, wie LLMs die automatische Spracherkennung in der japanischen Sprache verbessern.

2025-06-23T04:08:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Sprecherverifizierung gegen Spoofing-Angriffe

Innovative Methoden verbessern die Sicherheit in Spracherkennungssystemen.

2025-06-23T01:42:15+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Audioerkennung verbessern durch multimodales Lernen

Ein neues Framework verbessert die Audio-Klassifikation, indem es das Wissen von mehreren Geräten nutzt.

2025-06-23T00:53:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Innovatives System zur Echo- und Geräuschreduzierung

Ein neuer Ansatz verbessert die Kommunikationsklarheit, indem er Echo und Hintergrundgeräusche reduziert.

2025-06-23T00:05:05+00:00 ― 5 min Lesedauer

Ton VoxInstruct: Eine neue Art, Sprache zu erzeugen

VoxInstruct kombiniert Inhalte und Stil für eine natürlichere Sprachgeneration.

2025-06-22T23:16:30+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung der Genauigkeit von automatischer Spracherkennung

Ein Blick auf die Messung der Genauigkeit in Spracherkennungssystemen mit neuen Methoden.

2025-06-22T20:50:45+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Sprecherverifikation mit Whisper

Eine neue Methode verbessert die Spracherkennungsgenauigkeit in mehreren Sprachen.

2025-06-22T18:25:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachverbesserung mit Zeit-Kontext-Fensterung

Eine neue Methode zur Verbesserung der Sprachqualität mit zeitbasiertem Fensteransatz erkunden.

2025-06-22T17:36:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei digitalen Audio-Wasserzeichen-Techniken

Neuere Methoden verbessern die Audio-Wasserzeichen-Technik für bessere Klangqualität und Urheberrechtsverwaltung.

2025-06-22T15:59:15+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Sprachumwandlungstechnologie

Eine neue Methode zur Verbesserung der Qualität von Echtzeit-Sprachumwandlung.

2025-06-22T07:04:50+00:00 ― 6 min Lesedauer

Rechnen und Sprache Einführung von SALSA: Eine neue Methode zur Verbesserung der Spracherkennung

SALSA verbessert die Spracherkennung für Sprachen mit wenig Ressourcen, indem es ASR- und Sprachmodelle integriert.

2025-06-22T06:16:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Text-zu-Sprache-Technologie

Neue Methoden verbessern die Qualität der Sprachsynthese in TTS-Systemen.

2025-06-22T05:27:40+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung der ASR-Genauigkeit für Barrierefreiheit

Untersuchung der Leistung von automatischer Spracherkennung für taube und schwerhörige Nutzer.

2025-06-22T01:24:45+00:00 ― 12 min Lesedauer

Computerwissenschaften - Ton