Neuste Artikel für Spracherkennung

Rechnen und Sprache Die Weiterentwicklung des Verständnisses gesprochener Sprache mit CCL

Eine neue Methode verbessert, wie Systeme mit Fehlern im Verständnis von gesprochener Sprache umgehen.

2025-08-08T14:20:30+00:00 ― 7 min Lesedauer

Rechnen und Sprache Generative Fusion Dekodierung: Text Erkennung voranbringen

Eine neue Methode verbessert die Texterkennungsgenauigkeit in verschiedenen Anwendungen.

2025-08-07T22:00:54+00:00 ― 7 min Lesedauer

Rechnen und Sprache Neue Angriffsmethode macht ASR-Systeme sprachlos

Ein universeller Audio-Clip kann fortgeschrittene ASR-Modelle wie Whisper stummschalten.

2025-08-07T03:29:35+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte im Federated Learning für Spracherkennung

Frühzeitige Ausstiegsmodelle für effektives föderiertes Lernen in ASR-Systemen nutzen.

2025-08-06T09:48:24+00:00 ― 9 min Lesedauer

Rechnen und Sprache Integration von Audio- und Sprachmodellen: SpeechVerse

SpeechVerse überbrückt das Verständnis von Audio und Sprachverarbeitung für eine bessere Interaktion zwischen Mensch und Computer.

2025-08-06T06:26:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der Spracherkennung im Klassenzimmer durch fortgesetztes Prétraining

Verbesserte Spracherkennung für Klassenzimmer mit fortschrittlichen Trainingstechniken verbessert das Lernen.

2025-08-05T19:06:15+00:00 ― 7 min Lesedauer

Maschinelles Lernen Fortschritte bei automatischer Spracherkennung mit Denoising-Sprachmodellen

Denoising-Sprachmodelle verbessern die Fehlerkorrektur in Sprach-erkennungssystemen mit synthetischen Daten.

2025-08-03T22:34:10+00:00 ― 7 min Lesedauer

Ton Fortschritte bei Sprach-Inpainting-Techniken

Lern, wie Speech Inpainting die Audioqualität in verschiedenen Bereichen wiederherstellt.

2025-08-02T18:13:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Einführung des 4D-Modells in der Spracherkennung

Ein neues Modell verbessert die Spracherkennung mit mehreren Dekodierungs-Methoden.

2025-08-01T01:44:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der arabischen Spracherkennung durch Wissensdistillation

Eine Studie zur Verbesserung der automatischen Spracherkennung für arabische Dialekte mit effizienten Modelltechniken.

2025-07-31T23:18:50+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte im Selbstüberwachtem Lernen für Sprache

Die Rolle des selbstüberwachten Lernens in der Sprachverarbeitung und die Herausforderungen dabei erkunden.

2025-07-30T15:51:24+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Zielsprachendiarisierungstechnologie

Ein Blick auf neue Methoden zum Verständnis von überlappender Sprache während Gesprächen.

2025-07-30T14:06:55+00:00 ― 8 min Lesedauer

Ton Verbesserung von Hintertürangriffen in der Spracherkennung

Neue Methode zielt auf Rhythmusänderungen für heimliche Sprachangriffe ab.

2025-07-29T08:09:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung AV-CrossNet: Verbesserung der Spracherkennung bei Geräuschen

Ein neues System hilft dabei, Sprache von Geräuschen zu trennen, damit die Kommunikation klarer wird.

2025-07-29T03:17:50+00:00 ― 7 min Lesedauer

Ton Echtzeit-Sprecher-Diarisation: Ein Überblick

Erfahre mehr über Online-Sprecherdiarisierung und ihre Bedeutung in verschiedenen Anwendungen.

2025-07-28T06:14:40+00:00 ― 6 min Lesedauer

Ton Evaluierung von diskreten Audio-Token für Sprachaufgaben

Neues Benchmark-Tool bewertet diskrete Audio-Tokens für verschiedene Sprachverarbeitungsaufgaben.

2025-07-28T04:37:30+00:00 ― 9 min Lesedauer

Rechnen und Sprache Verbesserung der Sprachfehlerkorrektur in ASR-Systemen

Eine neue Methode kombiniert akustische Merkmale und Vertrauenswerte für bessere Fehlerkorrektur.

2025-07-25T20:45:15+00:00 ― 5 min Lesedauer

Rechnen und Sprache Wie Sprachrecognition-Modelle mit Klangveränderungen umgehen

Eine Studie darüber, wie Maschinen sich an phonologische Veränderungen in der Sprache anpassen.

2025-07-25T20:31:00+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprechererkennung mit Audio- und visuellen Daten

Ein System kombiniert Audio und Video, um die Erkennungsgenauigkeit von Sprechern zu verbessern.

2025-07-25T10:13:40+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte bei Sprachdialogsystemen

Eine neue Methode verbessert den Maschinendialog durch Pseudo-Stereo-Daten.

2025-07-25T08:36:30+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der chinesischen Spracherkennung durch Pinyin-Regulierung

Diese Studie präsentiert einen Datensatz und eine Methode, um die Genauigkeit der chinesischen ASR mithilfe von Pinyin zu verbessern.

2025-07-25T07:47:55+00:00 ― 7 min Lesedauer

Ton Techniken zur Erkennung von Deepfake-Audio im Detail

Diese Studie konzentriert sich darauf, die Erkennung von Deepfake-Audio mit fortschrittlichen Methoden zu verbessern.

2025-07-25T02:56:25+00:00 ― 5 min Lesedauer

Ton Die Wichtigkeit, Unsicherheit in der Spracherkennung von Emotionen zu messen

Das Verstehen von Unsicherheit verbessert die Genauigkeit der Emotionserkennung in realen Szenarien.

2025-07-24T17:13:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Neuer Ansatz zur Sprecherdiarisierung

Ein System zur Sprechererkennung in mehrsprachigen Audios ohne umfangreiche Daten.

2025-07-24T01:01:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte bei der Anonymisierung mehrsprachiger Sprecher

Die Verbesserung der Technologie zur Anonymisierung von Sprechern in neun Sprachen, um die Privatsphäre zu gewährleisten.

2025-07-23T03:58:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der audiovisuellen Spracherkennung

Forschung zeigt, dass Videos die Sprachrecognition in lauten Umgebungen verbessern.

2025-07-22T20:41:20+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Mehrsprecher-Spracherkennung

Eine neue Methode verbessert die Genauigkeit beim Erkennen von Sprache von mehreren Sprechern.

2025-07-22T10:58:20+00:00 ― 5 min Lesedauer

Neurowissenschaften Verstehen, wie unser Gehirn Geräusche verarbeitet

Erforsche, wie der auditorische Kortex Klang über die Zeit integriert.

2025-07-22T08:05:26+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Sprachverbesserungstechnologie

Eine neue Methode verbessert die Sprachverständlichkeit in lauten Umgebungen mit dualen neuronalen Netzwerken.

2025-07-22T06:55:25+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Streaming-Automatischen-Spracherkennung

Das XLSR-Transducer-Modell glänzt bei der Echtzeit-Transkription mit minimalen Daten.

2025-07-21T18:46:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Seed-ASR: Fortschritt in der Spracherkennungstechnologie

Ein neues Modell verbessert die Genauigkeit bei der Spracherkennung über mehrere Sprachen hinweg.

2025-07-21T14:43:45+00:00 ― 5 min Lesedauer

Ton Schwachstelle in Spracherkennungssystemen aufgedeckt

Forschung zeigt Risiken bei Sprachmodellen, die multitaskingfähig sind, wie Whisper.

2025-07-21T09:52:15+00:00 ― 5 min Lesedauer

Rechnen und Sprache TokenVerse: Die Analyse von Gesprächen vereinfachen

TokenVerse vereinfacht die Analyse von gesprochenen Gesprächen, indem es mehrere Aufgaben in ein einziges Modell integriert.

2025-07-21T08:15:05+00:00 ― 7 min Lesedauer

Ton Fortschritt im Few-Shot Keyword Spotting mit Mix-Training

Diese Studie untersucht Mix-Training für die Schlüsselworterkennung unter lauten Sprachbedingungen.

2025-07-19T16:39:18+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Spracherkennung für ressourcenschwache Sprachen

Die Verbesserung von Spracherkennungssystemen für Sprachen mit begrenzten Online-Daten.

2025-07-19T04:25:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Spektrogramme und neuronale Netzwerke in der Spracherkennung

Diese Studie untersucht, wie neuronale Netzwerke Sprache mithilfe von Spektrogrammen interpretieren.

2025-07-18T22:45:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung mit Kontexthinweisen verbessern

Lern, wie Kontext die Genauigkeit der automatischen Spracherkennung und die Wörterkennung verbessert.

2025-07-16T14:53:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Analyse der Vokalharmonie im Assamesischen mit fiwGAN

Diese Studie nutzt fiwGAN, um die Vokalphonemharmonien in der assamesischen Sprache zu erkunden.

2025-07-16T07:17:06+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Code-Switching ASR mit Wissensdistillation

Ein neues Framework verbessert die ASR-Leistung mit begrenzten Daten und Ressourcen.

2025-07-15T22:41:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Zahlenformatierung in ASR-Transkripten

Dieser Artikel bespricht, wie man die Formatierung von Zahlen in automatischen Transkripten verbessern kann.

2025-07-14T15:55:35+00:00 ― 5 min Lesedauer