Eine neue Methode verbessert die Audio-Transformation, während Melodie und Klangqualität erhalten bleiben.

2025-06-16T05:19:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung für seltene Namen verbessern

Diese Methode verbessert die Erkennungsgenauigkeit für seltene Namen in Sprachausgaben.

2025-06-16T03:42:40+00:00 ― 6 min Lesedauer

Ton Fortschritt bei der Erkennung von Audio-Deepfakes

Ein neues Modell verbessert die Erkennung von Audio-Deepfakes mit kontinuierlichem Lernen.

2025-06-15T23:39:45+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Audio-Visuellen Sprecherdiarisierung

Ein Überblick über audio-visuelle Sprecherdiarisierungsmethoden, Herausforderungen und Systeme.

2025-06-15T21:14:00+00:00 ― 5 min Lesedauer

Ton Neuronale Netzwerke in der Federhall-Modellierung

Diese Studie bewertet neuronale Netze zur Nachbildung von Federhall-Eigenschaften.

2025-06-15T20:24:12+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung BigCodec: Fortschrittliche Sprachkodierung mit niedrigem Bitrate

BigCodec verbessert die Klangqualität bei Audioübertragungen mit niedriger Bitrate.

2025-06-15T19:36:50+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung von Sprachsystemen für indische Sprachen

Ein neuer Datensatz verbessert die mehrsprachige Sprachtechnologie in Indien.

2025-06-15T18:48:15+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Vereinfachung von Sprachmodellen: Komplexität in Transformern reduzieren

In diesem Artikel geht's um die Vorteile, Transformer-Modelle für Sprachaufgaben zu vereinfachen.

2025-06-15T14:45:20+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Spracherkennung mit Sortformer

Sortformer integriert Sprecherdiarisierung und ASR für eine verbesserte Audioverarbeitung.

2025-06-15T09:05:15+00:00 ― 5 min Lesedauer

Ton Neue Methode zur Synthese von Klavierklängen

Ein neuer Ansatz, um realistische Klavierklänge durch Klangkomponententrennung zu erzeugen.

2025-06-15T07:28:05+00:00 ― 8 min Lesedauer

Ton Fortschritte in der emotionalen Text-to-Speech-Technologie

ParaEVITS verbessert den emotionalen Ausdruck in TTS durch natürliche Sprachführung.

2025-06-15T05:50:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Audio wiederherstellen: Die Kunst und Wissenschaft des Inpaintings

Lerne, wie Audio-Inpainting fehlende Teile von Signalen wiederherstellt.

2025-06-15T05:02:20+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte in der Klassifizierung gesprochener Sprache

Neue Methoden verbessern das Verständnis gesprochener Sprache durch innovative Datensätze.

2025-06-15T04:13:45+00:00 ― 5 min Lesedauer

Ton Verbesserung der Sprecherverifikation mit phonetischen Merkmalen

Ein neuer Rahmen verbessert die Genauigkeit der Bestätigung der Sprachidentität.

2025-06-15T01:50:18+00:00 ― 6 min Lesedauer

Robotik Fortschritte in der Spracherkennungstechnologie für Roboter

Neue Methoden verbessern die Mensch-Roboter-Konversation, indem sie die Sprachklarheit erhöhen.

2025-06-15T01:48:00+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte in der Segmentierung von gesprochenen Nachrichten

Neue Methoden verbessern den Zugang zu gesprochenen Nachrichten, indem sie Themen effektiver segmentieren.

2025-06-15T00:59:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung der musikalischen Denkfähigkeiten von LLMs

Eine Studie über die Fähigkeiten von LLMs, musikalische Intervalle, Akkorde und Tonleitern zu verstehen.

2025-06-14T21:37:30+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung Musik-Tagging mit Few-Shot Learning verbessern

Eine neue Methode zum Musiktagging mit Few-Shot-Learning zeigt vielversprechende Ergebnisse.

2025-06-14T20:56:30+00:00 ― 6 min Lesedauer

Ton FlowSep: Ein neuer Ansatz zur Trennung von Audioquellen

FlowSep bringt ne Methode raus, um Sounds mit Sprachabfragen zu extrahieren.

2025-06-14T18:30:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der textbasierten Spracherzeugung

SSR-Speech bietet neue Lösungen für Sprachgenerierung und -bearbeitung an.

2025-06-14T16:05:00+00:00 ― 5 min Lesedauer

Kryptographie und Sicherheit Der Aufstieg von Fake-Audio und Erkennungssystemen

Fortschritte in der KI machen Fake-Audio alltäglich, was die Notwendigkeit für Erkennung erhöht.

2025-06-14T13:39:15+00:00 ― 7 min Lesedauer

Ton Fortschritte bei Text-zu-Sprache für Dialektvielfalt

Neues Modell verbessert die Sprachgenerierung in verschiedenen Dialekten von Tonakzentsprachen.

2025-06-14T10:24:55+00:00 ― 5 min Lesedauer

Ton Fortschritte bei der Schallquellenlokalisierung durch inkrementelles Lernen

Eine neue Methode verbessert die Genauigkeit der Schalllokalisation und sorgt gleichzeitig für Datensicherheit.

2025-06-14T07:59:10+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Zielgeräuschextraktion mit SoloAudio

SoloAudio verbessert die Klange extraction durch fortschrittliche Techniken und synthetische Daten.

2025-06-13T17:24:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung OpenACE: Ein neuer Standard für die Bewertung von Audiocodecs

OpenACE bietet einen fairen Massstab, um Audio-Codecs unter verschiedenen Bedingungen zu bewerten.

2025-06-13T14:58:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fehlererkennung bei Elektromotoren durch Geräusche

Eine Methode zur Identifizierung von Fehlern in Elektromotoren durch Klanganalyse und bayesianische neuronale Netze.

2025-06-13T13:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennung und Multi-Token-Vorhersage

Spracherkennungsmodelle entwickeln sich weiter mit Multi-Token-Vorhersage für schnellere Antworten.

2025-06-13T10:07:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte bei der Spracherkennung für die Faetar-Sprache

Bemühungen, die Sprachtechnologie für die unterversorgte Faetar-Sprache zu verbessern.

2025-06-13T09:18:50+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Gesangsstimmen-Konversionstechnologie

Eine neue Zero-Shot-Methode verbessert die Genauigkeit der Sprachumwandlung und minimiert Tonverlust.

2025-06-13T06:04:30+00:00 ― 5 min Lesedauer

Rechnen und Sprache Der Einfluss des Tonkontexts in Mandarinkonversationen

Studie zeigt, wie sich Töne im alltäglichen taiwanesischen Mandarin-Sprech ändern.

2025-06-13T03:38:45+00:00 ― 5 min Lesedauer

Ton Innovative Methode zur Extraktion des Zielsprechers enthüllt

Neuer Ansatz verbessert die Sprachisolierung in gemischten Audio-Umgebungen mit diskreten Tokens.

2025-06-13T00:24:25+00:00 ― 5 min Lesedauer

Ton Kunst und Musik durch Emotionen verbinden

Forschung verbindet Gemälde mit Musik, indem sie Emotionen interpretiert.

2025-06-12T23:35:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung mit MCCA-Methoden verbessern

Eine neue Methode verbessert die automatische Erkennung von Sprachproblemen, die mit Parkinson verbunden sind.

2025-06-12T19:32:55+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung der Spracherkennung im Klassenzimmer durch kontinuierliches Pretraining

Ein neuer Ansatz verbessert ASR-Systeme für eine bessere Kommunikation im Klassenzimmer.

2025-06-12T18:44:20+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Spracherkennung mit mehreren Eingabetypen verbessern

Dieser Artikel beleuchtet, wie unterschiedliche Eingaben die Spracherkennung verbessern können.

2025-06-12T15:30:00+00:00 ― 5 min Lesedauer

Ton Seed-Music: Musikmachen für jeden einfacher machen

Ein System, das Musikmachen für alle Fähigkeitsstufen einfach und zugänglich macht.

2025-06-12T13:52:50+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Zero-Shot Audio-Klassifikation

ReCLAP verbessert die Audioklassifizierung mit detaillierten Aufforderungen für genauere Ergebnisse.

2025-06-12T13:04:15+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Spracherkennung für Menschen mit Störungen

Ein Projekt hat das Ziel, die Sprachtechnologie für Menschen mit Kommunikationsproblemen zu verbessern.

2025-06-12T12:15:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung MambaFoley: Ein neuer Ansatz zur Audioproduktion

MambaFoley revolutioniert die Foley-Sound-Synthese mit besserem Timing und mehr Realismus.

2025-06-12T09:49:55+00:00 ― 6 min Lesedauer

Ton Akzentverbesserung in der Sprachsynthesetechnologie

Ein neues System verbessert die Akzentgenauigkeit in TTS für bessere Kommunikation.

2025-06-12T08:12:45+00:00 ― 5 min Lesedauer

Computerwissenschaften - Ton