Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Ton Synthesetisches Musik-Dataset soll Genre-Kategorisierung verbessern

Das GTZAN-synth-Datenset nutzt synthetische Musik für bessere Musik-Tagging-Systeme.

2025-07-23T17:44:30+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung MelodyLM: Die Zukunft der Songkreation

MelodyLM macht die Musikproduktion einfacher, indem es Text- und Spracheingaben nutzt.

2025-07-23T16:55:55+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Einführung des SAVE-Modells für audio-visuelle Segmentierung

Das SAVE-Modell verbessert die audio-visuelle Segmentierung mit Effizienz und Präzision.

2025-07-23T16:07:20+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte bei der Sprach-zu-Text-Übersetzung mit LLMs

Neues Modell verbessert die Sprach-zu-Text-Übersetzung mithilfe grosser Sprachmodelle.

2025-07-23T08:01:30+00:00 ― 7 min Lesedauer

Ton Neues Modell schätzt Mundbewegungen beim Sprechen

Forschung zeigt ein Modell, das Tonaufzeichnungen mit Mundbewegungen beim Sprechen verbindet.

2025-07-23T07:12:55+00:00 ― 6 min Lesedauer

Rechnen und Sprache Wav2Vec2.0 und der Klang der Spracherkennung

In diesem Artikel geht's darum, wie Wav2Vec2.0 Sprachlaute mit Phonologie verarbeitet.

2025-07-23T05:35:45+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte bei der Anonymisierung mehrsprachiger Sprecher

Die Verbesserung der Technologie zur Anonymisierung von Sprechern in neun Sprachen, um die Privatsphäre zu gewährleisten.

2025-07-23T03:58:35+00:00 ― 6 min Lesedauer

Quantitative Methoden Digitale Aquakultur: Die Zukunft der Fischzucht

Die Rolle der Technologie bei der Verbesserung der Effizienz und des Wohlbefindens in der Fischzucht erkunden.

2025-07-23T03:15:54+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der audiovisuellen Spracherkennung

Forschung zeigt, dass Videos die Sprachrecognition in lauten Umgebungen verbessern.

2025-07-22T20:41:20+00:00 ― 5 min Lesedauer

Ton Neue Methode zur frühzeitigen Erkennung von Demenz durch Sprachanalyse

Ein neuer Ansatz kombiniert Sprachanalyse mit Datenschutz zum Erkennen von Demenz.

2025-07-22T19:04:10+00:00 ― 6 min Lesedauer

Ton Fortschrittliche automatische Klassifizierung von Tiergeräuschen

Neue Methoden verbessern die Genauigkeit bei der Identifizierung von Tiergeräuschen zur Überwachung von Wildtieren.

2025-07-22T18:15:35+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Sicherheit bei automatischer Sprecherverifikation verbessern

Neue Methoden verbessern die Sicherheit gegen Sprachverfälschung in ASV-Systemen.

2025-07-22T16:38:25+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Erkennung von Geräuschen mit neuen Techniken

Fortschritte in der Klangklassifizierung verbessern die Genauigkeit der Audioerkennung.

2025-07-22T15:01:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Mehrsprecher-Spracherkennung

Eine neue Methode verbessert die Genauigkeit beim Erkennen von Sprache von mehreren Sprechern.

2025-07-22T10:58:20+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Sprachsynthese mit akustischem BPE

Akustisches BPE verbessert die Sprachverständlichkeit und Qualität in TTS-Systemen.

2025-07-22T08:32:35+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Sprachverbesserungstechnologie

Eine neue Methode verbessert die Sprachverständlichkeit in lauten Umgebungen mit dualen neuronalen Netzwerken.

2025-07-22T06:55:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Spracherkennung mit akzent-spezifischen Codebüchern verbessern

Neue Methode verbessert die Handhabung von verschiedenen Akzenten in ASR-Systemen durch spezielle Codebücher.

2025-07-22T04:29:40+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der automatischen Spracherkennungstechnologie

Neue Methoden verbessern die Genauigkeit und Effizienz von Spracherkennungssystemen.

2025-07-22T03:41:05+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschrittliche Schallquellenlokalisierung mit DOA-PNN

Eine neue Methode verbessert die Schalllokalisierung in unterschiedlichen Umgebungen, indem sie sich auf kontinuierliches Lernen konzentriert.

2025-07-22T02:03:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Geräuscherkennung mit UCIL

Eine neue Methode verbessert die Erkennung von Schallereignissen, indem sie neue Audioklassen effektiv integriert.

2025-07-22T01:15:20+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritt bei der Erkennung von Geräuschereignissen mit dem WildDESED-Datensatz

WildDESED verbessert die Klangdetektionssysteme in lauten Wohnumgebungen.

2025-07-22T00:26:45+00:00 ― 6 min Lesedauer

Neuronen und Kognition Erforschen, wie Musik das Gehirn beeinflusst

Eine Studie zeigt, wie verschiedene Musikrichtungen unterschiedliche Gehirnbereiche aktivieren.

2025-07-21T22:25:24+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Richtlinien für die Einreichung von NeurIPS 2024 Papers

Wichtige Regeln für die Einreichung von Papers für NeurIPS 2024.

2025-07-21T22:01:00+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Das Analysieren von Klavieraufführungen durch Audiotechniken

Diese Studie bewertet Solo-Pianovorträge mit Hilfe von Audioanalyse-Methoden.

2025-07-21T20:23:50+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Streaming-Automatischen-Spracherkennung

Das XLSR-Transducer-Modell glänzt bei der Echtzeit-Transkription mit minimalen Daten.

2025-07-21T18:46:40+00:00 ― 6 min Lesedauer

Hardware-Architektur Verbesserung der MUSIK-Effizienz durch Annäherungsrechnung

Dieser Artikel behandelt, wie man MUSIC mit approximativer Berechnung verbessern kann, um die Leistung zu steigern.

2025-07-21T16:20:55+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung YourMT3+: Fortschritte in der Musiktranskriptionstechnologie

Ein neues System verbessert die Genauigkeit und Effizienz bei der Transkription von Musik mit mehreren Instrumenten.

2025-07-21T15:32:20+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Seed-ASR: Fortschritt in der Spracherkennungstechnologie

Ein neues Modell verbessert die Genauigkeit bei der Spracherkennung über mehrere Sprachen hinweg.

2025-07-21T14:43:45+00:00 ― 5 min Lesedauer

Ton Verbesserung der Sprachqualitätsüberwachung auf Geräten

Fortschritte bei der Vorhersage der Sprachqualität mit effizienten Methoden für mobile Geräte.

2025-07-21T13:55:10+00:00 ― 5 min Lesedauer

Ton Timbre in der Musikproduktion mit Synthesizern nutzen

Eine Methode, um den Klang in der Musikproduktion mit Synthesizern zu verbessern.

2025-07-21T13:06:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritt der Sprachtechnologie für tunesisches Arabisch

Diese Studie bewertet Sprachtechnologie in ressourcenarmen Sprachen wie Tunesisch-Arabisch.

2025-07-21T12:18:00+00:00 ― 5 min Lesedauer

Ton Schwachstelle in Spracherkennungssystemen aufgedeckt

Forschung zeigt Risiken bei Sprachmodellen, die multitaskingfähig sind, wie Whisper.

2025-07-21T09:52:15+00:00 ― 5 min Lesedauer

Rechnen und Sprache TokenVerse: Die Analyse von Gesprächen vereinfachen

TokenVerse vereinfacht die Analyse von gesprochenen Gesprächen, indem es mehrere Aufgaben in ein einziges Modell integriert.

2025-07-21T08:15:05+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Audiogenerierung mit dem Sound-VECaps-Datensatz

Neuer Datensatz verbessert die Audioerzeugung aus detaillierten Textbeschreibungen.

2025-07-21T07:26:30+00:00 ― 5 min Lesedauer

Ton Brücke zwischen Kunst und KI: Neue Interaktionsmethoden

Ein neuer Ansatz für Künstler, um Kreativität mit KI-Audioerzeugung zu verbinden.

2025-07-21T06:37:55+00:00 ― 6 min Lesedauer

Ton Der Aufstieg von Text-zu-Musik-Modellen in der Musikschöpfung

Die Auswirkungen von TTM-Modellen auf die Musikproduktion und Nutzererlebnisse erkunden.

2025-07-21T05:49:20+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Online-Sprecherdiarisierungssystemen

Dieser Artikel untersucht die Latenz verschiedener Speaker-Diarization-Systeme in der Audioverarbeitung.

2025-07-21T04:12:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprachsynthese mit Sub-Zentrum-Modellierung

Die Sprachsynthese verbessern für eine natürlichere und ausdrucksstärkere Stimmgenerierung.

2025-07-21T03:23:35+00:00 ― 5 min Lesedauer

Rechnen und Sprache LearnerVoice: Fortschritt bei der Spracherkennung für Sprachlerner

Neuer Datensatz soll die Spracherkennung für Nicht-Englisch-Muttersprachler verbessern.

2025-07-21T02:35:00+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschrittliche Emotionserkennung in Gesprächen

Ein neues Framework, BiosERC, verbessert die Emotionserkennung, indem es die Eigenschaften des Sprechers berücksichtigt.

2025-07-21T01:46:25+00:00 ― 6 min Lesedauer