Ein Framework, das Deepfake-Inhalte effektiv durch kombinierte Audio- und Videoanalyse identifiziert.
― 6 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Ein Framework, das Deepfake-Inhalte effektiv durch kombinierte Audio- und Videoanalyse identifiziert.
― 6 min Lesedauer
Ein neuer Massstab zur Bewertung von Modellen, die Musik und Sprache analysieren.
― 6 min Lesedauer
Ein neuer Ansatz kombiniert Audio-, Video- und Textdaten für eine effektive Diagnostik von Depressionen.
― 8 min Lesedauer
Ein neues Framework verbessert die Klassifizierung in unbekannten audio-visuellen Aufgaben.
― 7 min Lesedauer
Ein neues Modell verbessert die Silhouetten-Segmentierung mit RF-Signalen für besseres Motion-Capturing.
― 6 min Lesedauer
Neuer Datensatz gibt Einblicke in Hassrede über Sprachen und Formate hinweg.
― 6 min Lesedauer
Neues Framework verbessert die Bildverarbeitung in multimodalen grossen Sprachmodellen.
― 5 min Lesedauer
AxiomVision bietet einen neuen Ansatz zur Videoanalyse, der die Leistung bei wechselnden Bedingungen verbessert.
― 6 min Lesedauer
Neue Systeme kombinieren Audio und Video für eine bessere Gewaltüberwachung in öffentlichen Räumen.
― 6 min Lesedauer
Ein neues System verbessert Videoanrufe auf günstigen VR-Headsets mit Sprachsteuerung.
― 7 min Lesedauer
Ein klarer Leitfaden zu Manuskripttypen und Einreichungsproblemen.
― 5 min Lesedauer
Eine neue Methode verbessert die Objekterkennung in Videos durch Geräusche und visuelle Hinweise.
― 6 min Lesedauer
Ein Blick auf Strategien, um mit langgezogenen Daten im maschinellen Lernen umzugehen.
― 7 min Lesedauer
Eine neue Methode verbessert die Erkennung von Ausreissern in Multi-View-Daten mit fehlenden Ansichten.
― 6 min Lesedauer
Eine Studie über die Herausforderungen und Lösungen für Halluzinationen in MLLMs.
― 5 min Lesedauer
Ein Framework zur Bekämpfung von Datenrauschen in multimodalen Abruftechniken.
― 5 min Lesedauer
Ein neuer Datensatz unterstützt bessere Werkzeuge zur Erkennung von Betrug mit Ausweisdokumenten.
― 8 min Lesedauer
MMPKUBase bietet über 52.000 chinesische Fächer mit tollen Bildern.
― 5 min Lesedauer
TEAdapter verbessert die Musikgenerierung aus Text und gibt den Nutzern mehr Kontrolle und Kreativität.
― 5 min Lesedauer
Ein neuartiger Datensatz und eine Methode verbessern das Video-Grundieren für komplexe Geschichten.
― 8 min Lesedauer
Eine neue Methode verbessert die Erkennung von Gesichtsdeepfakes.
― 6 min Lesedauer
Lighthouse vereinfacht die Suche nach Video-Momenten und die Erkennung von Highlights für Forscher.
― 5 min Lesedauer
Neues Machine-Learning-Modell verbessert Audioquellen-Trenntechniken.
― 5 min Lesedauer
Ein System zur Verbesserung der Sprachverständlichkeit in lauten Umgebungen mit Hilfe von Smart Glasses.
― 5 min Lesedauer
COM Kitchens bietet ungeschnittene Kochvideos, um die Lebensmittelzubereitungsprozesse zu studieren.
― 5 min Lesedauer
ReSyncer verbessert die Videoqualität und Flexibilität für Lippenbewegungen, die mit dem Audio synchronisiert sind.
― 5 min Lesedauer
Neurales Tuning einführen, um die Multitasking-Fähigkeiten grosser Modelle effektiv zu verbessern.
― 6 min Lesedauer
Eine neue Methode verbessert Produktsuchen über verschiedene Medienformate hinweg.
― 6 min Lesedauer
Ein neuer Ansatz konzentriert sich auf subtile Inkonsistenzen bei der Erkennung von Deepfakes.
― 6 min Lesedauer
Erlebe das Drachenbootfest mit innovativen virtuellen Paddeltechniken.
― 7 min Lesedauer
Ein Rahmen, der die Erkennung von Depressionen durch strukturierte Interviews verbessert.
― 6 min Lesedauer
Eine frische Methode, um klare Bilder aus komplexen Textanweisungen zu erstellen.
― 6 min Lesedauer
Das Kombinieren von Bildern und Text verbessert die Vorhersagen über zukünftige Ereignisse.
― 7 min Lesedauer
Dieser Artikel untersucht, wie die Reihenfolge der Songs das Hörerlebnis in Musikalben beeinflusst.
― 7 min Lesedauer
Mu-MAE führt neue Methoden ein, um menschliche Aktivitäten durch verschiedene Datenquellen zu erkennen.
― 7 min Lesedauer
Ein neues System zielt effektiv auf Hassrede in Memes ab.
― 6 min Lesedauer
Die ViMo-Technik verwandelt alltägliche Videos in realistische 3D-Bewegungen.
― 8 min Lesedauer
Erkunde die Fortschritte und Herausforderungen bei kabelloser VR-Technologie für mehrere Nutzer.
― 6 min Lesedauer
Ein neues Modell für schnellere und effektivere Bildverbesserung bei schwachem Licht.
― 6 min Lesedauer
Ein neues Verfahren zur Messung der Tiefenwahrnehmung in 3D-VR-Bildern.
― 7 min Lesedauer