MMPKUBase bietet über 52.000 chinesische Fächer mit tollen Bildern.
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
MMPKUBase bietet über 52.000 chinesische Fächer mit tollen Bildern.
― 5 min Lesedauer
TEAdapter verbessert die Musikgenerierung aus Text und gibt den Nutzern mehr Kontrolle und Kreativität.
― 5 min Lesedauer
Ein neuartiger Datensatz und eine Methode verbessern das Video-Grundieren für komplexe Geschichten.
― 8 min Lesedauer
Eine neue Methode verbessert die Erkennung von Gesichtsdeepfakes.
― 6 min Lesedauer
Lighthouse vereinfacht die Suche nach Video-Momenten und die Erkennung von Highlights für Forscher.
― 5 min Lesedauer
Neues Machine-Learning-Modell verbessert Audioquellen-Trenntechniken.
― 5 min Lesedauer
Ein System zur Verbesserung der Sprachverständlichkeit in lauten Umgebungen mit Hilfe von Smart Glasses.
― 5 min Lesedauer
COM Kitchens bietet ungeschnittene Kochvideos, um die Lebensmittelzubereitungsprozesse zu studieren.
― 5 min Lesedauer
ReSyncer verbessert die Videoqualität und Flexibilität für Lippenbewegungen, die mit dem Audio synchronisiert sind.
― 5 min Lesedauer
Neurales Tuning einführen, um die Multitasking-Fähigkeiten grosser Modelle effektiv zu verbessern.
― 6 min Lesedauer
Eine neue Methode verbessert Produktsuchen über verschiedene Medienformate hinweg.
― 6 min Lesedauer
Ein neuer Ansatz konzentriert sich auf subtile Inkonsistenzen bei der Erkennung von Deepfakes.
― 6 min Lesedauer
Erlebe das Drachenbootfest mit innovativen virtuellen Paddeltechniken.
― 7 min Lesedauer
Ein Rahmen, der die Erkennung von Depressionen durch strukturierte Interviews verbessert.
― 6 min Lesedauer
Eine frische Methode, um klare Bilder aus komplexen Textanweisungen zu erstellen.
― 6 min Lesedauer
Das Kombinieren von Bildern und Text verbessert die Vorhersagen über zukünftige Ereignisse.
― 7 min Lesedauer
Dieser Artikel untersucht, wie die Reihenfolge der Songs das Hörerlebnis in Musikalben beeinflusst.
― 7 min Lesedauer
Mu-MAE führt neue Methoden ein, um menschliche Aktivitäten durch verschiedene Datenquellen zu erkennen.
― 7 min Lesedauer
Ein neues System zielt effektiv auf Hassrede in Memes ab.
― 6 min Lesedauer
Die ViMo-Technik verwandelt alltägliche Videos in realistische 3D-Bewegungen.
― 8 min Lesedauer
Erkunde die Fortschritte und Herausforderungen bei kabelloser VR-Technologie für mehrere Nutzer.
― 6 min Lesedauer
Ein neues Modell für schnellere und effektivere Bildverbesserung bei schwachem Licht.
― 6 min Lesedauer
Ein neues Verfahren zur Messung der Tiefenwahrnehmung in 3D-VR-Bildern.
― 7 min Lesedauer
Eine Methode zum Zusammenfassen von Videos aus verschiedenen Kulturen und Nachrichtenquellen.
― 5 min Lesedauer
Eine neue Methode vereinfacht das Editieren von 3D-Szenen mit nur einem 2D-Bild.
― 6 min Lesedauer
Eine neue Methode zielt effizient auf mehrere Gesichtsauthentifizierungssysteme ab.
― 9 min Lesedauer
Ein innovatives System automatisiert die Klangproduktion für Filme und Spiele.
― 8 min Lesedauer
Lern, wie Harmonizing Attention das Mischen von Bildern verbessert, indem es sich auf Geometrie und Textur konzentriert.
― 6 min Lesedauer
Die Verbesserung der Bildqualität führt zu besseren Bewertungen der Pupillengrösse.
― 6 min Lesedauer
Aktuelle Benchmarks schätzen die Fähigkeit von Modellen, Audio- und Videodaten zu verbinden, falsch ein.
― 6 min Lesedauer
Automatisierung bei der Animationsproduktion eröffnet neue Wege für Erzählungen und visuelle Darstellungen.
― 7 min Lesedauer
Ein Blick auf die Komplexität, gemischte Audiospuren zu identifizieren.
― 6 min Lesedauer
StyleSpeech verbessert TTS-Systeme, indem es natürliche Sprachnuancen einfängt.
― 6 min Lesedauer
Cap2Sum nutzt dichte Video-Untertitel, um die Effizienz und Effektivität der Videozusammenfassung zu verbessern.
― 8 min Lesedauer
MaVEn verbessert die Fähigkeit von KI, mehrere Bilder für besseres Denken zu verarbeiten.
― 6 min Lesedauer
KI verändert, wie Musik komponiert und erlebt wird.
― 6 min Lesedauer
Eine neue Methode verbessert die Emotionserkennung in Gesprächen durch die Nutzung mehrerer Datenquellen.
― 6 min Lesedauer
RMARN vorstellen: ein innovativer Ansatz, um Text und 3D-Daten zu verbinden.
― 5 min Lesedauer
Eine neue Methode verwandelt Text nahtlos in detaillierte 3D-Szenen.
― 6 min Lesedauer
Ein neuer Ansatz, um zugängliche virtuelle Räume mit WebXR und A-Frame zu erstellen.
― 7 min Lesedauer