Eine neue Methode verbessert die Genauigkeit der Lebensmittelerfassung mit 3D-Modellen und 2D-Bildern.
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Eine neue Methode verbessert die Genauigkeit der Lebensmittelerfassung mit 3D-Modellen und 2D-Bildern.
― 7 min Lesedauer
Diese Studie zeigt, wie Kontext das Verständnis von Maschinen für Bilder und Fragen verbessert.
― 7 min Lesedauer
Ein neuer Audio-Codec, der hochwertige Kompression und reichhaltigen semantischen Inhalt bietet.
― 6 min Lesedauer
Eine Studie stellt eine neue Methode vor, um synchronisierte sprechende Gesichtsvideos zu erstellen.
― 6 min Lesedauer
Entdecke, wie grosse Sprachmodelle Kreativität durch Multimedia-Generierung steigern.
― 8 min Lesedauer
Die Vorteile von immersivem 3D-Skizzieren für Architekten und Designer erkunden.
― 7 min Lesedauer
Ein Modell vorstellen, das synchronen Audio und Video mit gemischten Geräuschpegeln erzeugt.
― 6 min Lesedauer
Dieser Artikel bespricht ein neues einfaches Modell, um Audio aus Bildern zu generieren und umgekehrt.
― 5 min Lesedauer
Neue Techniken verbessern die Qualität und das Training für 3D-Bilder.
― 7 min Lesedauer
NuNet nutzt RGB- und Tiefendaten für genauere Ernährungsschätzungen.
― 6 min Lesedauer
Eine neue Methode verbessert die Audio-Video-Ausrichtung mit vortrainierten Modellen.
― 6 min Lesedauer
Eine neue Methode, um die Aufmerksamkeitsmechanismen bei der Verarbeitung komplexer Daten zu verbessern.
― 7 min Lesedauer
Erforschen, wie KI das Streaming von Videos verbessert und gleichzeitig die Energieeffizienz fördert.
― 6 min Lesedauer
Das Frieren-Modell verbessert die Audioqualität und den Sync für Videos.
― 6 min Lesedauer
Gear-NeRF verbessert das Rendering von dynamischen 3D-Szenen mit bewegungsbewussten Techniken.
― 7 min Lesedauer
Neue Methoden stärken Wasserzeichen gegen moderne Bildbearbeitungsbedrohungen.
― 8 min Lesedauer
Ein neues System kombiniert Daten und Nachrichten für ein besseres Risikomanagement bei Hitze.
― 5 min Lesedauer
Eine neue Methode, um Musik zu erstellen, die gut zu Videoinhalten passt.
― 8 min Lesedauer
Eine aktuelle Studie bestätigt wichtige Ergebnisse zur Dateninterpretation mit Klang und Bildern.
― 7 min Lesedauer
Neues Modell generiert Musik mit Hilfe von Text und visuellen Informationen.
― 7 min Lesedauer
Bildgenerierung und -abruf kombinieren für besseren Zugang zu visuellen Informationen.
― 7 min Lesedauer
Ein Blick auf neue Methoden zum Verständnis von überlappender Sprache während Gesprächen.
― 8 min Lesedauer
Eine neue Methode, um Nachrichten ausserhalb des Kontexts effizient zu erkennen.
― 4 min Lesedauer
PianoMotion10M bietet detaillierte Handbewegungen, um Klavierlernenden zu helfen.
― 6 min Lesedauer
Erforschen, wie QoE-Massnahmen die Zufriedenheit mit Multimedia-Diensten steigern.
― 9 min Lesedauer
Diese Studie untersucht Audio-Methoden zur Verfolgung von Fussgängerbewegungen in städtischen Gebieten.
― 8 min Lesedauer
Ein neuer Datensatz verbessert die Erstellung von Foley-Audio für multimediale Inhalte.
― 7 min Lesedauer
Ein Projekt verbindet Tanz und Technologie für kreative Ausdrucksformen.
― 7 min Lesedauer
Neue Methode verbessert die Videoanalyse bei der Koloskopie zur Polypenentdeckung.
― 7 min Lesedauer
Eine Methode, um die Identifizierung von Fake News durch Interaktionen in sozialen Medien zu verbessern.
― 8 min Lesedauer
VCEval bietet eine automatisierte Möglichkeit, die Effektivität von Online-Kursen zu bewerten.
― 5 min Lesedauer
Ein multimodaler Ansatz verbessert, wie Höhepunkte in Live-Streams erkannt werden.
― 6 min Lesedauer
Dieses Papier präsentiert ein System zur Erstellung von visuellen Darstellungen, die auf Musik reagieren.
― 8 min Lesedauer
Eine neue Methode verbessert die Bild- und Textextraktion über mehrere Sprachen hinweg.
― 6 min Lesedauer
Entdecke, wie Diffusionsmodelle das Video-Editing durch KI-Technologie verändern.
― 5 min Lesedauer
Forschung zeigt, dass die Inkonsistenz zwischen Text und Bild mit der Beliebtheit von Posts in sozialen Medien steigt.
― 5 min Lesedauer
Neuer Datensatz verbessert die Audioerzeugung aus detaillierten Textbeschreibungen.
― 5 min Lesedauer
Ein neues Tool zum Testen von Sprachmodellen in lauten Umgebungen.
― 4 min Lesedauer
Eine neue Methode zur Erstellung saubererer Referenznetze aus dynamischen 3D-Formen.
― 6 min Lesedauer
Eine neue Methode verringert den Bedarf an beschrifteten Daten in Aufgaben der Computer Vision.
― 6 min Lesedauer