Boqing Gong

Neue Methode verbessert die Objekterkennung durch Beziehungen zwischen Sprache und Bildern.

2025-09-22T15:03:42+00:00 ― 7 min Lesedauer

Neue Methoden verbessern die Fähigkeit von Maschinen, Bilder aus textuellen Eingaben zu erstellen.

2025-09-19T03:27:12+00:00 ― 5 min Lesedauer

Neue Methode verbessert die Videountertitelung mit Bild-Sprachmodellen.

2025-09-17T18:48:00+00:00 ― 7 min Lesedauer

VideoPrism hilft dabei, Videoinhalte effektiv zu interpretieren und zu analysieren.

2025-09-05T19:53:54+00:00 ― 6 min Lesedauer

Forschung zeigt, wie Trigger-Patches die Bildgenerierung in Diffusionsmodellen beeinflussen.

2025-08-02T07:35:00+00:00 ― 7 min Lesedauer

Ein neuer Ansatz, um die Texteingaben für Bild-zu-Text-Modelle zu verbessern und bessere Ergebnisse zu erzielen.

2025-07-09T19:45:24+00:00 ― 6 min Lesedauer

SOAR verbessert die Genauigkeit der Aktionserkennnung in der Analyse von Drohnenaufnahmen.

2025-06-05T08:39:24+00:00 ― 5 min Lesedauer

Vorstellung der Long Video Masked Autoencoders für ein besseres Verständnis von Videos.

2025-05-16T19:28:00+00:00 ― 6 min Lesedauer

HypDAE verändert, wie wir Bilder aus minimalen Beispielen erstellen.

2025-05-07T03:40:00+00:00 ― 6 min Lesedauer

Das DAVE-Dataset erfasst komplexe Verkehrsszenarien für ein besseres AI-Training.

2025-01-20T21:51:18+00:00 ― 8 min Lesedauer