Xihui Liu

CompAgent verbessert die Bilderstellung aus Text, indem es komplexe Aufforderungen aufschlüsselt.

2025-09-13T21:42:42+00:00 ― 7 min Lesedauer

Eine neue Methode verbessert 3D-Szenen-Animationen aus Textaufforderungen.

2025-08-25T14:06:48+00:00 ― 7 min Lesedauer

ReGround3D verbessert das Verständnis von menschlichen Anweisungen in 3D-Umgebungen.

2025-07-21T19:05:00+00:00 ― 5 min Lesedauer

GenArtist verbessert die Bildgenerierung und -bearbeitung mit einem intelligenten KI-Agenten.

2025-07-17T00:39:54+00:00 ― 6 min Lesedauer

Ein neuer Benchmark behandelt die Notwendigkeit für eine standardisierte Bewertung in der spatio-temporalen Vorhersage.

2025-07-15T01:47:30+00:00 ― 8 min Lesedauer

OVExp kombiniert Sprache und Vision für effektive Objektnavigation in unterschiedlichen Umgebungen.

2025-07-14T06:34:06+00:00 ― 6 min Lesedauer

LLaVA-3D kombiniert 2D- und 3D-Einsichten für tiefere räumliche Überlegungen.

2025-06-05T06:01:24+00:00 ― 6 min Lesedauer

SAMPart3D vereinfacht die Analyse und Bearbeitung von 3D-Modellen mit innovativen Segmentierungstechniken.

2025-05-25T20:45:36+00:00 ― 5 min Lesedauer

Neue Methode verwandelt flache Bilder in lebendige 3D-Szenen.

2025-04-17T06:42:45+00:00 ― 7 min Lesedauer

Moto nutzt Videoanalysen, um Robotern komplexe Bewegungen effizient beizubringen.

2025-04-12T02:19:30+00:00 ― 6 min Lesedauer

Entdecke, wie V2PE Vision-Language-Modelle für besseres Verständnis langer Kontexte verbessert.

2025-03-17T05:59:33+00:00 ― 6 min Lesedauer

Entdecke, wie parallelisierte Generierung die Bild- und Videoproduktion verändert.

2025-02-13T07:36:18+00:00 ― 6 min Lesedauer