Shanghang Zhang

Eine neue Methode verbessert das 3D-Modellieren für bestimmte Objekte mit fortschrittlichen neuralen Techniken.

2025-09-23T05:48:30+00:00 ― 6 min Lesedauer

Eine neue Methode verbessert, wie Modelle Tiefe und räumliche Beziehungen in Bildern wahrnehmen.

2025-09-12T21:44:54+00:00 ― 6 min Lesedauer

SPHINX-V verbessert die Fähigkeit von KI, Bilder durch Benutzerinteraktion zu interpretieren.

2025-08-24T07:49:48+00:00 ― 6 min Lesedauer

Ein neues Framework verbessert das Verständnis von KI für 3D-Räume.

2025-08-11T19:14:05+00:00 ― 7 min Lesedauer

Eine neue Methode zur Erstellung detaillierter 3D-Bilder aus Einzelbildern mithilfe von Multiview-Diffusion.

2025-08-10T01:29:48+00:00 ― 5 min Lesedauer

CoCoGesture erstellt lebensechte Gesten, die zu gesprochenen Wörtern passen und die Interaktion verbessern.

2025-08-06T05:04:00+00:00 ― 5 min Lesedauer

Ein neues Modell verbessert die Verbindung zwischen visuellem und Sprachverständnis.

2025-07-25T11:10:06+00:00 ― 6 min Lesedauer

MMTrail kombiniert visuelle und auditive Beschreibungen für bessere Video-Sprachmodelle.

2025-07-08T06:53:20+00:00 ― 5 min Lesedauer

FactorLLM verbessert die Effizienz von Sprachmodellen, indem es die Wissensablage umorganisiert.

2025-06-27T17:27:42+00:00 ― 5 min Lesedauer

Eine neue Methode verbessert die Details bei der Bilderstellung mit regionalen Eingaben.

2025-05-31T15:49:06+00:00 ― 7 min Lesedauer

Ein neuer Ansatz verbessert das Lernen von Modellen aus unterschiedlichen Bilddaten.

2025-05-26T18:30:36+00:00 ― 7 min Lesedauer

Eine neue Technik verbessert die Bildklarheit in belebten Strassenumgebungen.

2025-05-11T11:06:40+00:00 ― 7 min Lesedauer

Entdecke, wie ASGDiffusion die Generierung von hochauflösenden Bildern verändert.

2025-04-02T23:14:33+00:00 ― 7 min Lesedauer