Hongsheng Li

Robotik Fortschrittliche Roboterinteraktion mit ManipVQA

Neues System verbessert, wie Roboter Objekte verstehen und damit interagieren.

2025-08-28T15:19:12+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Bildverstehens-Revolution mit SPHINX-V

SPHINX-V verbessert die Fähigkeit von KI, Bilder durch Benutzerinteraktion zu interpretieren.

2025-08-24T07:49:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der Kamerasteuerung bei der Videoerstellung

Neue Methode verbessert die Kontrolle über Kamerabewegungen bei der Erstellung von Text-zu-Video.

2025-08-23T07:44:06+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei den Techniken zur Erzeugung von Stadtszenen

Eine neue Methode kombiniert 3D-Layouts und Text für eine bessere Erstellung von städtischen Szenen.

2025-08-20T16:08:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Lumina-T2X: Ein neues Zeitalter in der Medienproduktion

Transformiere Texte nahtlos in Bilder, Videos und Audio mit Lumina-T2X.

2025-08-12T05:14:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Any2Point: Brücke für 3D-Verständnis in KI-Modellen

Ein neues Framework verbessert das Verständnis von KI für 3D-Räume.

2025-08-11T19:14:05+00:00 ― 7 min Lesedauer

Rechnen und Sprache Innovative Methode für das Auffüllen von Text auf Zeichenebene

Eine neue Technik verbessert die Textgenerierung in der Verarbeitung natürlicher Sprache.

2025-08-06T02:18:06+00:00 ― 6 min Lesedauer

Maschinelles Lernen Einführung des Phased Consistency Modells für KI-Bilderzeugung

Ein neues Modell optimiert die KI-Bilder- und Videoerstellung mit besserer Geschwindigkeit und Qualität.

2025-08-05T21:57:24+00:00 ― 4 min Lesedauer

Maschinelles Lernen Fortschrittliche KI-Entscheidungsfindung mit UniZero

UniZero verbessert die Langzeitgedächtnis- und Entscheidungsfähigkeiten von KI.

2025-07-28T13:09:54+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Einführung von MM-Instruct: Ein Fortschritt im Befolgen von Anweisungen

MM-Instruct verbessert die Fähigkeit grosser multimodaler Modelle, unterschiedlichen Anweisungen zu folgen.

2025-07-22T17:43:48+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung von Sprachmodellen mit schrittgeführtem DPO

Ein neuer Ansatz verbessert das Denken in Sprachmodellen, indem kontrollierte Fehler erzeugt werden.

2025-07-22T05:13:18+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Fortschritte bei Mobile AI mit dem AMEX-Datensatz

Das AMEX-Dataset verbessert das Verständnis von KI für mobile App-Oberflächen.

2025-07-20T00:09:36+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Text-zu-Bild-Technologie

Ein neues Modell revolutioniert die Bildgenerierung aus Textbeschreibungen und verbessert verschiedene Branchen.

2025-07-02T04:22:30+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Echt wirkende 3D-Avatare mit Texteingaben erstellen

Eine neue Methode erstellt anpassbare 3D-Avatare aus Textbeschreibungen.

2025-06-22T21:12:00+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung LLaVA-MoD: Ein neuer Ansatz für effiziente multimodale Modelle

LLaVA-MoD erstellt kleinere multimodale Modelle mit Wissen von grösseren Vorbildern.

2025-06-20T22:35:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Die Zukunft von multimodalen Suchmaschinen

Untersuchen der Rolle von LMMs bei der Transformation von Suchfähigkeiten mit Text und Bildern.

2025-06-09T12:35:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung MedViLaM: Ein neues Modell für die Analyse medizinischer Daten

MedViLaM integriert mehrere medizinische Datentypen für bessere Analyse und Entscheidungsfindung.

2025-06-03T10:58:06+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung TimeWalker: Dein persönlicher Zeitreise-Avatar

Erlebe das Altern in 3D mit der TimeWalker-Technologie!

2025-04-20T02:07:21+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung StreamChat: Revolution der Echtzeit-Video-Interaktion

StreamChat verändert, wie wir in Echtzeit mit Streaming-Videos interagieren.

2025-03-21T16:43:30+00:00 ― 7 min Lesedauer