Jingdong Wang

Maschinelles Lernen Fortschritte in der multimodalen Benennungserkennung

BGA-MNER verbessert die Verbindungen zwischen Text und Bild für eine bessere Entitätserkennung.

2025-10-12T20:46:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Few-Shot Aktionskennung mit MA-CLIP

MA-CLIP verbessert die Aktionserkennung mit wenigen Beispielen und einer besseren Integration von Video und Text.

2025-10-12T12:29:06+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der dynamischen Szenenwiedergabe

Eine neue Methode verbessert das Rendering von dynamischen Szenen mithilfe von Vorwärtsverzerrungstechniken.

2025-09-20T06:18:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der Referenzbildsegmentierung mit CPRN

Ein neues Framework verbessert die Objektsegmentierung basierend auf Beschreibungen in natürlicher Sprache.

2025-09-15T05:26:36+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Einheitlicher Rahmen für die Weiterentwicklung der Texterkennung

Ein neues Framework bringt verbesserte Texterkennung über verschiedene Formate und Granularitäten hinweg.

2025-08-04T13:26:06+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der 3D-Objekterkennung mit BEVSpread

BEVSpread verbessert die Objekt-Erkennungsgenauigkeit für sichereres Fahren.

2025-07-30T04:24:06+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Porträtbild-Animation mit Audio

Neue Methoden verbessern realistische Gesichtsanimationen, die mit Audio synchronisiert sind.

2025-07-29T02:51:30+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Video-Generierung: Das DEVIL-Protokoll

Eine neue Methode zur Bewertung von Text-zu-Video-Modellen konzentriert sich auf Dynamik.

2025-07-21T10:07:48+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der 3D-Objekterkennung mit objektweise Tiefe

Ein neuer Ansatz, der sich auf die objektspezifische Tiefe konzentriert, verbessert die 3D-Erkennungsgenauigkeit.

2025-07-13T06:12:36+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der 3D-Objekterkennung mit der SEED-Methode

SEED verbessert die 3D-Objekterkennung durch duale Abfrageauswahl und deformierbare Rasteraufmerksamkeit.

2025-07-13T06:04:42+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei realistischen digitalen Menschen-Avataren

Eine neue Methode, um realistische digitale Avatare aus Videos zu erstellen.

2025-07-09T12:48:30+00:00 ― 4 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der 3D-Objekterkennung mit Linear Group RNN

Neue Methode verbessert Genauigkeit und Effizienz bei der 3D-Objekterkennung mit Linear Group RNN.

2025-07-07T03:32:00+00:00 ― 4 min Lesedauer

Computer Vision und Mustererkennung Add-SD: Ein neuer Ansatz für die Bildbearbeitung

Add-SD macht Bildbearbeitung einfacher, indem es realistische Objektzusätze über Textbefehle ermöglicht.

2025-07-05T02:09:30+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung ReSyncer: Ein neuer Ansatz fürs Lippen-Synchen

ReSyncer verbessert die Videoqualität und Flexibilität für Lippenbewegungen, die mit dem Audio synchronisiert sind.

2025-07-01T12:18:42+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Bildannotation mit dem FullAnno-System verbessern

FullAnno verbessert Bildannotationen für besseres multimodales Modelltraining.

2025-06-08T20:15:54+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Ein einheitlicher Ansatz für Text- und Bilderzeugung

Dieser Artikel stellt ein neues Modell vor, das Text- und Bildgenerierung in einem System kombiniert.

2025-06-06T22:34:36+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der allgemeinen Kategoriediscovery mit FlipClass

FlipClass bietet eine neue Methode für besseres Lernen in der allgemeinen Kategorienentdeckung an.

2025-06-03T10:26:30+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung ALoRE: Smarte Lösungen für die Bilderkennung

ALoRE optimiert das Trainieren von Modellen für effiziente Bilderkennung und vielfältigere Anwendungen.

2025-03-20T03:48:36+00:00 ― 7 min Lesedauer