Jindong Gu

Ein neues Modell verbessert die Abrufgenauigkeit für Videos mit mehreren Ereignissen.

2025-10-05T17:44:42+00:00 ― 6 min Lesedauer

Dieses Papier untersucht das Risiko von Backdoor-Angriffen im Few-Shot-Lernen.

2025-09-19T15:10:18+00:00 ― 7 min Lesedauer

Foundation-Modelle wie CLIP bieten sowohl Chancen als auch versteckte Gefahren in der KI.

2025-08-27T20:05:48+00:00 ― 6 min Lesedauer

Ein neues Framework verbessert die Sicherheit bei der Erstellung von Bildern aus Textaufforderungen.

2025-08-20T12:58:48+00:00 ― 6 min Lesedauer

Dieser Artikel spricht über einen neuen Massstab, um Bilder und Text zu kombinieren, um Ereignisse in Videos zu finden.

2025-07-28T20:24:24+00:00 ― 9 min Lesedauer

Ein neuer Benchmark bewertet die Effektivität von Sprachmodellen in robotischen Anwendungen.

2025-07-22T16:56:24+00:00 ― 7 min Lesedauer

Eine neue Methode verbessert die Datensatz-Destillation und steigert die Effizienz beim Trainieren von Modellen.

2025-07-10T06:11:18+00:00 ― 5 min Lesedauer

In diesem Artikel werden Sicherheitsprobleme bei Text-zu-Bild-Modellen besprochen und Lösungen vorgeschlagen.

2025-06-04T12:22:48+00:00 ― 7 min Lesedauer

Methoden erkunden, um multimodale Modelle zu verbessern, die visuelle Fragen aufschlüsseln.

2025-06-03T18:52:06+00:00 ― 6 min Lesedauer

Wir stellen ein Modell vor, das spezifische Momente in langen Videos ganz einfach findet.

2025-05-12T10:45:20+00:00 ― 6 min Lesedauer