Ji Zhang

Ein neuer Ansatz verbessert die Aufgabenleistung in Vision-Sprachmodellen.

2025-09-26T23:36:18+00:00 ― 6 min Lesedauer

Ein neuer Ansatz, der Multi-Agenten-Systeme nutzt, um kleinere Sprachmodelle zu verbessern.

2025-09-17T04:26:54+00:00 ― 7 min Lesedauer

Dieser Artikel behandelt einen neuen Rahmen zur Bewertung von Halluzinationen in LVLMs.

2025-09-04T12:02:06+00:00 ― 7 min Lesedauer

Ein neuer Massstab bewertet, wie Rollenspielagenten sozial interagieren.

2025-08-27T12:43:24+00:00 ― 7 min Lesedauer

Ein neues Framework verbessert, wie Sprachagenten lernen und Aufgaben erledigen.

2025-08-27T05:28:54+00:00 ― 6 min Lesedauer

MIBench testet die Leistung von multimodalen Modellen auf mehreren Bildern.

2025-07-09T14:23:18+00:00 ― 6 min Lesedauer

mPLUG-Owl3 verbessert das Verständnis von Bildern und Videos für bessere Antworten.

2025-06-30T17:13:12+00:00 ― 7 min Lesedauer

Eine neue Methode, um Sprachmodelle effektiver zu kombinieren.

2025-06-29T22:23:30+00:00 ― 6 min Lesedauer

Neue Modellierungstechniken verbessern unser Verständnis über die Bewegung von Bakterien.

2025-06-24T23:02:57+00:00 ― 5 min Lesedauer

MaVEn verbessert die Fähigkeit von KI, mehrere Bilder für besseres Denken zu verarbeiten.

2025-06-23T15:38:00+00:00 ― 6 min Lesedauer

Ein neues Framework will die Bildgenerierung mit Hilfe von menschlichem Feedback verbessern.

2025-06-13T07:34:24+00:00 ― 6 min Lesedauer

Ein Blick darauf, wie soziale Medien kollektive Meinungen formen.

2025-05-20T18:31:30+00:00 ― 8 min Lesedauer

Entdecke, wie Skip-Tuning die Effizienz von Vision-Language-Modellen verbessert.

2025-02-28T07:07:30+00:00 ― 7 min Lesedauer