Neuste Artikel für Technologie-Bewertung

Ein neuer Blick darauf, wie KI medizinische Fragen beantwortet und wie effektiv das ist.

2025-05-23T17:12:45+00:00 ― 6 min Lesedauer

Eine neue Methode verbessert, wie wir die Bildgenerierung aus Text bewerten.

2025-05-23T08:56:51+00:00 ― 8 min Lesedauer

Eine Analyse von ChatGPTs Fähigkeit, Filme effektiv zu empfehlen.

2025-05-20T17:00:09+00:00 ― 6 min Lesedauer

Lern, wie Pairwise-Ranking dabei hilft, das beste Sprachmodell auszuwählen.

2025-05-19T04:28:00+00:00 ― 8 min Lesedauer

SpecTool bringt Klarheit in LLM-Fehlern bei der Nutzung von Tools.

2025-05-16T16:30:40+00:00 ― 5 min Lesedauer

Bewertung der Effektivität von Sprachmodellen bei Programmieraufgaben mit neuen Benchmarks.

2025-05-15T17:42:40+00:00 ― 5 min Lesedauer

AbilityLens standardisiert die Bewertung für multimodale grosse Sprachmodelle.

2025-05-15T13:54:40+00:00 ― 6 min Lesedauer

Finde heraus, wie SelfPrompt dabei hilft, die Stärke von Sprachmodellen effektiv zu bewerten.

2025-04-27T12:04:45+00:00 ― 4 min Lesedauer

Bewertung der Fähigkeiten von Sprachmodellen bei der Erstellung synthetischer Daten mit AgoraBench.

2025-04-17T19:33:09+00:00 ― 5 min Lesedauer

Erforschung von Bewertungsfragen in erklärbarer Künstlicher Intelligenz und die Suche nach Vertrauen.

2025-04-03T20:54:36+00:00 ― 6 min Lesedauer

Ein Tool zur Bewertung der Sicherheitsreaktionen von grossen Sprachmodellen in China.

2025-03-05T07:30:00+00:00 ― 6 min Lesedauer

Neue Methoden bewerten die Qualität von KI-erstellten menschlichen Gesichtern hinsichtlich Realismus und Anziehungskraft.

2025-02-25T12:31:03+00:00 ― 10 min Lesedauer

MVTamperBench bewertet VLMs anhand von Video-Manipulationstechniken für bessere Zuverlässigkeit.

2025-01-23T08:26:15+00:00 ― 6 min Lesedauer