Arman Cohan

Diese Studie bewertet, wann Erweiterungen die Informationssuche verbessern oder verschlechtern.

2025-09-26T14:07:30+00:00 ― 4 min Lesedauer

Diese Studie untersucht die Fähigkeiten von LLMs, strukturierte Daten genau zu erzeugen.

2025-09-26T00:57:30+00:00 ― 6 min Lesedauer

Ein tieferer Blick darauf, wie LLMs Sprache in Code umwandeln bei verschiedenen Aufgaben.

2025-09-20T06:58:18+00:00 ― 9 min Lesedauer

Ein neues offenes Sprachmodell für Forschung und Innovation in der Verarbeitung natürlicher Sprache.

2025-09-12T09:14:24+00:00 ― 6 min Lesedauer

Überprüfung von Schwachstellen und Sicherheitsstrategien für LLM-gesteuerte wissenschaftliche Agenten.

2025-09-10T13:23:42+00:00 ― 7 min Lesedauer

Studie zeigt erheblichen Datenüberschneidungen, die die Bewertungen von Sprachmodellen bei der Codegenerierung beeinflussen.

2025-09-01T02:16:12+00:00 ― 6 min Lesedauer

Ein neuer Datensatz hilft IR-Modellen, sich an komplexe Anweisungen anzupassen, um die Leistung zu verbessern.

2025-08-26T18:49:00+00:00 ― 3 min Lesedauer

Datenverunreinigung beeinflusst die Bewertung von grossen Sprachmodellen erheblich.

2025-07-26T10:12:36+00:00 ― 5 min Lesedauer

Zwei Methoden verbessern die Genauigkeit von KI-generierten Texteinschätzungen.

2025-05-29T22:25:03+00:00 ― 7 min Lesedauer

Ein neuer Massstab bewertet Modelle zur Überprüfung von finanziellen Ansprüchen in komplexen Dokumenten.

2025-05-27T17:33:54+00:00 ― 7 min Lesedauer

ChemSafetyBench testet Chatbots zu Chemikaliensicherheit und Wissen.

2025-05-06T00:39:52+00:00 ― 6 min Lesedauer