SpecTool bringt Klarheit in LLM-Fehlern bei der Nutzung von Tools.
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
SpecTool bringt Klarheit in LLM-Fehlern bei der Nutzung von Tools.
― 5 min Lesedauer
Bewertung der Effektivität von Sprachmodellen bei Programmieraufgaben mit neuen Benchmarks.
― 5 min Lesedauer
AbilityLens standardisiert die Bewertung für multimodale grosse Sprachmodelle.
― 6 min Lesedauer
Finde heraus, wie SelfPrompt dabei hilft, die Stärke von Sprachmodellen effektiv zu bewerten.
― 4 min Lesedauer
Bewertung der Fähigkeiten von Sprachmodellen bei der Erstellung synthetischer Daten mit AgoraBench.
― 5 min Lesedauer
Erforschung von Bewertungsfragen in erklärbarer Künstlicher Intelligenz und die Suche nach Vertrauen.
― 6 min Lesedauer
Ein Tool zur Bewertung der Sicherheitsreaktionen von grossen Sprachmodellen in China.
― 6 min Lesedauer
Neue Methoden bewerten die Qualität von KI-erstellten menschlichen Gesichtern hinsichtlich Realismus und Anziehungskraft.
― 10 min Lesedauer
MVTamperBench bewertet VLMs anhand von Video-Manipulationstechniken für bessere Zuverlässigkeit.
― 6 min Lesedauer