Neuste Artikel für Bewertungsmethoden

Physik und Gesellschaft Ein fairer Ansatz zur Bewertung von Optionen

Lerne, wie man Meinungen und Entscheidungen fair mithilfe statistischer Prinzipien bewertet.

2025-08-13T13:14:24+00:00 ― 6 min Lesedauer

Gesundheitsinformatik Bewertung von natürlicher Sprachgenerierung in der Medizin

Eine Studie zur Bewertung von NLG-Systemen für präzise medizinische Diagnosen.

2025-08-12T17:03:30+00:00 ― 6 min Lesedauer

Rechnen und Sprache Die Bewertung des Verständnisses von KI über Weltwissen

Ein Blick darauf, wie KI-Modelle wichtiges Wissen über die Welt erfassen.

2025-08-10T22:41:42+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von NLG-Evaluation mit dem AdvEval-Rahmenwerk

AdvEval zeigt Schwächen in den Bewertungsmetriken für die natürliche Sprachgenerierung auf.

2025-08-08T07:29:42+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der menschlichen Bewertung von Sprachmodellen

Ein neuer Rahmen zur Bewertung grosser Sprachmodelle mit menschlicher Einsicht.

2025-08-06T00:03:48+00:00 ― 9 min Lesedauer

Künstliche Intelligenz Ein neuer Ansatz zur Entscheidungsfindung mit siebenwertiger Logik

Lern, wie die siebenwertige Logik die Entscheidungsfindung mit mehreren Kriterien verbessert.

2025-08-04T05:00:30+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Bewertung von Vorurteilen in Generative AI Metriken

Ein neuer Ansatz zur Bewertung von Vorurteilen in automatisierten KI-Bewertungsmetriken.

2025-08-02T22:04:00+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der steuerbaren Textgenerierung mit LLMs

Bewertung von Methoden zur präzisen Kontrolle von Texteigenschaften in den Ausgaben von LLMs.

2025-08-01T15:23:18+00:00 ― 15 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen durch Zusammenarbeit

Ein neues Framework bewertet Sprachmodelle hinsichtlich emotionaler Intelligenz und Kreativität.

2025-07-30T00:50:48+00:00 ― 8 min Lesedauer

Maschinelles Lernen Bewertung von Beschriftungsquellen mit WeShap-Werten

WeShap-Werte verbessern die Datenbeschriftungsqualität für Machine Learning-Modelle.

2025-07-28T06:50:42+00:00 ― 7 min Lesedauer

Künstliche Intelligenz STAR-Framework: Red Teaming für AI-Sicherheit verbessern

Ein neuer Ansatz zur Verbesserung der Sicherheitsbewertung von KI-Systemen durch unterschiedliche Perspektiven.

2025-07-27T19:47:06+00:00 ― 6 min Lesedauer

Rechnen und Sprache Eine neue Möglichkeit, grosse Sprachmodelle zu bewerten

Hierarchische Prompting-Taxonomie verbessert die Bewertungsmethoden für Sprachmodelle.

2025-07-27T05:10:12+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen: Ein neuer Ansatz

Eine Studie über die Nutzung von LLMs, um andere LLMs zu bewerten und die Auswirkungen davon.

2025-07-27T04:30:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Neuer Massstab zur Bewertung von LLMs im Bereich des geistigen Eigentums

IPEval bewertet das Verständnis von Sprachmodellen für Konzepte des geistigen Eigentums.

2025-07-27T01:29:00+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von mehrsprachigen Sprachmodellen in indischen Sprachen

Eine umfassende Studie zur Leistungsfähigkeit von Sprachmodellen in 10 indischen Sprachen.

2025-07-25T17:37:12+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung ChronoMagic-Bench: Fortschritte bei der Bewertung von Zeitraffer-Videos

Neue Benchmarks verbessern, wie wir generierte Zeitraffer-Videos bewerten.

2025-07-24T00:40:18+00:00 ― 7 min Lesedauer

Rechnen und Sprache Die Bewertung von Textzusammenfassungsmethoden mit LLMs

Dieser Artikel untersucht Methoden zur Bewertung von Textzusammenfassungen mit grossen Sprachmodellen.

2025-07-22T04:41:42+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Video-Generierung: Das DEVIL-Protokoll

Eine neue Methode zur Bewertung von Text-zu-Video-Modellen konzentriert sich auf Dynamik.

2025-07-21T10:07:48+00:00 ― 7 min Lesedauer

Rechnen und Sprache M5 Benchmark: Bewertung von multimodalen Modellen über Kulturen hinweg

Ein neuer Massstab bewertet die Leistung von Sprachmodellen weltweit.

2025-07-19T04:40:24+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von maschinell-generierten visuellen Geschichten

Eine neue Methode zur Bewertung der Erzählqualität bei Maschinen wird vorgestellt.

2025-07-18T16:09:54+00:00 ― 8 min Lesedauer

Künstliche Intelligenz Interaktive Agenten mit verankerte Sprache voranbringen

Eine Studie zur Verbesserung der Fähigkeit von KI, Anweisungen in natürlicher Sprache zu folgen.

2025-07-15T11:00:30+00:00 ― 8 min Lesedauer

Künstliche Intelligenz Evaluierung von XAI-Erfahrungen mit der XEQ-Skala

Eine neue Skala hilft dabei, Nutzererfahrungen in erklärbaren KI-Systemen zu messen.

2025-07-13T03:50:24+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Bewertung von Sprachmodellen im wissenschaftlichen Coding

Ein neuer Benchmark bewertet Sprachmodelle bei wissenschaftlichen Programmierherausforderungen in verschiedenen Bereichen.

2025-07-10T17:22:48+00:00 ― 6 min Lesedauer

Maschinelles Lernen Neuer Rahmen für die Bewertung der Generalisierung von KI-Modellen

Eine Methode vorstellen, um KI-Modelle auf unbekannten Daten effektiver zu bewerten.

2025-07-09T06:05:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen: Ein neues Toolkit

Ein Toolkit, das für eine bessere Bewertung von Mensch-Bot-Interaktionen entwickelt wurde.

2025-07-06T18:11:06+00:00 ― 5 min Lesedauer

Ton Bewertung des Musikverständnisses mit dem MuChoMusic Benchmark

Ein neuer Massstab zur Bewertung von Modellen, die Musik und Sprache analysieren.

2025-07-06T05:29:45+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Bildmodellen für die Diagrammverständnis

Neues Framework bewertet, wie Bildmodelle grafische Informationen durch Kanalgenauigkeit interpretieren.

2025-07-04T23:23:36+00:00 ― 5 min Lesedauer

Maschinelles Lernen Bewertung von Sparse Autoencodern mit Brettspielen

Ein neues Framework zur Bewertung von sparsamen Autoencodern durch Schach und Othello.

2025-07-04T12:43:42+00:00 ― 5 min Lesedauer

Informationsbeschaffung Workshop zu grossen Sprachmodellen in der Informationsbeschaffung

Forscher reden über die Auswirkungen von LLMs auf die Bewertung von Informationsbeschaffungssystemen.

2025-06-30T04:26:54+00:00 ― 6 min Lesedauer

Maschinelles Lernen Bewertung von grossen Sprachmodellen für den Einsatz in der realen Welt

Ein neuer Ansatz, um LLMs mit unterschiedlichen Bewertungssets zu bewerten.

2025-06-26T22:53:48+00:00 ― 7 min Lesedauer

Rechnen und Sprache Grosse Sprachmodelle fair bewerten

Ein neuer Ansatz, um Sprachmodelle mit unterschiedlichen Anweisungen und Aufgaben zu bewerten.

2025-06-23T14:58:30+00:00 ― 7 min Lesedauer

Computer und Gesellschaft Bewertung von vertrauenswürdiger KI: Methoden und Herausforderungen

Ein Blick auf die Bewertung vertrauenswürdiger KI-Systeme und die damit verbundenen Methoden.

2025-06-21T05:26:12+00:00 ― 6 min Lesedauer

Software-Entwicklung Bewertung von Bug-Report-Zusammenfassungen mit LLMs

Diese Studie untersucht, wie LLMs Bug-Report-Zusammenfassungen im Vergleich zu menschlichen Bewertern bewerten.

2025-06-18T20:41:18+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung der Textgenerierung in LLMs für lange Texte

LongGenBench bewertet grosse Sprachmodelle darin, qualitativ hochwertigen langen Text zu erstellen.

2025-06-17T21:54:36+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Computer Vision-Modellen mit der Item-Response-Theorie

IRT zur tiefergehenden Bewertung der Leistung von Computer Vision-Modellen nutzen.

2025-06-15T21:19:30+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Neuer VisScience-Benchmark bewertet multimodales Lernen

VisScience testet grosse Modelle für wissenschaftliches Denken mit Text und Bildern.

2025-06-15T07:37:54+00:00 ― 5 min Lesedauer

Rechnen und Sprache Evaluierung von Grounded Question Answering mit GroUSE

Dieser Artikel behandelt die Herausforderungen und Lösungen bei der Bewertung von Modellen für nachvollziehbare Fragenbeantwortung.

2025-06-14T07:48:00+00:00 ― 10 min Lesedauer

Rechnen und Sprache Bewertung von Retrieval-augmented Generation-Systemen: Ein neuer Datensatz

Ein Datensatz zur Bewertung der Leistung von RAG-Systemen in realen Szenarien.

2025-06-09T11:56:00+00:00 ― 5 min Lesedauer

Rechnen und Sprache Einführung von Michelangelo: Eine neue Bewertung für Sprachmodelle

Michelangelo bewertet Sprachmodelle danach, wie gut sie durch lange Kontexte logisch denken können.

2025-06-09T07:51:06+00:00 ― 4 min Lesedauer

Rechnen und Sprache Kalahi: Bewertung von Sprachmodellen in der philippinischen Kultur

Ein Werkzeug zur Bewertung der Relevanz und Angemessenheit von Sprachmodellen in philippinischen Kontexten.

2025-06-09T04:49:24+00:00 ― 6 min Lesedauer