Neuste Artikel für Datenbewertung

Rechnen und Sprache SIB-200: Ein Schritt in Richtung inklusive Sprachbewertung

Neuer Datensatz verbessert die Bewertung von mehrsprachigen Modellen über verschiedene Sprachen hinweg.

2025-09-26T23:44:12+00:00 ― 7 min Lesedauer

Rechnen und Sprache Eine neue Methode zur Bewertung von Frage-Antwort-Systemen

SQuArE-Metrik verbessert die Bewertung von QA-Systemen durch mehrere Antwortreferenzen.

2025-09-23T13:58:18+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Bewertung von schwach überwachten semantischen Segmentierungen für kleine Objekte

Neue Methoden verbessern die Leistungsbewertung von kleinen Objekten in WSSS.

2025-09-22T00:11:00+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Retrieval Augmented Generation Systemen

Ein neues Framework zur Bewertung von RAG-Systemen ohne menschliche Referenzen.

2025-09-21T17:51:48+00:00 ― 6 min Lesedauer

Rechnen und Sprache Neue Bewertungsmethode für die Antwortqualität

Eine Methode vorstellen, die die Antwortqualität auf verschiedenen Detailstufen misst.

2025-09-18T05:04:12+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der Bewertungsmethoden in Frage-Antwort-Systemen

Diese Studie schlägt neue Methoden zur Bewertung von Antworten im maschinellen Fragenbeantworten vor.

2025-09-15T03:20:12+00:00 ― 8 min Lesedauer

Künstliche Intelligenz Verbesserung der Bewertungsmethoden für KI-Erklärungen

Neue Methoden verbessern die Bewertung von Erklärungen zu KI-Modellen.

2025-09-13T08:41:04+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte bei der Bewertung von Sprachmodellen mit WSC+

Ein neuer Datensatz und eine Methode verbessern die Fragenerstellung von Sprachmodellen.

2025-09-12T20:18:00+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der Überprüfung von Schlussfolgerungen in Sprachmodellen

Neuer Datensatz verbessert die Überprüfung von Denkprozessen in KI-Modellen.

2025-09-12T11:28:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen mit neuem Benchmark

Der Artikel stellt einen Benchmark vor, um grosse Sprachmodelle mit komplexen Aufgaben zu bewerten.

2025-09-11T04:55:54+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung des Wortschatzreichtums in ChatGPT

Eine Studie darüber, wie ChatGPT Sprache und Wortschatzmerkmale nutzt.

2025-09-09T07:46:12+00:00 ― 10 min Lesedauer

Künstliche Intelligenz Bewertung von grossen Sprachmodellen in der Cybersicherheit

Ein detaillierter Blick auf CyberMetrics Bewertung von KI- und menschlichen Experten in der Cybersicherheit.

2025-09-08T19:39:24+00:00 ― 9 min Lesedauer

Rechnen und Sprache Bewertung von Modellbearbeitung in langen Texten

Eine neue Methode bewertet die Effektivität von Modifizierung bei der Erstellung längerer Texte.

2025-09-08T06:21:30+00:00 ― 9 min Lesedauer

Rechnen und Sprache Verbesserung der Bewertungsmethoden für Frage-Antwort-Systeme

Ein neues Framework zur Bewertung der Korrektheit von KI-Antworten mit menschlichem Urteil.

2025-09-07T13:06:36+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Machine Unlearning in Diffusionsmodellen

Neuer Datensatz verbessert die Bewertungsmethoden für maschinelles Vergessen in der Bildgenerierung.

2025-09-06T06:02:12+00:00 ― 6 min Lesedauer

Rechnen und Sprache Einführung von FanOutQA: Ein neues Dataset für komplexe Fragenbeantwortung

FanOutQA hilft dabei, Sprachmodelle bei anspruchsvollen Mehrfachfragen mit strukturierten Daten zu bewerten.

2025-09-05T08:58:12+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Visual Halluzinationen in KI-Modellen ansprechen

Ein neues Tool erzeugt verschiedene visuelle Halluzinationsinstanzen, um die Genauigkeit von KI zu verbessern.

2025-09-04T23:45:12+00:00 ― 5 min Lesedauer

Künstliche Intelligenz Bewertung von Halluzinationen in grossen Vision-Language-Modellen

Dieser Artikel behandelt einen neuen Rahmen zur Bewertung von Halluzinationen in LVLMs.

2025-09-04T12:02:06+00:00 ― 7 min Lesedauer

Maschinelles Lernen Lebenslange Benchmarks: Ein neuer Ansatz zur Modellauswertung

Eine Methode zur kontinuierlichen Modellauswertung im maschinellen Lernen, um Überanpassung zu vermeiden.

2025-09-02T23:49:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der Faktenüberprüfung in RAG-Systemen

Eine neue Methode verbessert das Fact-Checking in Systemen zur retrieval-unterstützten Generierung.

2025-08-31T22:19:12+00:00 ― 8 min Lesedauer

Rechnen und Sprache Verbesserung der Absichtserkennung in Gesprächssystemen

Das Verständnis der Nutzerabsichten durch Negation und Implikatur verbessern.

2025-08-31T10:04:30+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen zur Erkennung von Diskursentitäten

Eine Analyse des Verständnisses von Sprachmodellen bezüglich der Regeln zur Entitätenerkennung.

2025-08-30T21:34:00+00:00 ― 7 min Lesedauer

Software-Entwicklung Bewertung der Realitätsnähe in Test-Szenarien für autonomes Fahren mithilfe von LLMs

Diese Forschung bewertet die Nutzung von LLMs für realistische Selbstfahrauto-Szenarien.

2025-08-29T14:13:48+00:00 ― 8 min Lesedauer

Rechnen und Sprache Verbesserung von NLP für diverse Dialekte

Ein Framework, um die NLP-Leistung über verschiedene Sprachdialekte hinweg zu verbessern.

2025-08-28T20:51:00+00:00 ― 4 min Lesedauer

Rechnen und Sprache NovelQA: Ein neuer Massstab für das Verständnis von langen Texten

Bewertung von LLMs bezüglich ihrer Fähigkeit, lange Texte in der Literatur zu verarbeiten.

2025-08-28T03:12:24+00:00 ― 6 min Lesedauer

Maschinelles Lernen Bewertung der Zuverlässigkeit von LLMs in der Biomedizin

Ein neues Framework bewertet, wie vertrauenswürdig LLMs als biomedizinische Assistenten sind.

2025-08-27T05:13:06+00:00 ― 5 min Lesedauer

Software-Entwicklung Bewertung von Code-Sprachmodellen: Die Herausforderung der Datenkontamination

Eine Studie hebt hervor, wie Datenkontamination die Bewertungen von Code-Modellen beeinflusst.

2025-08-25T23:27:42+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen in der molekularen Forschung

Ein neuer Datensatz verbessert die Bewertung des molekularen Wissens in Sprachmodellen.

2025-08-24T19:45:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Bildverstehens-Revolution mit SPHINX-V

SPHINX-V verbessert die Fähigkeit von KI, Bilder durch Benutzerinteraktion zu interpretieren.

2025-08-24T07:49:48+00:00 ― 6 min Lesedauer

Rechnen und Sprache BEAR: Ein neues Framework zur Bewertung von Sprachmodellen

BEAR verbessert die Bewertung des relationalen Wissens in Sprachmodellen.

2025-08-22T05:16:12+00:00 ― 9 min Lesedauer

Rechnen und Sprache Bewertung der paraphrastischen Konsistenz in Sprachmodellen

Diese Studie untersucht, wie Sprachmodelle mit verschiedenen Ausdrucksweisen derselben Denkproblem umgehen.

2025-08-18T21:28:48+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung von Toxizität in mehrsprachigen Sprachmodellen

Ein neues Datenset bewertet, wie Sprachmodelle mit schädlichem Inhalt in verschiedenen Kulturen umgehen.

2025-08-17T13:52:48+00:00 ― 6 min Lesedauer

Rechnen und Sprache Die Genauigkeit von grossen Vision-Language-Modellen bewerten

Ein neuer Massstab verbessert, wie wir LVLMs und ihre Genauigkeit bewerten.

2025-08-17T06:46:12+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung des faktischen Erinnerns in grossen Sprachmodellen

Eine Einschätzung, wie gut LLMs faktische Informationen behalten und welche Faktoren dafür eine Rolle spielen.

2025-08-16T20:45:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Text-zu-Bild-Modellen: Ein neuer Ansatz

Diese Studie bietet verbesserte Methoden zur Bewertung von Text-zu-Bild-Modellen.

2025-08-16T12:59:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte beim Few-Shot Lernen für polnische Sprachaufgaben

Eine Studie zur Bewertung von Few-Shot-Lernmethoden für die Klassifizierung der polnischen Sprache.

2025-08-15T22:38:36+00:00 ― 4 min Lesedauer

Computer Vision und Mustererkennung Bewertung der Informationsgewinnung in handgeschriebenen Texten

Neue Metriken verbessern die Bewertung von Informationsextraktionssystemen in handschriftlichen Dokumenten.

2025-08-15T11:58:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Einführung von WorkBench: Ein neues Büro-Aufgaben-Datenset

WorkBench testet die Fähigkeit von Agenten, realistische Büroaufgaben mit einer einzigartigen Bewertungsmethode zu erledigen.

2025-08-14T22:09:12+00:00 ― 6 min Lesedauer

Rechnen und Sprache Evaluierung von grossen Sprachmodellen in einer sich verändernden Welt

Einschätzen, wie LLMs sich an neue Informationen und Vorurteile anpassen.

2025-08-11T02:46:36+00:00 ― 8 min Lesedauer

Künstliche Intelligenz Bewertung von Sprachmodellen mit dem ALI-Agent Framework

Eine neue Methode zur Bewertung der Übereinstimmung von Sprachmodellen mit menschlichen Werten.

2025-08-09T06:16:24+00:00 ― 7 min Lesedauer