Neuste Artikel für Modellbewertung

Maschinelles Lernen Benchmarking der repräsentationalen Ähnlichkeit in neuronalen Netzwerken

Ein neuer Benchmark bewertet Methoden zur Messung der repräsentationalen Ähnlichkeit im maschinellen Lernen.

2025-07-03T18:17:42+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Modellzuverlässigkeit mit DECIDER verbessern

Ein neuer Ansatz zur Erkennung von Fehlern in Bildklassifizierungsmodellen.

2025-07-03T14:20:42+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen bei der generierten strukturierten Ausgabe

Bewertung, wie gut LLMs JSON-Ausgaben durch StructuredRAG-Tests erzeugen.

2025-07-01T07:34:18+00:00 ― 6 min Lesedauer

Maschinelles Lernen Bewältigung der Herausforderungen der unüberwachten Domänenanpassung

Eine Studie zur Verbesserung von UDA-Methoden durch Evaluation und Verständnis von Datenverschiebungen.

2025-06-29T22:46:28+00:00 ― 6 min Lesedauer

Rechnen und Sprache Modellfusion mit ProFuser verbessern

Eine neue Methode, um Sprachmodelle effektiver zu kombinieren.

2025-06-29T22:23:30+00:00 ― 6 min Lesedauer

Maschinelles Lernen Vertrauen verbessern mit normalisiertem AOPC in neuronalen Netzen

Ein neuer Ansatz verbessert das Verständnis von Modellvorhersagen durch Merkmale-Zuschreibung.

2025-06-27T09:25:48+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Neue Erkenntnisse zur Bewertung von Sehmodellen

Eine neue Methode zeigt, wie visuelle Modelle Bilder organisieren und verstehen.

2025-06-27T03:22:24+00:00 ― 6 min Lesedauer

Rechnen und Sprache Evaluierung der Attribution in autoregressiven Sprachmodellen

Neue Technik für ein besseres Verständnis von Modellvorhersagen mit kontrafaktischen Beispielen.

2025-06-25T10:01:48+00:00 ― 6 min Lesedauer

Maschinelles Lernen Verbesserung der Zeitreihenprognose mit VMD und linearen Modellen

Eine Methode, die VMD und lineare Modelle kombiniert, steigert die Vorhersagegenauigkeit.

2025-06-23T03:19:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Ein neues Framework zur Bewertung von Sprachmodellen

Das PoEM-Framework bewertet Sprachmodelle, ohne genaue Labels zu brauchen.

2025-06-22T10:32:06+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung der Stabilität von Sprachmodellen durch Eingangsvariationen

Diese Studie bewertet, wie kleine Änderungen die Antworten von Sprachmodellen beeinflussen.

2025-06-22T09:42:00+00:00 ― 4 min Lesedauer

Rechnen und Sprache Kontamination in grossen Sprachmodellen erkennen

Eine neue Methode hilft dabei, die Kontamination von Testdaten in LLMs anhand von Token-Wahrscheinlichkeiten zu erkennen.

2025-06-22T01:19:06+00:00 ― 9 min Lesedauer

Maschinelles Lernen Ein neues Mass zur Bewertung von Merkmalsauswahlmethoden

FSDEM bietet einen neuen Ansatz zur Bewertung von Verfahren zur Merkmalsauswahl für die Datenanalyse.

2025-06-21T23:12:42+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Analyse von MAPWise: Ein neues Dataset für Vision-Language-Modelle

Der MAPWise-Datensatz stellt Modelle auf die Probe, wenn's um kartenbasierte Fragen geht, und bewertet ihre Denkfähigkeiten.

2025-06-19T21:42:18+00:00 ― 7 min Lesedauer

Rechnen und Sprache Ein neues Bewertungssystem für Sprachmodelle

Dieser Artikel behandelt ein neues Bewertungssystem, um Sprachmodelle gerechter zu bewerten.

2025-06-18T21:36:36+00:00 ― 6 min Lesedauer

Maschinelles Lernen Logit-Skalierung: Ein neuer Ansatz zur OOD-Erkennung

Logit-Skalierung verbessert die Erkennung von Daten ausserhalb der Verteilung ohne Trainingsdaten.

2025-06-18T10:17:12+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Modelle zum Erkennen von Flussverschmutzung vergleichen

Diese Studie bewertet Machine-Learning-Modelle zur Erkennung von Müll in Flüssen.

2025-06-16T17:44:00+00:00 ― 5 min Lesedauer

Maschinelles Lernen Bewertung der adversarialen Distanz in maschinellen Lernklassifikatoren

Eine neue Methode zur Bewertung der Robustheit von ML-Klassifikatoren mithilfe von adversarialer Distanz.

2025-06-16T15:06:00+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Die echten Fähigkeiten von Sprachmodellen bewerten

Ein genauerer Blick darauf, wie gut grosse Sprachmodelle grundlegende Aufgaben erledigen.

2025-06-13T22:50:48+00:00 ― 8 min Lesedauer

Rechnen und Sprache Cross-Refine: Erklärungen von Sprachmodellen verbessern

Eine neue Methode verbessert KI-Erklärungen durch die Zusammenarbeit von zwei Sprachmodellen.

2025-06-13T13:29:54+00:00 ― 6 min Lesedauer

Maschinelles Lernen Bewertung von Variational Autoencoders durch topologischen Grad

Diese Forschung untersucht, wie der topologische Grad die Effektivität von VAEs bei der Erfassung der Datenstruktur bewertet.

2025-06-13T08:55:11+00:00 ― 5 min Lesedauer

Rechnen und Sprache Das Ausbalancieren von lokalem und globalem Wissen in LLMs

Eine Studie zeigt, wie Sprachmodelle Kontext nutzen, um präzise Antworten zu geben.

2025-06-13T08:06:00+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewältigung von Verteilungsschift im maschinellen Lernen

Neue Methoden helfen zu verstehen, wie Modelle auf Datenänderungen reagieren.

2025-06-13T00:12:00+00:00 ― 7 min Lesedauer

Rechnen und Sprache Herausforderungen bei der Erkennung von Datenkontamination in LLMs

Dieser Artikel untersucht Methoden zur Erkennung von Datenkontamination in grossen Sprachmodellen.

2025-06-11T22:39:24+00:00 ― 6 min Lesedauer

Maschinelles Lernen Stabilität in SGD mit Bootstrap-Techniken verbessern

Dieses Papier untersucht, wie Bootstrap-Methoden die Stabilität und Robustheit in SGD-Modellen verbessern.

2025-06-11T04:10:28+00:00 ― 5 min Lesedauer

Maschinelles Lernen Unsicherheit in Sprachmodellen messen

Ein neuer Massstab soll die Unsicherheitsbewertung in Sprachmodellen verbessern.

2025-06-11T02:30:42+00:00 ― 6 min Lesedauer

Rechnen und Sprache Maschinelles Lernen Erklärungen mit Programmverlauf-Prompting verbessern

Eine neue Methode verbessert das modelle Denken durch strukturierte Programmabläufe.

2025-06-11T00:16:24+00:00 ― 9 min Lesedauer

Rechnen und Sprache Sicherheit in feinjustierten Sprachmodellen bewerten

Untersuchen, wie das Fein-Tuning die Sicherheit von Sprachmodellen bei verschiedenen Aufgaben beeinflusst.

2025-06-10T08:04:42+00:00 ― 6 min Lesedauer

Maschinelles Lernen Verbesserung der Bewertung von Machine-Learning-Modellen mit der Item-Response-Theorie

Ein neuer Ansatz zur Bewertung von ML-Modellen mit Item-Response-Theorie für bessere Einblicke.

2025-06-10T02:18:24+00:00 ― 6 min Lesedauer

Maschinelles Lernen Die Rolle von starken Basislinienmodellen im Healthcare-ML

Starke Basis-Modelle verbessern die Bewertung von ML-Systemen im Gesundheitswesen.

2025-06-10T01:53:24+00:00 ― 6 min Lesedauer

Maschinelles Lernen Neubewertung von Konfidenzintervallen im Few-Shot Learning

Ein Blick auf Konfidenzintervalle im Few-Shot-Learning und deren Einfluss auf die Modellevaluation.

2025-06-09T22:58:08+00:00 ― 6 min Lesedauer

Rechnen und Sprache Die Wahrhaftigkeit in Sprachmodellen bewerten

Untersuchung des Verständnisses und der Ausgabegenauigkeit von Sprachmodellen.

2025-06-09T04:02:00+00:00 ― 5 min Lesedauer

Maschinelles Lernen Verbesserung von physik-informierten neuronalen Netzen mit Einflussfunktionen

Forschungshighlights zur Nutzung von Einflussfunktionen zur Verbesserung der PINN-Leistung bei physikalischen Problemen.

2025-06-08T18:12:45+00:00 ― 6 min Lesedauer

Maschinelles Lernen Das Verständnis von Modellkomplexität im maschinellen Lernen

Ein Blick auf die effektive Dimension und ihren Einfluss auf das Modeltraining.

2025-06-08T09:25:08+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung der Zuverlässigkeit von Sprachmodellen in der Wissenschaft

Dieses Papier bewertet, wie gut Sprachmodelle wissenschaftliche Konzepte erklären.

2025-06-08T07:37:30+00:00 ― 4 min Lesedauer

Maschinelles Lernen Leistung und Interpretierbarkeit mit GAMs ausbalancieren

Dieser Artikel untersucht GAMs als Lösung für prädiktive Leistung und Interpretierbarkeit.

2025-06-08T01:18:18+00:00 ― 7 min Lesedauer

Maschinelles Lernen Testgenauigkeit in AutoML neu betrachten: Die Rolle von schwierigen Proben

Untersuchen, wie schwierige Samples die Modellleistung und die Zuverlässigkeit der Testgenauigkeit beeinflussen.

2025-06-08T00:30:54+00:00 ― 10 min Lesedauer

Rechnen und Sprache Schichtwichtigkeit in grossen Sprachmodellen

Dieser Artikel untersucht, wie verschiedene Schichten die Leistung von LLM beeinflussen.

2025-06-08T00:07:12+00:00 ― 6 min Lesedauer

Maschinelles Lernen Die Auswirkungen von Soft Label Learning in Klassifikationsmodellen

Weiche Labels können die Leistung von Machine-Learning-Modellen in unsicheren Datenszenarien verbessern.

2025-06-06T18:21:48+00:00 ― 6 min Lesedauer

Software-Entwicklung Wir stellen RepairBench vor: Ein neuer Standard für die Bewertung von KI-Programmereparaturen

RepairBench setzt Massstäbe zum Vergleichen von KI-Modellen beim Beheben von Softwarefehlern.

2025-06-04T10:00:36+00:00 ― 6 min Lesedauer