Neuste Artikel für Modellbewertung

Kryptographie und Sicherheit Bewertung von grossen Sprachmodellen in der Cybersicherheit

Ein neuer Massstab zur Bewertung von LLMs bei Cybersecurity-Aufgaben.

2025-08-04T08:33:48+00:00 ― 8 min Lesedauer

Maschinelles Lernen Die Überprüfung der Entwirrung in Machine Learning-Modellen

Dieses Papier schlägt neue Methoden vor, um die Informationsfragmentierung im maschinellen Lernen zu bewerten.

2025-08-04T01:50:54+00:00 ― 8 min Lesedauer

Maschinelles Lernen Eine neue Methode für interpretierbare KI-Modelle

Dieses Papier stellt einen Ansatz vor, um leicht verständliche KI-Klassifizierer zu erstellen.

2025-08-02T21:24:30+00:00 ― 5 min Lesedauer

Maschinelles Lernen Selbstüberwachtes Lernen bei Clusteraufgaben bewerten

Diese Studie untersucht, wie gut vortrainierte Modelle unbekannte Daten gruppieren.

2025-08-02T13:14:42+00:00 ― 6 min Lesedauer

Maschinelles Lernen Fortschritte im maschinellen Vergessen für kontrastives Lernen

Neue Methoden vorstellen, um die Vergessensprozesse in kontrastiven Lernmodellen zu verbessern.

2025-08-02T03:06:24+00:00 ― 7 min Lesedauer

Maschinelles Lernen Klassenschwankungen mit Support Vector Machines angehen

Ein Überblick über SVM-Techniken zur Bewältigung von Klassenungleichgewicht im maschinellen Lernen.

2025-08-02T01:00:00+00:00 ― 6 min Lesedauer

Maschinelles Lernen Überwindung von Out-of-Distribution-Herausforderungen im maschinellen Lernen

Die Probleme der OOD-Generalisation und der Merkmalskontamination in KI-Modellen angehen.

2025-08-02T00:12:36+00:00 ― 7 min Lesedauer

Maschinelles Lernen Fortschritte bei Sparse Autoencodern für Sprachmodelle

Dieser Artikel untersucht Verbesserungen bei spärlichen Autoencodern und deren Einfluss auf das Sprachverständnis.

2025-08-01T09:19:54+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Leichte Backbones für die Bildklassifizierung bewerten

Eine Studie zur Effektivität verschiedener leichter Modelle in der Bildklassifizierung.

2025-07-31T17:08:12+00:00 ― 7 min Lesedauer

Maschinelles Lernen Neuer Rahmen zur Bewertung von Datenvergiftungsrisiken in Machine Learning

Eine Methode vorstellen, um die Robustheit von Modellen gegenüber Datenvergiftungsangriffen zu bewerten.

2025-07-31T07:39:24+00:00 ― 7 min Lesedauer

Maschinelles Lernen Bewertung der Java-Programmierfähigkeiten von LLMs

Ein neuer Massstab, um LLMs für Java-Programmieraufgaben zu bewerten.

2025-07-31T06:52:00+00:00 ― 7 min Lesedauer

Maschinelles Lernen Evaluierung der Verallgemeinerung in Maschinenlernmodellen

Dieser Artikel untersucht Strategien zur Verbesserung der Modellgeneralisierung und zum Verständnis des Gradientverhaltens.

2025-07-30T16:30:54+00:00 ― 7 min Lesedauer

Rechnen und Sprache Sicherheit in multimodalen Sprachmodellen bewerten

Ein Toolkit zur Bewertung der Sicherheit von fortgeschrittenen Sprachmodellen.

2025-07-30T14:40:18+00:00 ― 6 min Lesedauer

Rechnen und Sprache Vergleich von feinabgestimmten Modellen und generativer KI in der Textklassifikation

Dieser Artikel analysiert die Leistung von feinabgestimmten Modellen im Vergleich zu generativer KI bei Textklassifizierungsaufgaben.

2025-07-30T02:17:42+00:00 ― 4 min Lesedauer

Computer Vision und Mustererkennung Bewertung der Robustheit von visuellen Zustandsraum-Modellen

Dieser Artikel untersucht, wie visuelle Zustandsraum-Modelle mit visuellen Herausforderungen umgehen.

2025-07-29T11:48:42+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Multi-Image-Reasoning in KI-Modellen

Ein neuer Datensatz bewertet, wie LLMs mit mehreren Bildern umgehen.

2025-07-29T07:35:54+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von LLMs: Einblicke in menschliche Entscheidungsfindung

Untersuchen, wie die Vorhersagen von LLMs mit menschlichen Entscheidungen übereinstimmen, indem statistische Modelle verwendet werden.

2025-07-29T05:05:48+00:00 ― 10 min Lesedauer

Maschinelles Lernen Bewertung von Denkabkürzungen in KI-Modellen

Eine neue Benchmark-Suite hilft dabei, Denk-Abkürzungen in der künstlichen Intelligenz zu beurteilen.

2025-07-28T23:57:42+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Tests von Sprachmodellen mit mehreren Problemen

Eine Studie bewertet Sprachmodelle darin, mehrere Aufgaben gleichzeitig zu bewältigen.

2025-07-28T14:05:12+00:00 ― 8 min Lesedauer

Rechnen und Sprache Einschätzung der Denkfähigkeiten in grossen Sprachmodellen

Eine Studie zeigt Lücken im Denkvermögen von LLMs beim Lösen von Matheproblemen auf.

2025-07-28T03:56:54+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Neuer Ansatz zur Bewertung multilingualer Modelle

Eine frische Methode zum Testen der Sicherheit von Sprachmodellen und ihrer mehrsprachigen Fähigkeiten.

2025-07-28T02:37:54+00:00 ― 8 min Lesedauer

Maschinelles Lernen Bewertung von Merkmalsauswahlmethoden bei verrauschten Daten

Methoden zur Identifizierung wichtiger Merkmale in Umgebungen mit minderwertigen Daten.

2025-07-28T00:47:18+00:00 ― 7 min Lesedauer

Rechnen und Sprache Evaluierung von Unlernen in Sprachmodellen

Neue Methoden zeigen Herausforderungen beim Vergessen von Wissen aus Sprachmodellen.

2025-07-27T17:24:54+00:00 ― 6 min Lesedauer

Maschinelles Lernen Entscheidungsgrenzen in Sprachmodellen untersuchen

Eine Studie über die Entscheidungsprozesse von grossen Sprachmodellen.

2025-07-27T12:24:42+00:00 ― 5 min Lesedauer

Maschinelles Lernen Die Bedeutung der Modellkalibrierung im maschinellen Lernen

Ein Blick darauf, wie die Kalibrierung die Modellvorhersagen und die Zuverlässigkeit beeinflusst.

2025-07-27T09:09:04+00:00 ― 10 min Lesedauer

Rechnen und Sprache Die Auswirkungen von Langzeit-Kontext-Sprachmodellen

Langzeit-Kontext-Sprachmodelle machen komplexe Aufgaben einfacher und verbessern die Interaktion mit KI.

2025-07-27T08:59:18+00:00 ― 8 min Lesedauer

Rechnen und Sprache Bewertung von Wissen in Sprachmodellen ohne generierte Antworten

Eine Methode, um das Wissen eines Modells durch interne Verarbeitung zu bewerten.

2025-07-27T05:26:00+00:00 ― 8 min Lesedauer

Rechnen und Sprache Umgang mit Datenkontamination in Sprachmodellen

Untersuchen der Auswirkungen von Datenverunreinigung auf die Leistung und Bewertung von Sprachmodellen.

2025-07-26T14:25:24+00:00 ― 6 min Lesedauer

Maschinelles Lernen Text-zu-Bild-Modelle haben Probleme mit numerischen Aufgaben

Diese Studie zeigt die Grenzen von Text-zu-Bild-Modellen im Umgang mit Zahlen.

2025-07-26T12:03:12+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung der bereichsübergreifenden Textklassifizierung mit Tiefe

Ein neues Mass verbessert die Bewertung von Textklassifizierungsmodellen in verschiedenen Bereichen.

2025-07-26T10:44:12+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Bildverarbeitungsmodellen für das Verständnis von mehreren Objekten

Ein tiefer Einblick, wie gut visuelle Modelle mehrere Objekte erkennen und darstellen.

2025-07-26T06:15:12+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit Erkennen von feindlichen Eingaben in Deep Learning-Modellen

Eine Studie zur Wirksamkeit von OOD-Detektoren gegen feindliche Beispiele.

2025-07-25T18:40:24+00:00 ― 8 min Lesedauer

Rechnen und Sprache Bewertung des In-Context-Lernens in Sprachmodellen

Forschung hebt die In-Context-Lernfähigkeiten in grossen Sprachmodellen hervor.

2025-07-25T16:18:12+00:00 ― 6 min Lesedauer

Informationsbeschaffung Bewertung von Retrieval-Modellen mit verbesserten Datensätzen

Eine Studie, die die Bedeutung von umfassenden Annotationen für die Evaluierung von Retrievals hervorhebt.

2025-07-25T06:02:00+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ansprechen von falschen Vorurteilen in multimodalen Modellen

Ein neuer Massstab zeigt die Risiken von falschen Vorurteilen in multimodalen Sprachmodellen.

2025-07-25T01:25:30+00:00 ― 7 min Lesedauer

Maschinelles Lernen Feedback-Methoden bei der Bildgenerierung neu bewerten

Untersuchung von feinkörnigem Feedback für Text-zu-Bild-Modelle und dessen praktische Auswirkungen.

2025-07-24T23:34:54+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Halluzinationen in Video-Sprachmodellen

Neuer Benchmark bewertet, wie Videosprachmodelle Ungenauigkeiten effektiv behandeln.

2025-07-24T17:47:18+00:00 ― 7 min Lesedauer

Rechnen und Sprache APIGen: Ein Werkzeug für Funktionaufrufe-Datensätze

APIGen generiert vielfältige, qualitativ hochwertige Datensätze für Funktionsaufruf-Agenten.

2025-07-24T00:24:30+00:00 ― 6 min Lesedauer

Rechnen und Sprache Behandlung der Benchmark-Kontamination in Sprachmodellen

Eine neue Methode zur Erkennung von Verzerrungen im Training von Sprachmodellen.

2025-07-23T22:49:42+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführung des SAVE-Modells für audio-visuelle Segmentierung

Das SAVE-Modell verbessert die audio-visuelle Segmentierung mit Effizienz und Präzision.

2025-07-23T16:07:20+00:00 ― 6 min Lesedauer