Neuste Artikel für Benchmark

Rechnen und Sprache Evaluierung von multimodalen grossen Sprachmodellen

Neue Benchmarks zeigen Herausforderungen für MLLMs bei realen Aufgaben mit langen Kontexten.

2025-08-15T10:16:00+00:00 ― 8 min Lesedauer

Software-Entwicklung Untersuchung von mehrsprachigen Vorurteilen in Code-Generierungsmodellen

Dieser Artikel untersucht die Voreingenommenheit in Code-Generierungsmodellen über verschiedene Sprachen hinweg.

2025-08-15T03:25:12+00:00 ― 8 min Lesedauer

Rechnen und Sprache Verstehen von Code-Halluzinationen in Sprachmodellen

Ein Überblick über Code-Halluzinationen in LLMs und deren Auswirkungen auf die Softwareentwicklung.

2025-08-15T01:58:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Vorstellung von Wake Vision: Ein neuer Datensatz für TinyML

Wake Vision verbessert die Personenerkennung für TinyML mit einem riesigen Datensatz.

2025-08-14T17:24:48+00:00 ― 7 min Lesedauer

Rechnen und Sprache Herausforderungen und Chancen bei der Erklärbarkeit von KI-Textgenerierung

Dieses Papier diskutiert die Notwendigkeit von Erklärbarkeit in KI-Textgenerierungsmodellen.

2025-08-11T02:54:30+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von Toxizität in mehrsprachigen Sprachmodellen

Neuer Massstab bewertet die Toxizität in grossen Sprachmodellen in verschiedenen Sprachen.

2025-08-10T21:30:36+00:00 ― 8 min Lesedauer

Finanzmathematik SSD nutzen, um stärkere Portfolios aufzubauen

Lerne, wie die zweite Ordnung der stochastischen Dominanz deine Anlagestrategie verbessern kann.

2025-08-09T19:12:57+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Bewertung von LLMs im mathematischen Modellieren mit Mamo

Ein neuer Benchmark bewertet die Fähigkeiten von LLMs in mathematischen Modellierungsprozessen.

2025-08-09T14:10:24+00:00 ― 5 min Lesedauer

Neuronales und evolutionäres Rechnen Verbesserung der Differenziellen Evolution mit GPUs

Erforschen, wie GPUs die Effizienz von Differenzial-Evolutionsalgorithmen verbessern.

2025-08-06T19:01:24+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte im multimodalen Kettendenken-Raisonieren

Neuer Massstab soll das Verständnis von AI für Texte und Bilder verbessern.

2025-08-06T17:50:18+00:00 ― 7 min Lesedauer

Maschinelles Lernen WeiPer: Eine neue Methode zur OOD-Erkennung

WeiPer verbessert die Erkennung von Out-of-Distribution in Machine-Learning-Modellen durch Gewichtsanpassungen.

2025-08-06T07:49:54+00:00 ― 8 min Lesedauer

Künstliche Intelligenz Bewertung grosser Sprachmodelle in mehrturnigen Mathe-Interaktionen

Diese Studie misst die Leistung von LLMs in komplexen Mathegesprächen.

2025-08-05T07:12:36+00:00 ― 8 min Lesedauer

Maschinelles Lernen Verbesserung von Linkvorhersagen mit klaren Erklärungen

LinkLogic bietet Klarheit und Zuverlässigkeit für die Linkvorhersage in Wissensgrafen.

2025-08-03T12:56:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritt in der Autoformalisierung mit Lean 4

Neue Methoden und Benchmarks sollen die Formalisierung von Mathematik mit Lean 4 vereinfachen.

2025-08-03T08:59:42+00:00 ― 6 min Lesedauer

Maschinelles Lernen LLMs haben Probleme mit grundlegenden Denkaufgaben

Neue Tests zeigen, dass LLMs Schwächen im einfachen logischen Denken haben, trotz hoher Benchmark-Ergebnisse.

2025-08-02T09:01:54+00:00 ― 5 min Lesedauer

Maschinelles Lernen Dynamische Benchmarks zur Bewertung von Sprachmodellen

Ein neues System zur Bewertung von Sprachmodellen mit echten Datenströmen.

2025-08-02T01:23:42+00:00 ― 6 min Lesedauer

Maschinelles Lernen Adressierung von Labelrauschen in Graph-Neuronalen-Netzwerken

Ein neuer Massstab hilft, die Leistung von GNNs trotz Herausforderungen durch Labelrauschen zu verbessern.

2025-08-01T13:01:06+00:00 ― 8 min Lesedauer

Robotik Bench2Drive: Ein neuer Standard für das Testen von autonomen Fahrsystemen

Bench2Drive bietet eine faire Bewertungsmethode für Technologien im autonomen Fahren.

2025-08-01T06:02:24+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Probleme mit schlecht definierten Fragen in Sprachmodellen angehen

Neue Methoden verbessern die Leistung von Sprachmodellen bei komplexen Denkaufgaben.

2025-07-31T22:55:48+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung der Prompt-Leistung bei der Bildgenerierung und -abruf

Eine Studie stellt einen neuen Massstab für die Leistung von Eingabeaufforderungen beim Erstellen und Abrufen von Bildern vor.

2025-07-31T18:43:00+00:00 ― 11 min Lesedauer

Maschinelles Lernen Neue Einblicke in die Leistungsfähigkeit von Sprachmodell-Skalierung

Die Analyse bestehender Modelle zeigt Einblicke in die Leistungstrends von Sprachmodellen, wenn die Grösse zunimmt.

2025-07-31T14:57:12+00:00 ― 9 min Lesedauer

Maschinelles Lernen Bewertung der Java-Programmierfähigkeiten von LLMs

Ein neuer Massstab, um LLMs für Java-Programmieraufgaben zu bewerten.

2025-07-31T06:52:00+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der Video-Untertitel mit kausalem Verständnis

Eine neue Methode erstellt bessere Videountertitel, indem sie sich auf Geschichten und Kausalität konzentriert.

2025-07-31T02:39:12+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit Bewertung der Rolle von grossen Sprachmodellen bei der Schwachstellenerkennung

Ein neuer Benchmark testet die Fähigkeit von LLMs, Softwareanfälligkeiten zu finden.

2025-07-30T14:48:12+00:00 ― 6 min Lesedauer

Rechnen und Sprache Neuer Benchmark bewertet mehrsprachige Sprachmodelle

Ein neuer Massstab bewertet die Leistung von mehrsprachigen Modellen bei semantischen Abrufaufgaben.

2025-07-30T12:18:06+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung CMC-Bench: Ein neuer Standard in der Bildkompression

Entdecke, wie CMC-Bench die Bildkompressionstechniken verändert.

2025-07-30T02:46:45+00:00 ― 6 min Lesedauer

Software-Entwicklung DafnyBench: Verbesserung der Softwareverifikation mit maschinellem Lernen

DafnyBench benchmarkt Software-Überprüfungstools und ebnet den Weg für zuverlässiges Programmieren.

2025-07-29T23:23:54+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Bewertung des Videoverständnisses in multimodalen Sprachmodellen

Ein neuer Massstab soll MLLMs in der Videoverstehensfähigkeit zu verschiedenen Themen bewerten.

2025-07-29T22:20:42+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Grenzen von Vision-Language-Modellen herausfordern

Ein neuer Benchmark testet das zusammensetzende Denken in fortgeschrittenen Modellen.

2025-07-29T19:42:42+00:00 ― 8 min Lesedauer

Maschinelles Lernen Vorstellung von GuardAgents: Eine neue Sicherheitsschicht für LLMs

Ein Rahmen, um die Sicherheit von LLM-Agenten in verschiedenen Anwendungen zu verbessern.

2025-07-29T07:43:48+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von temporalem Denken in grossen Sprachmodellen

Ein neuer Massstab bewertet, wie gut Modelle Zeit und Ereignisse verstehen.

2025-07-29T07:20:06+00:00 ― 7 min Lesedauer

Maschinelles Lernen Messung der Varianz in Sprachmodell-Benchmarks

Dieser Artikel beschäftigt sich mit Methoden zur Bewertung der Varianz in den Evaluierungsbenchmarks von Sprachmodellen.

2025-07-28T23:26:06+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschrittliche KI für die Sprachen Südostasiens

SEACrowd hat das Ziel, die KI-Darstellung für südostasiatische Sprachen und Kulturen zu verbessern.

2025-07-28T21:03:54+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Erkennung von Bildmanipulationen

Ein neuer Benchmark hilft Forschern dabei, Methoden zur Erkennung von Bildintegrität zu verbessern.

2025-07-28T11:35:06+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Evaluierung von LLMs mit einem neuen Benchmark für Suchprobleme

Eine Studie zur Verbesserung der Problemlösungsfähigkeiten von LLMs mit einem neuen Rahmen.

2025-07-28T01:18:54+00:00 ― 8 min Lesedauer

Maschinelles Lernen Fortschritte bei den Bewertungsstandards für Sprachmodelle

Eine neue Methode verbessert das Testen von Sprachmodellen mit echten Nutzerdaten.

2025-07-27T21:06:06+00:00 ― 6 min Lesedauer

Rechnen und Sprache Evaluierung von Unlernen in Sprachmodellen

Neue Methoden zeigen Herausforderungen beim Vergessen von Wissen aus Sprachmodellen.

2025-07-27T17:24:54+00:00 ― 6 min Lesedauer

Rechnen und Sprache Die Auswirkungen von Langzeit-Kontext-Sprachmodellen

Langzeit-Kontext-Sprachmodelle machen komplexe Aufgaben einfacher und verbessern die Interaktion mit KI.

2025-07-27T08:59:18+00:00 ― 8 min Lesedauer

Rechnen und Sprache Beurteilung des Denkens in Sprachmodellen

Ein neuer Massstab bewertet die Denkfähigkeiten von Sprachmodellen.

2025-07-26T22:11:30+00:00 ― 8 min Lesedauer

Datenbanken Die Evolution von GPU-Datenbanken

Die Entwicklungen in der GPU-Datenbanktechnologie und deren Leistung unter die Lupe nehmen.

2025-07-26T19:49:18+00:00 ― 9 min Lesedauer