Neuste Artikel für Benchmark

Maschinelles Lernen Fortschritt im Maschinen-Unlearning: Ein einheitlicher Benchmark

Ein neuer Massstab für maschinelles Vergessen verbessert die Bewertung und den Vergleich von Methoden.

2025-07-26T12:42:42+00:00 ― 8 min Lesedauer

Software-Entwicklung Fortschritte in der Code-Generierung mit Retrieval-erweiterten Techniken

Eine neue Methode verbessert die Genauigkeit der Codegenerierung mit externen Dokumenten.

2025-07-26T08:06:12+00:00 ― 7 min Lesedauer

Leistung CEBench: Ein ausgewogener Ansatz zur Bewertung von LLMs

CEBench hilft Unternehmen und Forschern, LLMs zu bewerten und dabei Kosten und Leistung im Blick zu behalten.

2025-07-26T00:43:48+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung des In-Context-Lernens in Sprachmodellen

Forschung hebt die In-Context-Lernfähigkeiten in grossen Sprachmodellen hervor.

2025-07-25T16:18:12+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Bewertung von SLAM-Modellen in lauten Umgebungen

Ein neues Framework bewertet die SLAM-Leistung unter schwierigen Bedingungen.

2025-07-25T00:06:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung von Halluzinationen in Video-Sprachmodellen

Neuer Benchmark bewertet, wie Videosprachmodelle Ungenauigkeiten effektiv behandeln.

2025-07-24T17:47:18+00:00 ― 7 min Lesedauer

Rechnen und Sprache Der Einfluss von Sprachmodellen auf Überzeugung

Bewertung, wie LLMs überzeugende Texte zu verschiedenen Themen erstellen.

2025-07-24T13:26:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung italienischer Sprachmodelle mit INVALSI-Tests

Diese Studie bewertet die Leistung von Sprachmodellen anhand der italienischen INVALSI-Tests.

2025-07-24T09:37:30+00:00 ― 8 min Lesedauer

Maschinelles Lernen Verbesserung des aktiven Lernens mit neuem Benchmark-Tool

Ein Benchmark-Tool fördert aktive Lernstrategien im maschinellen Lernen.

2025-07-24T06:51:36+00:00 ― 7 min Lesedauer

Software-Entwicklung Evaluierung von LLMs für die Generierung von Aussagen im Hardware-Design

Dieser Artikel bewertet die Effektivität von grossen Sprachmodellen bei der Erstellung von Hardware-Assertions.

2025-07-24T01:27:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der Bildschirmlesefunktion für Sehbehinderte

Ein neues KI-System verbessert die Barrierefreiheit für Benutzer mit Sehbehinderungen durch bessere Bildschirmlesefunktion.

2025-07-23T10:27:06+00:00 ― 5 min Lesedauer

Rechnen und Sprache Einführung eines neuen Massstabs für russische Sprachmodelle

Ein Benchmark minimaler Paare zielt darauf ab, das Verständnis der russischen Grammatik durch Sprachmodelle zu verbessern.

2025-07-23T09:55:30+00:00 ― 7 min Lesedauer

Maschinelles Lernen Effiziente Datenerkennung mit skizzenbasierten Modellen

Ein neues Modell vereinfacht die Datenanalyse in riesigen Datensätzen mithilfe von Skizzen.

2025-07-23T03:44:12+00:00 ― 7 min Lesedauer

Maschinelles Lernen Ehrlich-Funktionen zur Sequenzoptimierung vorstellen

Ein neuer Massstab zur Verbesserung von biophysikalischen Sequenzoptimierungsmethoden.

2025-07-23T01:53:36+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Ein neuartiger Ansatz zur Anomalieerkennung

Diese Studie präsentiert eine neue Methode zur Erkennung von Anomalien in verschiedenen Kontexten.

2025-07-22T23:47:12+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Bewertungsmethoden für multimodale Modelle neu denken

Neuer Massstab verbessert die Bewertung von multimodalen Modellen, indem er Vorurteile minimiert.

2025-07-22T12:12:00+00:00 ― 7 min Lesedauer

Biomoleküle Fortschritte in der Enzymklassifikation mit CARE Benchmark

Ein neuer Massstab hilft dabei, das Verhalten von Enzymen mit maschinellem Lernen vorherzusagen.

2025-07-22T04:11:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortgeschrittene Modelle zur Generierung von Videobeschreibungen

Neue Modelle erzeugen effektiv hochwertige Videobeschreibungen.

2025-07-22T02:35:18+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Neuer Massstab für Vision-Language-Modelle in der Mikroskopie

Ein umfassendes Benchmark verbessert die Bewertung von Vision-Language-Modellen für die Analyse biologischer Bilder.

2025-07-21T21:03:30+00:00 ― 8 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen für wissenschaftliche Forschung

Ein neuer Massstab zur Bewertung grosser Sprachmodelle in der Hypothesentests.

2025-07-21T19:52:24+00:00 ― 7 min Lesedauer

Informationsbeschaffung Verbesserung der Code-Abfrage mit einem neuen Benchmark

Ein neuer Massstab behandelt Herausforderungen bei der Codesuche für Entwickler.

2025-07-20T02:47:36+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung der visuellen Robustheit in VQA-Systemen

Diese Forschung untersucht, wie visuelle Probleme die Modelle für visuelle Fragenbeantwortung beeinflussen.

2025-07-19T18:22:00+00:00 ― 7 min Lesedauer

Kryptographie und Sicherheit NFARD: Ein neuer Ansatz zur Erkennung von Modellwiederverwendung

NFARD bietet innovative Methoden zum Schutz von Urheberrechten an Deep Learning-Modellen.

2025-07-19T07:02:36+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Innovatives Schutzgeländer-Modell verbessert die Sicherheit für Sprachmodelle

Ein neues Modell verbessert die Sicherheitsüberwachung für grosse Sprachmodelle gegen schädliche Inhalte.

2025-07-18T02:12:30+00:00 ― 7 min Lesedauer

Maschinelles Lernen Fortschritte in der Bayesianischen Optimierung für komplexe Probleme

Ein Blick darauf, wie Bayessche Optimierung mit hochdimensionalen Herausforderungen umgeht.

2025-07-17T19:40:44+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Bewertung von Datenanalyse-Agenten mit einem neuen Benchmark

Eine neue Methode, um Datenanalyse-Agenten für bessere Geschäftseinblicke zu bewerten.

2025-07-17T16:35:48+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Standardisierung der Algorithmusbewertung für Maximum-Cut-Probleme

Wir stellen MaxCut-Bench vor, um eine konsistente Bewertung von Algorithmen bei Optimierungsherausforderungen zu ermöglichen.

2025-07-17T09:34:08+00:00 ― 7 min Lesedauer

Rechnen und Sprache Vertrauen bei der Verarbeitung langer Dokumente bewerten

Das Verbessern, wie Modelle mit Beweisen in langen Dokumenten umgehen, stärkt das Vertrauen der Nutzer.

2025-07-15T22:35:42+00:00 ― 5 min Lesedauer

Künstliche Intelligenz Benchmarking Sprachmodelle durch klassische Spiele

Die Fähigkeiten von LLMs mit gitterbasierten Spielen wie Tic-Tac-Toe und Connect Four bewerten.

2025-07-15T22:27:48+00:00 ― 7 min Lesedauer

Computer und Gesellschaft Sicherung von KI-Sicherheit: Neuer Massstab eingeführt

Ein neuer Massstab hat das Ziel, KI-Sicherheitsrisiken effektiv zu bewerten.

2025-07-15T13:14:48+00:00 ― 8 min Lesedauer

Hardware-Architektur Fortschritte im Multi-Modal Hardware-Design

Die Kombination von visuellen Elementen und Sprache verbessert die Genauigkeit der Hardware-Code-Generierung.

2025-07-15T02:50:42+00:00 ― 6 min Lesedauer

Maschinelles Lernen Bewertung von räumlich-zeitlichen Vorhersagemodellen

Ein neuer Benchmark behandelt die Notwendigkeit für eine standardisierte Bewertung in der spatio-temporalen Vorhersage.

2025-07-15T01:47:30+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritt in Bewertungstechniken für Sprachmodelle

Neue Methoden verbessern das Testen von Sprachmodellen und legen den Fokus auf wichtige Leistungsbereiche.

2025-07-15T00:20:36+00:00 ― 6 min Lesedauer

Maschinelles Lernen Herausforderung im Graph-Lernen mit einem neuen Benchmark angehen

Ein neuer Massstab zur Bewertung von Graph-Lernmethoden, die sich mit Heterophilie und Heterogenität befassen.

2025-07-13T09:22:12+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von LLMs mit Code-Interpretern für Datenwissenschaftsaufgaben

Ein Rahmen, um die Fähigkeiten von LLMs bei datenbezogenen Aufgaben mit Code-Interpretern zu bewerten.

2025-07-13T01:20:18+00:00 ― 5 min Lesedauer

Rechnen und Sprache Analyse von CLIPs Verständnis von Negation

Ein Blick darauf, wie CLIP Negation in der Sprache verarbeitet.

2025-07-13T01:04:30+00:00 ― 6 min Lesedauer

Maschinelles Lernen Fairness im Graph-Learning: Ein neuer Massstab

Einen Massstab festlegen, um die Fairness in Graph-Lernmethoden zu bewerten.

2025-07-12T17:26:18+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Fortschritte im Denken mit Sprachmodellen

Erforschen, wie Sprachmodelle Denkaufgaben effektiv angehen.

2025-07-12T06:46:24+00:00 ― 5 min Lesedauer

Künstliche Intelligenz Bewertung von Sprachmodellen im wissenschaftlichen Coding

Ein neuer Benchmark bewertet Sprachmodelle bei wissenschaftlichen Programmierherausforderungen in verschiedenen Bereichen.

2025-07-10T17:22:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Maschinen-Diagramm-Interpretation

Ein neues Modell verbessert, wie Maschinen Diagramme lesen, sogar ohne Beschriftungen.

2025-07-10T11:11:30+00:00 ― 5 min Lesedauer