Neuste Artikel für Benchmark

Maschinelles Lernen Vorhersage der Sprachmodell-Leistung bei Benchmarks

Forscher analysieren die Vorhersehbarkeit der Leistung von Sprachmodellen, wenn die Trainingsrechenleistung steigt.

2025-09-18T05:27:54+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Untersuchung von Backdoor-Lernen in tiefen neuronalen Netzwerken

Ein Blick auf Backdoor-Angriffe und Abwehrmassnahmen in Deep-Learning-Modellen.

2025-09-14T06:00:24+00:00 ― 6 min Lesedauer

Software-Entwicklung Bewertung von Codegenerierungsmodellen hinsichtlich Effizienz

Dieses Papier bewertet die Effizienz des generierten Codes von verschiedenen Modellen.

2025-09-11T17:42:12+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von Sprachmodellen mit neuem Benchmark

Der Artikel stellt einen Benchmark vor, um grosse Sprachmodelle mit komplexen Aufgaben zu bewerten.

2025-09-11T04:55:54+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Evaluierung von LLMs in asynchronen Planungsaufgaben

Diese Studie bewertet die Fähigkeiten grosser Sprachmodelle in komplexen Planungsszenarien.

2025-09-10T23:16:12+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Bewertung des Verhaltens von Robotern mit Video-Sprachmodellen

Forschung untersucht die Verwendung von VLMs, um Roboteraktionen zu bewerten.

2025-09-10T19:19:12+00:00 ― 7 min Lesedauer

Maschinelles Lernen Fortschritte in der molekularen Modellierung und Gestaltung

Die Rolle von grossen Sprachmodellen in der Molekularwissenschaft erkunden.

2025-09-10T18:55:30+00:00 ― 8 min Lesedauer

Robotik Roboter auf unerwartete Herausforderungen testen

Methoden erkunden, um die Leistung von Robotern in unvorhersehbaren Umgebungen zu verbessern.

2025-09-09T02:53:54+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Vorhang auf für AV-SUPERB: Ein neuer Massstab für Audio-Visuelle Modelle

AV-SUPERB bewertet Audio- und visuelle Modelle über verschiedene Aufgaben hinweg für eine bessere Leistung.

2025-09-08T22:32:35+00:00 ― 6 min Lesedauer

Informationsbeschaffung Fortschritte bei Modellen zur Suche in langen Dokumenten

Neue Werkzeuge verbessern, wie Systeme Informationen aus langen Dokumenten abrufen.

2025-09-08T20:26:48+00:00 ― 5 min Lesedauer

Rechnen und Sprache Evaluierung von medizinischer KI: Ein neuer Benchmark für Med-MLLMs

Dieser Benchmark bewertet die Leistung von medizinischen Sprachmodellen im Gesundheitswesen.

2025-09-07T01:47:12+00:00 ― 8 min Lesedauer

Rechnen und Sprache Ereignis-basiertes Wissens-Editing: Ein neuer Ansatz

Eine Methode, um KI-Modelle basierend auf realen Ereignissen aktuell zu halten.

2025-09-06T00:54:06+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von multimodalen Sprachmodellen bei Social-Media-Aufgaben

Neue Benchmark-Tests bewerten MLLMs bei Aufgaben in sozialen Medien wie Fehlinformationen und Hassrede.

2025-09-05T16:28:30+00:00 ― 11 min Lesedauer

Robotik Fortschrittliche Robotercode-Generierung mit RobotScript

RobotScript verbessert, wie Roboter Aufgaben aus natürlicher Sprache ausführen.

2025-09-05T03:58:00+00:00 ― 7 min Lesedauer

Kryptographie und Sicherheit Hardware-Trojaner erkennen: Neue Ansätze

Eine frische Perspektive, um versteckte Bedrohungen im Hardware-Design zu finden.

2025-09-03T18:55:06+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Verbesserung der Bewertungsfähigkeiten für das Denken in Sprachmodellen

Neue Methoden sollen die Bewertungsmöglichkeiten für das Denkvermögen von KI-Sprachmodellen verbessern.

2025-09-02T23:25:54+00:00 ― 7 min Lesedauer

Software-Entwicklung Vorstellung von DyPyBench: Ein neues Python-Benchmark-Tool

DyPyBench bietet eine vielfältige Auswahl an Projekten für dynamische Analysen in Python.

2025-09-02T10:15:54+00:00 ― 7 min Lesedauer

Rechnen und Sprache KI verwandelt Webentwicklung durch visuelles Design

Die Fähigkeit von KI, Designs in Code umzuwandeln, verändert die Webentwicklung.

2025-09-01T08:03:48+00:00 ― 8 min Lesedauer

Software-Entwicklung Bewertung von Sprachmodellen: Die Herausforderung der Datenkontamination

Studie zeigt erheblichen Datenüberschneidungen, die die Bewertungen von Sprachmodellen bei der Codegenerierung beeinflussen.

2025-09-01T02:16:12+00:00 ― 6 min Lesedauer

Bioinformatik Bewertung grosser Sprachmodelle für die Bio-Bildanalyse

Die Bewertung der LLM-Leistung durch ein spezielles Benchmark für die Bio-Bildanalyse.

2025-08-31T18:04:57+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Sprachverarbeitungs-Tools für bessere Leistung

Eine neue Methode zur Bewertung von Sprachverarbeitungstools zeigt vielversprechende Verbesserungsmöglichkeiten.

2025-08-31T11:31:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Effiziente Bewertung von vortrainierten Objekterkennungsmodellen

Eine Methode zur Bewertung der Übertragbarkeit von vortrainierten Modellen für die Objekterkennung.

2025-08-29T09:37:18+00:00 ― 4 min Lesedauer

Robotik Neuer Massstab für Robotern Lernen bei alltäglichen Aufgaben

Eine Ressource, die dazu gedacht ist, Robotern zu helfen, alltägliche Aufgaben effektiv zu lernen.

2025-08-29T07:46:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Bewertung von grossen Sprachmodellen in der Entscheidungsfindung

Ein Blick auf die Bewertung der Entscheidungsfähigkeit von grossen Sprachmodellen.

2025-08-29T02:44:12+00:00 ― 8 min Lesedauer

Rechnen und Sprache Verbesserung von NLP für diverse Dialekte

Ein Framework, um die NLP-Leistung über verschiedene Sprachdialekte hinweg zu verbessern.

2025-08-28T20:51:00+00:00 ― 4 min Lesedauer

Maschinelles Lernen Neuer Benchmark zeigt die Einschränkungen von Vision-Language-Modellen

Ein frischer Benchmark zeigt die Stärken und Schwächen von VLLMs bei multimodalen Aufgaben.

2025-08-28T00:50:12+00:00 ― 6 min Lesedauer

Computergestützte Physik Monte Carlo Computational Summit: Fortgeschrittene Simulationstechniken

Experten versammeln sich, um über Monte-Carlo-Simulationen und GPU-Verbesserungen zu sprechen.

2025-08-27T20:09:15+00:00 ― 7 min Lesedauer

Software-Entwicklung Herausforderungen für Code-Generierungsmodelle mit neuen Benchmarks

Neue Benchmarks zeigen Stärken und Schwächen von Programmiersprachen-Modellen.

2025-08-25T06:36:30+00:00 ― 4 min Lesedauer

Rechnen und Sprache Wir stellen Meerkat-7B vor: Eine neue Ära in der medizinischen KI

Meerkat-7B setzt einen neuen Standard für Open-Source-Modelle in der medizinischen Sprache.

2025-08-24T01:22:42+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Video-Zusammenfassungstechniken

Neue Methoden verbessern die Video-Zusammenfassung mit grossen Datensätzen und fortschrittlichen Modellen.

2025-08-22T11:11:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung des Verständnisses von langen Texten in Sprachmodellen

Forschung zeigt die Herausforderungen, die LLMs beim Verstehen von langen Texten haben, und schlägt neue Benchmarks vor.

2025-08-21T09:07:30+00:00 ― 6 min Lesedauer

Hardware-Architektur Leistungsüberwachungseinheit für RISC-V in Weltraumanwendungen

Die Erforschung des Designs und der Vorteile eines PMU für RISC-V-Prozessoren, die im Weltraum eingesetzt werden.

2025-08-21T07:56:24+00:00 ― 5 min Lesedauer

Software-Entwicklung Analysieren von Code-Generierungs-Benchmarks auf Qualitätsprobleme

Diese Studie untersucht Qualitätsprobleme bei Prompts für Codegenerierungsmodelle.

2025-08-19T17:45:24+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Bewertung der visuellen Wahrnehmung in Sprachmodellen

Ein neuer Benchmark zeigt Lücken im visuellen Verständnis von grossen Sprachmodellen.

2025-08-18T12:23:42+00:00 ― 7 min Lesedauer

Rechnen und Sprache Die Genauigkeit von grossen Vision-Language-Modellen bewerten

Ein neuer Massstab verbessert, wie wir LVLMs und ihre Genauigkeit bewerten.

2025-08-17T06:46:12+00:00 ― 5 min Lesedauer

Logik in der Informatik CHC-COMP 2023: Bewertung von Constrained Horn Clause Solver

Der CHC-Wettbewerb hat Fortschritte bei den Lösungsverfahren und deren Anwendungen in der Programmverifikation gezeigt.

2025-08-17T00:50:42+00:00 ― 6 min Lesedauer

Rechnen und Sprache Herausforderungen bei der Interpretation von indirekten Antworten

Dieser Artikel untersucht, wie man das Verständnis von indirekten Antworten verbessern kann.

2025-08-16T21:56:54+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte beim Few-Shot Lernen für polnische Sprachaufgaben

Eine Studie zur Bewertung von Few-Shot-Lernmethoden für die Klassifizierung der polnischen Sprache.

2025-08-15T22:38:36+00:00 ― 4 min Lesedauer

Rechnen und Sprache Einführung von PatentGPT: Spezialisierte LLMs für geistiges Eigentum

PatentGPT-Modelle sind darauf ausgelegt, die speziellen Herausforderungen im Bereich des geistigen Eigentums zu bewältigen.

2025-08-15T17:38:24+00:00 ― 4 min Lesedauer

Software-Entwicklung Bewertung von Sicherheits-Tools für Smart Contracts

Eine Studie zur Effektivität von SAST-Tools für Smart Contracts.

2025-08-15T17:30:30+00:00 ― 9 min Lesedauer