Neuste Artikel für Bewertung

Informationsbeschaffung VERA: Ein Rahmen für die Bewertung von RAG-Systemen

Entdecke, wie VERA die Genauigkeit und Effizienz der RAG-Systembewertung verbessert.

2025-06-27T04:33:30+00:00 ― 10 min Lesedauer

Maschinelles Lernen Bewertung von grossen Sprachmodellen für den Einsatz in der realen Welt

Ein neuer Ansatz, um LLMs mit unterschiedlichen Bewertungssets zu bewerten.

2025-06-26T22:53:48+00:00 ― 7 min Lesedauer

Rechnen und Sprache Adressierungsformat-Bias in Sprachmodellen angehen

Dieser Artikel untersucht, wie Formatvoreingenommenheit die Leistung von Sprachmodellen beeinflusst und schlägt Verbesserungsstrategien vor.

2025-06-26T20:23:42+00:00 ― 6 min Lesedauer

Informationsbeschaffung Hindi-BEIR: Ein Benchmark für Hindi Informationsabruf

Hindi-BEIR hat das Ziel, die Informationsabrufsysteme für Hindi-Inhalte zu verbessern.

2025-06-26T06:50:00+00:00 ― 5 min Lesedauer

Rechnen und Sprache Ausrichten von Sprachmodellen mit Online-Communities

Methoden erkunden, um LLMs mit Online-Gruppen abzugleichen für bessere Einblicke.

2025-06-26T04:59:24+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung der Gebärdensprachkompetenz: Ein neues Tool

Ein Werkzeug, das entwickelt wurde, um die Gebärdensprache-Fähigkeiten durch die Analyse natürlicher Bewegungen zu bewerten.

2025-06-25T19:14:48+00:00 ― 6 min Lesedauer

Informationsbeschaffung Neue Methode zur Bewertung von Gesundheitsantworten aus Sprachmodellen

Ein neuer Ansatz, um gesundheitsbezogene Antworten von KI-Modellen zu bewerten.

2025-06-25T15:09:54+00:00 ― 7 min Lesedauer

Biochemie FilmCPI: Ein neues Modell zur Vorhersage von Arzneimittelinteraktionen

FilmCPI verbessert die Arzneimittelforschung, indem es Datenungleichgewichte angeht und die Vorhersageeffizienz steigert.

2025-06-25T14:06:39+00:00 ― 6 min Lesedauer

Rechnen und Sprache Korean Sprachverarbeitung mit RedWhale voranbringen

Das RedWhale-Modell verbessert das Verständnis koreanischer Texte durch spezielle Techniken.

2025-06-25T10:49:12+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bewertung von SAM2 in der 3D-Medizinischen Bildgebung

Ein Blick auf die Leistung und Herausforderungen von SAM2 bei der medizinischen Bildsegmentierung.

2025-06-25T09:06:30+00:00 ― 5 min Lesedauer

Künstliche Intelligenz Bewertung der Fragestellungen von grossen Sprachmodellen

Forschung bewertet, wie gut LLMs Lernfragen für die Bildung generieren.

2025-06-25T04:53:42+00:00 ― 5 min Lesedauer

Rechnen und Sprache Ein neuer Ansatz zur medizinischen Zusammenfassung

Innovativer Rahmen verbessert die Klarheit in medizinischen Dokumentzusammenfassungen.

2025-06-24T18:13:48+00:00 ― 7 min Lesedauer

Software-Entwicklung Evaluierung von LLMs in der Softwarecode-Validierung

Dieser Artikel untersucht eine Methode zur Bewertung der Genauigkeit von LLM-generiertem Code.

2025-06-24T11:15:06+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Objektezählung in der Bildgenerierung verbessern

Eine neue Methode verbessert die Genauigkeit beim Zählen von Objekten in generierten Bildern.

2025-06-24T10:59:18+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Bewertung von KI-Erklärungen: Über Bounding Boxes hinaus

Ein Blick auf die Verbesserung von KI-Erklärmethoden für ein besseres Verständnis.

2025-06-24T03:52:42+00:00 ― 5 min Lesedauer

Maschinelles Lernen Vintern-1B: Fortschrittliche vietnamesische Sprachtechnologie

Ein neues Modell, das entwickelt wurde, um vietnamesische Sprachaufgaben durch Text- und Bildverarbeitung zu verbessern.

2025-06-23T18:31:48+00:00 ― 6 min Lesedauer

Rechnen und Sprache Grosse Sprachmodelle fair bewerten

Ein neuer Ansatz, um Sprachmodelle mit unterschiedlichen Anweisungen und Aufgaben zu bewerten.

2025-06-23T14:58:30+00:00 ― 7 min Lesedauer

Künstliche Intelligenz KI-Hilfe bei der Bewertung von handschriftlichen Antworten

KI kann das Benoten von handschriftlichen Antwortblättern für Lehrer deutlich schneller machen.

2025-06-23T00:29:30+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung von biomedizinischen Sprachmodellen im Gesundheitswesen

Die Studie untersucht die Effektivität von spezialisierten LLMs in klinischen Aufgaben.

2025-06-22T12:14:48+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung von maschineller Übersetzung: Neue Erkenntnisse und Herausforderungen

Ein Blick auf die neuesten Erkenntnisse zu Methoden zur Bewertung von maschineller Übersetzung.

2025-06-22T12:06:54+00:00 ― 5 min Lesedauer

Maschinelles Lernen Ein neues Mass zur Bewertung von Merkmalsauswahlmethoden

FSDEM bietet einen neuen Ansatz zur Bewertung von Verfahren zur Merkmalsauswahl für die Datenanalyse.

2025-06-21T23:12:42+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit Bewertung von grossen Sprachmodellen für sicheres Programmieren

Dieser Artikel behandelt die Bewertung von LLMs in sicheren Programmierpraktiken.

2025-06-21T02:08:42+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Bewertung des logischen Denkens in Sprachmodellen

Eine neue Methode, um zu prüfen, wie gut LLMs Regeln verstehen und anwenden.

2025-06-20T19:41:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von Wissen in Sprachmodellen mit BEAR

Eine neue Methode, um das Wissen von Sprachmodellen zu bewerten und zu vergleichen.

2025-06-20T18:38:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschrittliche Panorama-Generierung mit dem MAD-Operator

Eine neue Methode verbessert die Panoramaerstellung mit dem Merge-Attend-Diffuse-Operator.

2025-06-20T17:27:18+00:00 ― 6 min Lesedauer

Gesundheitspolitik Bewertung von Gesundheits-Chatbots: Ein neues Framework

Ein umfassendes Bewertungsframework für Gesundheits-Chatbots wird eingeführt, um deren Effektivität zu steigern.

2025-06-20T05:12:00+00:00 ― 7 min Lesedauer

Software-Entwicklung Bewertung der JavaScript-Kenntnisse mit neuem Tool

Ein neues Tool hilft dabei, die JavaScript-Coding-Fähigkeiten und das Niveau der Kenntnisse zu bewerten.

2025-06-20T03:45:42+00:00 ― 5 min Lesedauer

Künstliche Intelligenz Geführtes Denken: Ein klarer Weg zu besseren Entscheidungen

Dieses System hilft beim Denken und Entscheiden durch strukturiertes Argumentieren.

2025-06-20T01:39:18+00:00 ― 6 min Lesedauer

Software-Entwicklung Recruiter passen sich an Generative AI beim Einstellen an

Diese Studie untersucht, wie Recruiter KI-Tools bei der Einstellung im Softwareengineering wahrnehmen.

2025-06-19T02:36:48+00:00 ― 6 min Lesedauer

Rechnen und Sprache Ein neues Bewertungssystem für Sprachmodelle

Dieser Artikel behandelt ein neues Bewertungssystem, um Sprachmodelle gerechter zu bewerten.

2025-06-18T21:36:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung der Textgenerierung in LLMs für lange Texte

LongGenBench bewertet grosse Sprachmodelle darin, qualitativ hochwertigen langen Text zu erstellen.

2025-06-17T21:54:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von medizinischen Q&A-Systemen mit KI-Unterstützung

Grosse Sprachmodelle verbessern die Effizienz bei der Bewertung medizinischer Antworten.

2025-06-17T19:40:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Modelle zum Erkennen von Flussverschmutzung vergleichen

Diese Studie bewertet Machine-Learning-Modelle zur Erkennung von Müll in Flüssen.

2025-06-16T17:44:00+00:00 ― 5 min Lesedauer

Computer und Gesellschaft Ethik in Sprachmodellen für psychische Gesundheit

Überprüfung ethischer Fragen bei der Nutzung von Sprachmodellen für psychiatrische Erkrankungen.

2025-06-16T08:07:18+00:00 ― 9 min Lesedauer

Künstliche Intelligenz Neuer VisScience-Benchmark bewertet multimodales Lernen

VisScience testet grosse Modelle für wissenschaftliches Denken mit Text und Bildern.

2025-06-15T07:37:54+00:00 ― 5 min Lesedauer

Datenbanken Bewertung grosser Sprachmodelle mit SPARQL

Diese Studie bewertet, wie LLMs mit SPARQL-Abfragen und Wissensgraphen umgehen.

2025-06-15T03:25:06+00:00 ― 5 min Lesedauer

Informationsbeschaffung Bewertung von Informationssystemen über die Zeit

Eine Analyse, wie Abruffsysteme in sich verändernden Datenumgebungen abschneiden.

2025-06-14T19:23:12+00:00 ― 6 min Lesedauer

Rechnen und Sprache Sprachmodelle durch RNR-Training verbessern

Eine neue Methode verbessert, wie Sprachmodelle komplexen Anweisungen folgen.

2025-06-14T16:29:24+00:00 ― 5 min Lesedauer

Rechnen und Sprache Ein neuer Massstab zur Bewertung von Rollenspiel-Sprachmodellen

Wir stellen ein innovatives Framework vor, um die Interaktionen von Sprachmodellen in Rollenspiel-Szenarien zu testen.

2025-06-14T12:08:42+00:00 ― 8 min Lesedauer

Rechnen und Sprache Vorstellung von TeXBLEU: Ein neuer Massstab für LaTeX-Bewertung

TeXBLEU bietet eine zuverlässige Möglichkeit, LaTeX-Ausdrücke aus gesprochener Mathematik zu bewerten.

2025-06-14T09:38:36+00:00 ― 6 min Lesedauer