SEACrowd hat das Ziel, die KI-Darstellung für südostasiatische Sprachen und Kulturen zu verbessern.
― 7 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
SEACrowd hat das Ziel, die KI-Darstellung für südostasiatische Sprachen und Kulturen zu verbessern.
― 7 min Lesedauer
Eine Studie bewertet Sprachmodelle darin, mehrere Aufgaben gleichzeitig zu bewältigen.
― 8 min Lesedauer
Ein neuer Benchmark testet die Fähigkeiten von LLMs mit strukturierten Datenformaten.
― 6 min Lesedauer
VCEval bietet eine automatisierte Möglichkeit, die Effektivität von Online-Kursen zu bewerten.
― 5 min Lesedauer
Ein neuer Massstab zielt auf die Kompositionalität im Videoverstehen und in Sprachmodellen ab.
― 6 min Lesedauer
Eine neue Methode verbessert das Testen von Sprachmodellen mit echten Nutzerdaten.
― 6 min Lesedauer
Die Nemotron-4 340B Familie bietet starke Modelle für verschiedene Anwendungen und die Generierung von synthetischen Daten.
― 8 min Lesedauer
Bewerten, wie Sprachmodelle mit kulturellen Hinweisen in echten Aufgaben umgehen.
― 8 min Lesedauer
VideoVista bietet eine umfassende Bewertung für Video-Frage-Antwort-Modelle.
― 6 min Lesedauer
Dieser Artikel untersucht Methoden zur Verbesserung der Zuverlässigkeit von Forschungsartefakten in der Informatik.
― 8 min Lesedauer
GLM-4 Modelle zeigen verbesserte Fähigkeiten im Sprachverständnis und in der Sprachgenerierung.
― 9 min Lesedauer
Eine Studie über die Nutzung von LLMs, um andere LLMs zu bewerten und die Auswirkungen davon.
― 7 min Lesedauer
Eine Studie darüber, wie Sprachmodelle überzeugende Begründungen für die Bewertung von Argumenten erzeugen.
― 6 min Lesedauer
Zwei neue Modelle sollen den Zugang zu Technologie für galizische Sprecher verbessern.
― 5 min Lesedauer
Die Schwierigkeiten bei der Übersetzung von metaphorischer Sprache in der maschinellen Übersetzung untersuchen.
― 6 min Lesedauer
DF40 bietet einen umfassenden Ansatz zur Verbesserung von Deepfake-Erkennungsmethoden.
― 6 min Lesedauer
Diese Studie bewertet die Ehrlichkeit von LLMs in drei wichtigen Bereichen.
― 6 min Lesedauer
Entdeck, wie Firmen ihre Frage-Antwort-Systeme verbessern, um besseren Support für die Nutzer zu bieten.
― 4 min Lesedauer
Eine Studie darüber, wie KI Algorithmen versteht und welche Auswirkungen das hat.
― 7 min Lesedauer
Ein neues Mass verbessert die Bewertung von Textklassifizierungsmodellen in verschiedenen Bereichen.
― 8 min Lesedauer
Datenverunreinigung beeinflusst die Bewertung von grossen Sprachmodellen erheblich.
― 5 min Lesedauer
Eine neue Methode zur Bewertung von LLMs stimmt mit menschlichen Werten überein.
― 6 min Lesedauer
Ein neues Tool zur Bewertung von Vorurteilen in grossen Vision-Language-Modellen.
― 6 min Lesedauer
Eine Studie bewertet, wie Maschinen abwechslungsreiche und kreative Poesie im Vergleich zu Menschen erstellen.
― 6 min Lesedauer
Eine neue Methode verbessert, wie wir Gegen-Narrative zu Hassrede bewerten.
― 6 min Lesedauer
InternLM-Law verbessert die Antworten auf diverse chinesische Rechtsfragen mit fortgeschrittener Ausbildung.
― 8 min Lesedauer
Erforschen, wie Nutzerprofile die Personalisierung in Sprachmodellen verbessern.
― 6 min Lesedauer
Forschung zeigt, dass Modelle Schwierigkeiten mit den Schritt-Abhängigkeiten in Kochrezepten haben.
― 6 min Lesedauer
Dieses Papier stellt eine Methode vor, um Sprachmodelle bei verschiedenen Aufforderungen zu bewerten.
― 7 min Lesedauer
Neue Methode geht auf regionale Unterschiede bei der Bewertung von Geschlechtervorurteilen ein.
― 6 min Lesedauer
Das M2Lingual-Datenset verbessert die Fähigkeiten zum Befolgen von Anweisungen in verschiedenen Sprachen.
― 6 min Lesedauer
Dieser Artikel stellt eine neue Methode vor, um Text-zu-Bild-Modelle effektiv zu bewerten.
― 6 min Lesedauer
Diese Studie bewertet die Leistung von Sprachmodellen anhand der italienischen INVALSI-Tests.
― 8 min Lesedauer
RAGBench bringt ein umfangreiches Dataset zur Bewertung von Retrieval-Augmented Generation-Systemen.
― 7 min Lesedauer
Dysca führt eine neue Möglichkeit ein, die Leistung von LVLM mit synthetischen Daten zu bewerten.
― 7 min Lesedauer
Ein Blick auf moderne Methoden im Ingenieurdesign für Effizienz und Leistung.
― 8 min Lesedauer
Ein neuer Ansatz verbessert die kausale Ereignisextraktion durch menschzentrierte Bewertung.
― 6 min Lesedauer
Bewertung, wie das Zurückgreifen auf menschliche Experten die Vorhersagegenauigkeit in ML-Modellen beeinflusst.
― 9 min Lesedauer
Eine neue Methode vorstellen für bessere Lösungen bei komplexen Ingenieur- und Robotikaufgaben.
― 6 min Lesedauer
Eine Studie zur Bewertung der Qualität von Datensätzen zur Identifizierung von Hassrede online.
― 8 min Lesedauer