Ein neues Framework verbessert, wie LLM-Agenten lernen, durch detaillierte Prozessanleitungen.
― 8 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Ein neues Framework verbessert, wie LLM-Agenten lernen, durch detaillierte Prozessanleitungen.
― 8 min Lesedauer
Wir stellen RePrompt vor, um die Leistung von Sprachmodellen durch optimierte Aufforderungen zu verbessern.
― 6 min Lesedauer
Ein neuer Massstab bewertet, wie Sprachmodelle mit Textänderungen umgehen.
― 6 min Lesedauer
Nutzermerkmale beeinflussen die Antworten von Sprachmodellen und deren Sicherheit.
― 7 min Lesedauer
Ein Toolkit zur Bewertung der Leistung von retrieval-unterstützten Modellen in bestimmten Bereichen.
― 10 min Lesedauer
Diese Studie zeigt, wie Sprachmodelle ihr Verhalten während des Trainings ändern.
― 7 min Lesedauer
Dieser Artikel untersucht Möglichkeiten, die Planungsfähigkeiten in grossen Sprachmodellen zu verbessern.
― 8 min Lesedauer
DetectBench bewertet LLMs danach, wie gut sie versteckte Hinweise in Denksportaufgaben erkennen können.
― 6 min Lesedauer
Untersuchen, wie die Aktivierung von Neuronen das arithmetische Denken in grossen Sprachmodellen verbessert.
― 10 min Lesedauer
Ein neues Modell erzeugt tschechische Poesie mit verbessertem Reim und Rhythmus.
― 7 min Lesedauer
Ein neuer Massstab bewertet die Denkfähigkeiten von Sprachmodellen.
― 8 min Lesedauer
Eine Studie darüber, wie Sprachmodelle überzeugende Begründungen für die Bewertung von Argumenten erzeugen.
― 6 min Lesedauer
Diese Studie bewertet die Ehrlichkeit von LLMs in drei wichtigen Bereichen.
― 6 min Lesedauer
Dieser Artikel untersucht, wie Gegner die Teamarbeit zwischen Sprachmodellen beeinflussen.
― 13 min Lesedauer
Eine umfassende Studie zur Leistungsfähigkeit von Sprachmodellen in 10 indischen Sprachen.
― 8 min Lesedauer
Eine neue Methode verbessert die Code-Reparatur für wenig genutzte Programmiersprachen.
― 7 min Lesedauer
Erforschen, wie Aufmerksamkeitssenkungen die Leistung von Sprachmodellen beeinflussen und eine Kalibrierungstechnik vorstellen.
― 6 min Lesedauer
RankAdaptor optimiert das Fine-Tuning für beschnittene KI-Modelle und verbessert die Leistung effizient.
― 8 min Lesedauer
Eine Studie über PlagBench und seine Rolle bei der Erkennung von Plagiaten in LLM-Ausgaben.
― 4 min Lesedauer
Neues Dataset bewertet die Fähigkeit von LLMs für komplexe logische Denkaufgaben.
― 7 min Lesedauer
Diese Forschung untersucht, wie Denkfähigkeiten zwischen Sprachen in Sprachmodellen übertragen werden.
― 9 min Lesedauer
Dieser Artikel behandelt, wie KI-Modelle aus Fehlern durch Selbstkorrektur lernen.
― 6 min Lesedauer
Diese Studie bewertet, wie gut LLMs über Himmelsrichtungen nachdenken.
― 5 min Lesedauer
Diese Studie bewertet, wie gut LLMs Entscheidungen in einem Spielsetting treffen können.
― 8 min Lesedauer
Studie zeigt, wie Benutzermerkmale die Antworten und die Genauigkeit von LLM beeinflussen.
― 8 min Lesedauer
CharED kombiniert Sprachmodelle für bessere Leistung ohne gemeinsame Vokabulare.
― 5 min Lesedauer
RAGBench bringt ein umfangreiches Dataset zur Bewertung von Retrieval-Augmented Generation-Systemen.
― 7 min Lesedauer
Die Erkundung von Fairnessproblemen in KI-Sprachmodellen und deren Auswirkungen.
― 9 min Lesedauer
Ein Werkzeug zur Verbesserung der Sicherheit in Interaktionen mit Sprachmodellen.
― 6 min Lesedauer
Dieser Artikel untersucht die Erkennung von Fehlern in den von Sprachmodellen verwendeten Werkzeugen.
― 6 min Lesedauer
Dieser Artikel analysiert sich wiederholende Strukturen in Texten, die von Sprachmodellen generiert wurden.
― 8 min Lesedauer
Ein neuer Massstab bewertet, wie gut Sprachmodelle mehrere Anweisungen in Folge befolgen.
― 4 min Lesedauer
Das MalAlgoQA-Dataset bewertet das Denken von grossen Sprachmodellen in kontrafaktischen Szenarien.
― 6 min Lesedauer
MathCAMPS bietet eine neue Möglichkeit, mathematisches Denken in Sprachmodellen zu bewerten.
― 10 min Lesedauer
Diese Arbeit konzentriert sich auf bessere Zahlenrepräsentation mit Digit-Embeddings für verbesserte Vorhersagen.
― 8 min Lesedauer
Die Effektivität von LLMs bei Entscheidungsfindung in Dueling Bandits-Szenarien erkunden.
― 9 min Lesedauer
Ein neuer Massstab zur Bewertung grosser Sprachmodelle in der Hypothesentests.
― 7 min Lesedauer
CRAB verbessert das Testen von Sprachmodellen in realen Umgebungen.
― 7 min Lesedauer
Feinabstimmung grosser Sprachmodelle direkt auf Smartphones, während die Nutzerdaten geschützt bleiben.
― 6 min Lesedauer
Eine Übersicht über mechanistische Interpretierbarkeit in transformerbasierten Sprachmodellen.
― 8 min Lesedauer