Quentin Anthony

Eine Methode zur Steigerung der Effizienz in Mixture of Experts-Modellen.

2025-09-16T16:43:48+00:00 ― 6 min Lesedauer

Lern, wie du die Effizienz von Transformermodellen mit GPU-freundlichem Design verbessern kannst.

2025-09-14T12:03:48+00:00 ― 6 min Lesedauer

BlackMamba kombiniert Zustandsraum-Modelle und Expertenmischungen für effiziente Sprachaufgaben.

2025-09-12T17:55:48+00:00 ― 7 min Lesedauer

Analyse von GPT-NeoX und LLaMA Modellen für Materialienwissenschaft-Anwendungen.

2025-09-12T12:08:12+00:00 ― 7 min Lesedauer

Zamba ist ein hybrides Sprachmodell, das Zustandsraum- und Transformer-Architekturen kombiniert.

2025-08-06T22:42:36+00:00 ― 6 min Lesedauer

Zyda, ein Datensatz mit 1,3 Billionen Tokens, verbessert das Training von Sprachmodellen.

2025-08-02T07:50:48+00:00 ― 6 min Lesedauer

Tree Attention verbessert die Effizienz bei der Verarbeitung von langen Sequenzen für Machine-Learning-Modelle.

2025-07-01T04:01:00+00:00 ― 5 min Lesedauer

Eine Studie zur Verbesserung des Datenaustauschs beim Training von Transformermodellen.

2025-06-25T22:08:36+00:00 ― 5 min Lesedauer

Neue Kompressionstechniken beschleunigen das Training für grosse Sprachmodelle und behalten gleichzeitig die Genauigkeit bei.

2025-06-16T23:07:54+00:00 ― 5 min Lesedauer

Die RedPajama-Datensätze sollen das Training von Sprachmodellen durch Transparenz und hochwertige Daten verbessern.

2025-05-17T21:13:20+00:00 ― 6 min Lesedauer