Que signifie "Mise à l'échelle des pertes"?
Table des matières
Le loss scaling est une technique utilisée pour entraîner des modèles d'apprentissage automatique, surtout les gros. Quand les modèles utilisent des formats de nombres en basse précision, comme le float8, ils peuvent parfois galérer à performer aussi bien qu'avec des formats en haute précision. C'est parce que la basse précision a une gamme de valeurs plus petite qu'elle peut représenter.
Pour régler ce problème, le loss scaling ajuste les valeurs pendant le processus d'entraînement. En augmentant l'échelle de la perte, le modèle peut mieux gérer la réduction de la gamme des formats en basse précision. Après que les calculs sont faits, les résultats sont redimensionnés. Ça aide le modèle à apprendre efficacement sans perdre des infos importantes.
Utiliser le loss scaling permet d'entraîner des modèles de manière plus efficace tout en gardant la qualité des résultats. Ça facilite le travail avec des formats en basse précision et soutient une meilleure performance dans les tâches d'entraînement et d'inférence.