Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Formation fp8 activée pour une amélioration de +4,3 % du "temps pour GPT-2", maintenant réduit à 2,91 heures. Il convient également de noter que si vous utilisez les prix des instances spot 8XH100, cette reproduction de GPT-2 ne coûte vraiment qu'environ 20 $. C'est donc excitant -
GPT-2 (il y a 7 ans) : trop dangereux à publier.
GPT-2 (aujourd'hui) : nouveau MNIST ! :)
Sûrement, cela peut descendre bien en dessous d'1 heure.
Quelques mots supplémentaires sur fp8, c'était un peu plus compliqué que je ne l'avais anticipé et il m'a fallu un certain temps pour y parvenir et même maintenant, je ne suis pas sûr à 100 % que ce soit une bonne idée en raison du soutien global réduit. Sur le papier, fp8 sur H100 est 2X les FLOPS, mais en pratique, c'est beaucoup moins. Nous ne sommes pas à 100 % limités par le calcul lors de l'exécution de la formation réelle, il y a un surcoût supplémentaire dû aux conversions d'échelle ajoutées, les GEMMs ne sont pas assez grandes à l'échelle de GPT-2 pour que le surcoût en vaille clairement la peine, et bien sûr - à une précision plus faible, la qualité de chaque étape est moindre. Pour la recette de mise à l'échelle par ligne, les courbes de perte fp8 par rapport à bf16 étaient assez proches mais cela avançait un peu plus lentement. Pour la mise à l'échelle par tenseur, les courbes de perte se sont davantage séparées (c'est-à-dire que chaque étape est de moins bonne qualité), mais nous obtenons maintenant au moins un gain de vitesse (~7,3 %). Vous pouvez naïvement récupérer les performances en augmentant l'horizon de formation (vous vous entraînez pendant plus d'étapes, mais chaque étape est plus rapide) et espérer qu'au final, vous en sortez gagnant. Dans ce cas et dans l'ensemble, en jouant un peu avec ces recettes et horizons de formation, jusqu'à présent, j'ai obtenu un gain de vitesse d'environ 5 %. torchao dans leur article rapporte un gain de vitesse de formation fp8 de Llama3-8B de 25 % (contre mes ~7,3 % sans tenir compte de la capacité), ce qui est plus proche de ce que j'espérais initialement, bien que Llama3-8B soit un modèle beaucoup plus grand. Ce n'est probablement pas la fin de la saga fp8. Il devrait être possible d'améliorer les choses en choisissant exactement sur quelles couches l'appliquer et en étant plus prudent avec les numériques à travers le réseau.
Meilleurs
Classement
Favoris
