Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
FP8 eğitimini +%4.3 ile "GPT-2'ye kadar süre" iyileştirme için etkinleştirdim, şimdi 2.91 saate düştü. Ayrıca, 8XH100 spot örnekleri kullanırsanız, bu GPT-2 kopyası aslında sadece ~$20 tutar. Bu heyecan verici -
GPT-2 (7 yıl önce): Serbest bırakılması çok tehlikeli.
GPT-2 (bugün): yeni MNIST! :)
Kesinlikle bu 1 saatin çok altında olabilir.
FP8 hakkında birkaç kelime daha söyleyeyim, beklediğimden biraz daha zordu ve ona ulaşmam biraz zaman aldı, şimdi bile genel destek daha az olduğu için iyi bir fikir olup olmadığından %100 emin değilim. Kağıt üzerinde, H100'de FP8 FLOPS'un iki katı ama pratikte çok daha az. Gerçek eğitim çalışmasında %100 hesaplama bağımlısı değiliz, ek ölçek dönüşümlerinden ekstra yük oluşuyor, GEMM'ler GPT-2 ölçeğinde ek yükü açıkça değecek kadar büyük değil ve tabii ki - daha düşük hassasiyette her adımın kalitesi daha düşük. Sıralı ölçeklendirme tarifinde FP8 ile BF16 kayıp eğrileri oldukça yakındı ama net adım daha yavaştı. Tensor ölçeklendirmede kayıp eğrileri daha fazla ayrıldı (yani her adım daha kötü kalitede), ama şimdi en azından bir hızlanma elde ediyoruz (~%7,3). Performans performansını safça geri kazanarak antrenman ufkunu hızlandırabilirsiniz (daha fazla adım için antrenman yaparsınız ama her adım daha hızlıdır) ve net olarak öne çıkmanızı umabilirsiniz. Bu durumda ve genel olarak, bu tarifler ve antrenman ufklarıyla biraz oynadım, şimdiye kadar ~%5 hızlanma elde ettim. Torchao, makalelerinde Llama3-8B FP8 eğitim hızının %25 olduğunu bildiriyor (benim ~%7.3'üm ise yeteneği hesaba katmadan), bu başta umduğum seviyeye daha yakın, gerçi Llama3-8B çok daha büyük model. Muhtemelen bu FP8 destanının sonu değil. Hangi katmanlara tam olarak uygulanacağını seçerek ve ağ genelinde sayısal işlemlere daha dikkatli davranarak işleri iyileştirmek mümkün olmalı.
En İyiler
Sıralama
Takip Listesi
