Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mengaktifkan pelatihan fp8 untuk peningkatan +4,3% ke "waktu ke GPT-2", turun menjadi 2,91 jam sekarang. Perlu juga dicatat bahwa jika Anda menggunakan harga instance spot 8XH100, repro GPT-2 ini benar-benar hanya berharga ~$20. Jadi ini menarik -
GPT-2 (7 tahun yang lalu): terlalu berbahaya untuk dirilis.
GPT-2 (hari ini): MNIST baru! :)
Tentunya ini bisa jauh di bawah 1 jam.
Beberapa kata lagi di fp8, itu sedikit lebih rumit dari yang saya perkirakan dan butuh beberapa saat untuk mencapainya dan bahkan sekarang saya tidak 100% yakin apakah itu ide bagus karena dukungan keseluruhan yang lebih sedikit untuk itu. Di atas kertas, fp8 pada H100 adalah 2X dari FLOPS, tetapi dalam praktiknya jauh lebih sedikit. Kami tidak 100% terikat komputasi dalam pelatihan yang sebenarnya, ada overhead ekstra dari konversi skala tambahan, GEMM tidak cukup besar pada skala GPT-2 untuk membuat overhead jelas sepadan, dan tentu saja - dengan presisi yang lebih rendah kualitas setiap langkah lebih kecil. Untuk resep penskalaan baris, kurva kerugian fp8 vs bf16 cukup dekat tetapi melangkah lebih lambat. Untuk penskalaan tensorwise, kurva kerugian lebih terpisah (yaitu setiap langkah memiliki kualitas yang lebih buruk), tetapi kita sekarang setidaknya mendapatkan percepatan (~7,3%). Anda dapat secara naif memulihkan kinerja dengan menabrak cakrawala latihan (Anda berlatih untuk lebih banyak langkah, tetapi setiap langkah lebih cepat) dan berharap bahwa di internet Anda unggul. Dalam hal ini dan secara keseluruhan, bermain dengan resep dan cakrawala pelatihan ini sedikit, sejauh ini saya berakhir dengan percepatan ~5%. torchao dalam makalah mereka melaporkan percepatan pelatihan Llama3-8B fp8 sebesar 25% (vs ~ 7,3% saya tanpa memperhitungkan kemampuan), yang lebih dekat dengan apa yang saya harapkan pada awalnya, meskipun Llama3-8B adalah model yang jauh lebih besar. Ini mungkin bukan akhir dari saga fp8. Seharusnya dimungkinkan untuk meningkatkan hal-hal dengan memilih dan memilih lapisan mana yang akan diterapkan dengan tepat, dan lebih berhati-hati dengan numerik di seluruh jaringan.
Teratas
Peringkat
Favorit
