المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تم تمكين تدريب fp8 لتحسين +4.3٪ إلى "وقت GPT-2"، وأصبح الآن 2.91 ساعة. ومن الجدير بالذكر أيضا أنه إذا استخدمت أسعار نسخ 8XH100، فإن إعادة إنتاج GPT-2 هذه تكلف فقط ~$20. لذا هذا مثير -
GPT-2 (منذ 7 سنوات): خطير جدا للإصدار.
GPT-2 (اليوم): MNIST جديد! :)
بالتأكيد يمكن أن يستمر هذا أقل من ساعة واحدة.
بضع كلمات إضافية عن ال fp8، كان الأمر أكثر تعقيدا مما توقعت واستغرق مني وقتا للوصول إليه وحتى الآن لست متأكدا 100٪ إذا كانت فكرة جيدة بسبب قلة الدعم العام لها. على الورق، fp8 على H100 ضعف FLOPS، لكن في الواقع أقل بكثير. لسنا مقيدين بنسبة 100٪ بالحساب في عملية التدريب الفعلية، وهناك عبء إضافي من تحويلات المقياس الإضافية، وأجهزة GEMM ليست كبيرة بما يكفي على مقياس GPT-2 لجعل الحمل الإضافي يستحق العناء بوضوح، وبالطبع - عند دقة أقل جودة كل خطوة تكون أصغر. بالنسبة لوصفة القياس الصوتي، كانت منحنيات الخسارة بين fp8 وbf16 متقاربة جدا لكنها كانت تسير ببطء صافي. بالنسبة للمقياس المتوني، كانت منحنيات الخسارة أكثر فصلا (أي أن كل خطوة ذات جودة أسوأ)، لكننا الآن على الأقل نحصل على تسريع (~7.3٪). يمكنك استعادة الأداء بسذاجة عن طريق رفع مستوى التدريب (تتدرب على خطوات أكثر، لكن كل خطوة أسرع) وتأمل أن تخرج متقدما في الصف. في هذه الحالة وبشكل عام، بعد اللعب بهذه الوصفات وآفاق التدريب قليلا، انتهى بي الأمر إلى زيادة ~5٪. تورتشاو في ورقتهم أفادت أن سرعة تدريب Llama3-8B fp8 بلغت 25٪ (مقابل ~7.3٪ لدي دون أخذ القدرات في الاعتبار)، وهو أقرب لما كنت آمل في البداية، رغم أن Llama3-8B هو نموذج أكبر بكثير. ربما هذه ليست نهاية ملحمة FP8. يجب أن يكون من الممكن تحسين الأمور من خلال اختيار الطبقات التي سيتم تطبيقها عليها بدقة، وأن تكون أكثر حرصا على الأرقام عبر الشبكة.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
