المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أنت في مقابلة مع عالم أبحاث في OpenAI.
يسأل المحاور:
"كيف يمكنك توسيع طول سياق LLM من 2K إلى 128K tokens؟"
أنت: "سأقوم بضبط النموذج على المستندات الأطول بسياق 128 كيلوبايت"
انتهت المقابلة.
إليك ما فاتك:
لا يقتصر توسيع نافذة السياق على المصفوفات الأكبر فقط.
في المحول التقليدي ، يؤدي توسيع الرموز المميزة بمقدار 8x إلى زيادة احتياجات الذاكرة بمقدار 64x بسبب التعقيد التربيعي للانتباه. راجع الصورة أدناه!
إذن ، كيف ندير ذلك؟
استمر... 👇

1) اهتمام متناثر
يحد من حساب الانتباه إلى مجموعة فرعية من الرموز من خلال:
- استخدام الاهتمام المحلي (الرموز المميزة لا تهتم إلا بجيرانها).
- السماح للنموذج بمعرفة الرموز المميزة التي يجب التركيز عليها.
لكن هذا له مقايضة بين التعقيد الحسابي والأداء.

تم استخدام فكرة مماثلة في ModernBERT.
→ اهتمام عالمي كامل كل طبقة 3
→ اهتمام محلي (128 رمزا) بخلاف ذلك
نتيجة:
- طول تسلسل أكبر 16x
- أداء أفضل بكثير
- جهاز التشفير الأكثر كفاءة في الذاكرة
بسيطة ولكنها قوية. 👇
إليك شرح بديهي مأخوذ من الورقة:
تخيل نفسك وأنت تقرأ كتابا. لكل جملة تقرأها ، هل تحتاج إلى أن تكون على دراية كاملة بالحبكة بأكملها لفهم معظمها (الاهتمام العالمي الكامل)؟
أم أن الوعي بالفصل الحالي كاف (الاهتمام المحلي) ، طالما أنك تفكر أحيانا في أهميته بالنسبة للحبكة الرئيسية (الاهتمام العالمي)؟
في الغالبية العظمى من الحالات ، يكون هذا هو الأخير.
2) فلاش الانتباه
هذه طريقة سريعة وفعالة للذاكرة تحتفظ بدقة آليات الانتباه التقليدية ، أي أنها تستخدم اهتماما عالميا ولكن بكفاءة.
تدور الفكرة برمتها حول تحسين حركة البيانات داخل ذاكرة GPU.
دعونا نفهم!

بعض تفاصيل الخلفية:
- الخيط هو أصغر وحدة تنفيذ.
- عدة خيوط تشكل كتلة.
أيضًا:
- تشترك مؤشرات الترابط في كتلة في ذاكرة سريعة (ولكنها نادرة) تسمى SRAM.
- تشترك جميع الكتل في ذاكرة عالمية تسمى HBM (وفيرة ولكنها بطيئة).
تحقق من هذا 👇

يحرك الانتباه المصفوفات الكبيرة بين SRAM و HBM:
لحساب QK:
- توزيع المصفوفات على الخيوط
- الحوسبة، و
- أرسل المنتج إلى HBM
لحساب softmax:
- توزيع المنتج على المواضيع
- الحوسبة، و
- إرسال الإخراج إلى HBM
كرر لجميع الطبقات.
تحقق من هذا 👇

يتضمن انتباه الفلاش تحسينات على مستوى الأجهزة حيث يستخدم SRAM لتخزين النتائج الوسيطة مؤقتا.
بهذه الطريقة ، يقلل من الحركات الزائدة عن الحاجة ، مما يوفر سرعة تصل إلى 7.6 مرة مقارنة بطرق الانتباه القياسية.
تحقق من هذا 👇

98.94K
الأفضل
المُتصدِّرة
التطبيقات المفضلة