أنت في مقابلة مع عالم أبحاث في OpenAI. يسأل المحاور: "كيف يمكنك توسيع طول سياق LLM من 2K إلى 128K tokens؟" أنت: "سأقوم بضبط النموذج على المستندات الأطول بسياق 128 كيلوبايت" انتهت المقابلة. إليك ما فاتك:
لا يقتصر توسيع نافذة السياق على المصفوفات الأكبر فقط. في المحول التقليدي ، يؤدي توسيع الرموز المميزة بمقدار 8x إلى زيادة احتياجات الذاكرة بمقدار 64x بسبب التعقيد التربيعي للانتباه. راجع الصورة أدناه! إذن ، كيف ندير ذلك؟ استمر... 👇
1) اهتمام متناثر يحد من حساب الانتباه إلى مجموعة فرعية من الرموز من خلال: - استخدام الاهتمام المحلي (الرموز المميزة لا تهتم إلا بجيرانها). - السماح للنموذج بمعرفة الرموز المميزة التي يجب التركيز عليها. لكن هذا له مقايضة بين التعقيد الحسابي والأداء.
تم استخدام فكرة مماثلة في ModernBERT. → اهتمام عالمي كامل كل طبقة 3 → اهتمام محلي (128 رمزا) بخلاف ذلك نتيجة: - طول تسلسل أكبر 16x - أداء أفضل بكثير - جهاز التشفير الأكثر كفاءة في الذاكرة بسيطة ولكنها قوية. 👇
إليك شرح بديهي مأخوذ من الورقة: تخيل نفسك وأنت تقرأ كتابا. لكل جملة تقرأها ، هل تحتاج إلى أن تكون على دراية كاملة بالحبكة بأكملها لفهم معظمها (الاهتمام العالمي الكامل)؟ أم أن الوعي بالفصل الحالي كاف (الاهتمام المحلي) ، طالما أنك تفكر أحيانا في أهميته بالنسبة للحبكة الرئيسية (الاهتمام العالمي)؟ في الغالبية العظمى من الحالات ، يكون هذا هو الأخير.
2) فلاش الانتباه هذه طريقة سريعة وفعالة للذاكرة تحتفظ بدقة آليات الانتباه التقليدية ، أي أنها تستخدم اهتماما عالميا ولكن بكفاءة. تدور الفكرة برمتها حول تحسين حركة البيانات داخل ذاكرة GPU. دعونا نفهم!
بعض تفاصيل الخلفية: - الخيط هو أصغر وحدة تنفيذ. - عدة خيوط تشكل كتلة. أيضًا: - تشترك مؤشرات الترابط في كتلة في ذاكرة سريعة (ولكنها نادرة) تسمى SRAM. - تشترك جميع الكتل في ذاكرة عالمية تسمى HBM (وفيرة ولكنها بطيئة). تحقق من هذا 👇
يحرك الانتباه المصفوفات الكبيرة بين SRAM و HBM: لحساب QK: - توزيع المصفوفات على الخيوط - الحوسبة، و - أرسل المنتج إلى HBM لحساب softmax: - توزيع المنتج على المواضيع - الحوسبة، و - إرسال الإخراج إلى HBM كرر لجميع الطبقات. تحقق من هذا 👇
يتضمن انتباه الفلاش تحسينات على مستوى الأجهزة حيث يستخدم SRAM لتخزين النتائج الوسيطة مؤقتا. بهذه الطريقة ، يقلل من الحركات الزائدة عن الحاجة ، مما يوفر سرعة تصل إلى 7.6 مرة مقارنة بطرق الانتباه القياسية. تحقق من هذا 👇
‏‎98.94‏K