يقوم RLAD (التعلم المعزز مع التجريد والخصم) بتدريب النماذج عبر RL باستخدام إعداد 2 لاعب: ▪️ مولد التجريد - يقترح "تلميحات تفكير" قصيرة بلغة طبيعية (التجريدات) تلخص الحقائق والاستراتيجيات الرئيسية. ▪️ مولد الحلول - يستخدمها لحل المشكلات. تفصل هذه الطريقة "كيفية التفكير" عن "كيفية الإجابة" ، وتحقق تحسنا ~ 44٪ مقارنة بطرق التفكير القياسية طويلة السلسلة. إليك كيفية عملها: