🚀هل تساءلت يوما عن كيفية جعل RL تعمل على مهام صعبة مستحيلة حيث pass@k = 0٪؟ 🤔 في عملنا الجديد ، نشارك وصفة RL Grokking: وصفة تدريبية تمكن LLMs من حل مشكلات الترميز التي لم تكن قابلة للحل سابقا! سأكون في #CoLM2025 الأسبوع المقبل سعيد جدا بالدردشة حول هذا الموضوع! نتعمق أيضا في النقاش الساخن: هل RL يشحذ المهارات المكتسبة السابقة أم يمكنه فتح تفكير جديد حقا؟ 🔥🔥 اقرأ المدونة الكاملة هنا: #الذكاء الاصطناعي #RL #NLP #reinforcementlearning #llm