طورت مجموعتي والمتعاونون معي العديد من المعايير الشائعة على مر السنين ، على سبيل المثال ، MMLU و MATH و APPS --- متحمسون حقا لأحدث معيار OMEGA Ω: 🔍هل يمكن لماجستير ماجستير في القانون حقا التفكير خارج الصندوق في الرياضيات؟ معيار جديد يبحث في 3 محاور للتعميم: 1️⃣ استكشافي 2️⃣ تركيبي 3️⃣ تحويلي إظهار قيود الذكاء الاصطناعي والتدريب على RL في حدود اليوم في أبعاد التعميم هذه. مستوحاة من تصنيف Boden للإبداع ، تتقدم OMEGA إلى ما هو أبعد من المعايير السابقة من خلال مجموعة بيانات تم إنشاؤها برمجيا تجمع بين التحكم الدقيق والتنوع الغني. يمتد على نطاق واسع من المجالات الرياضية ، وهو مصمم بشكل صريح لتقييم محاور التعميم والتفكير الإبداعي المتميزة. من خلال عزل وقياس أوضاع الفشل الدقيقة ، توفر OMEGA أساسا للنهوض ب LLMs نحو الإبداع الرياضي الحقيقي - بما يتجاوز الكفاءة الميكانيكية. شكرا جزيلا لما بعد الدكتوراه @YiyouSun @UCBerkeley يقود المشروع ، والمتعاونين المذهلين @nouhadziri @HannaHajishirzi @allen_ai والمؤلفين المشاركين الآخرين!