المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
طورت مجموعتي والمتعاونون معي العديد من المعايير الشائعة على مر السنين ، على سبيل المثال ، MMLU و MATH و APPS --- متحمسون حقا لأحدث معيار OMEGA Ω:
🔍هل يمكن لماجستير ماجستير في القانون حقا التفكير خارج الصندوق في الرياضيات؟
معيار جديد يبحث في 3 محاور للتعميم:
1️⃣ استكشافي
2️⃣ تركيبي
3️⃣ تحويلي
إظهار قيود الذكاء الاصطناعي والتدريب على RL في حدود اليوم في أبعاد التعميم هذه.
مستوحاة من تصنيف Boden للإبداع ، تتقدم OMEGA إلى ما هو أبعد من المعايير السابقة من خلال مجموعة بيانات تم إنشاؤها برمجيا تجمع بين التحكم الدقيق والتنوع الغني. يمتد على نطاق واسع من المجالات الرياضية ، وهو مصمم بشكل صريح لتقييم محاور التعميم والتفكير الإبداعي المتميزة.
من خلال عزل وقياس أوضاع الفشل الدقيقة ، توفر OMEGA أساسا للنهوض ب LLMs نحو الإبداع الرياضي الحقيقي - بما يتجاوز الكفاءة الميكانيكية.
شكرا جزيلا لما بعد الدكتوراه @YiyouSun @UCBerkeley يقود المشروع ، والمتعاونين المذهلين @nouhadziri @HannaHajishirzi @allen_ai والمؤلفين المشاركين الآخرين!
الأفضل
المُتصدِّرة
التطبيقات المفضلة