Min grupp och mina samarbetspartners har utvecklat många populära benchmarks genom åren, t.ex. MMLU, MATH, APPS--- verkligen exalterade över vårt senaste riktmärke OMEGA Ω: 🔍Kan LLM:er verkligen tänka utanför boxen i matematik? Ett nytt riktmärke som undersöker 3 generaliseringsaxlar: 1️⃣ Utforskande 2️⃣ Sammansättning 3️⃣ Transformativ visa på begränsningar i dagens frontier AI och RL-träning i dessa dimensioner av generalisering. Inspirerad av Bodens typologi av kreativitet går OMEGA vidare än tidigare riktmärken med en programmatiskt genererad datauppsättning som kombinerar exakt kontroll med rik mångfald. Den spänner över ett brett spektrum av matematiska domäner och är uttryckligen utformad för att utvärdera distinkta axlar av generalisering och kreativt resonemang. Genom att isolera och kvantifiera finkorniga fellägen ger OMEGA en grund för att utveckla LLM:er mot genuin matematisk kreativitet - bortom mekanisk skicklighet. Stort tack till min postdoktor @YiyouSun @UCBerkeley som ledde projektet, och fantastiska samarbetspartners @nouhadziri @HannaHajishirzi @allen_ai och andra medförfattare!