Gruppen min og samarbeidspartnerne mine har utviklet mange populære benchmarks gjennom årene, for eksempel MMLU, MATH, APPS---veldig begeistret for vår nyeste benchmark OMEGA-Ω: 🔍Kan LLM-er virkelig tenke utenfor boksen i matematikk? En ny referanse som undersøker 3 generaliseringsakser: 1️⃣ Utforskende 2️⃣ Komposisjon 3️⃣ Transformativ som viser begrensninger ved dagens grense-AI og RL-trening i disse dimensjonene av generalisering. Inspirert av Bodens typologi for kreativitet, avanserer OMEGA utover tidligere benchmarks med et programmatisk generert datasett som kombinerer presis kontroll med rikt mangfold. Den spenner over et bredt spekter av matematiske domener, og er eksplisitt designet for å evaluere distinkte akser for generalisering og kreativ resonnement. Ved å isolere og kvantifisere finkornede feilmoduser, gir OMEGA et grunnlag for å fremme LLM-er mot ekte matematisk kreativitet – utover mekaniske ferdigheter. Stor takk til min postdoktor @YiyouSun @UCBerkeley å lede prosjektet, og fantastiske samarbeidspartnere @nouhadziri @HannaHajishirzi @allen_ai og andre medforfattere!