Moje skupina a spolupracovníci v průběhu let vyvinuli mnoho populárních benchmarků, např. MMLU, MATH, APPS---jsme nadšeni z našeho nejnovějšího benchmarku OMEGA Ω: 🔍Mohou LLM skutečně myslet mimo rámec v matematice? Nový benchmark zkoumající 3 osy zobecnění: 1️⃣ Průzkumné 2️⃣ Kompoziční 3️⃣ Transformační což ukazuje omezení dnešní hraniční umělé inteligence a trénování RL v těchto dimenzích zobecnění. Inspirována Bodenovou typologií kreativity, OMEGA překračuje předchozí benchmarky s programově generovanou datovou sadou, která kombinuje přesné ovládání s bohatou rozmanitostí. Pokrývá širokou škálu matematických domén a je výslovně navržen tak, aby hodnotil odlišné osy zobecnění a tvůrčího uvažování. Izolací a kvantifikací jemně odstupňovaných způsobů selhání poskytuje OMEGA základ pro posun LLM směrem ke skutečné matematické kreativitě – za hranicemi mechanických znalostí. Obrovské díky mému postdoktorandovi @YiyouSun @UCBerkeley vedení projektu a úžasným spolupracovníkům @nouhadziri @HannaHajishirzi @allen_ai a dalším spoluautorům!