Moja grupa i współpracownicy opracowali wiele popularnych testów porównawczych na przestrzeni lat, np. MMLU, MATH, APPS --- naprawdę podekscytowani naszym najnowszym benchmarkiem OMEGA Ω: 🔍Czy LLM naprawdę potrafią myśleć nieszablonowo w matematyce? Nowy benchmark badający 3 osie uogólnienia: 1️⃣ Eksploracyjny 2️⃣ Kompozycyjny 3️⃣ Transformacyjny pokazując ograniczenia dzisiejszej granicznej sztucznej inteligencji i szkolenia RL w tych wymiarach uogólnienia. Zainspirowana typologią kreatywności Bodena, OMEGA wykracza poza wcześniejsze testy porównawcze dzięki programowo generowanemu zestawowi danych, który łączy precyzyjną kontrolę z bogatą różnorodnością. Obejmując szeroki zakres dziedzin matematycznych, jest wyraźnie zaprojektowany do oceny różnych osi uogólnienia i kreatywnego rozumowania. Izolując i kwantyfikując drobnoziarniste tryby awarii, OMEGA stanowi podstawę do rozwoju LLM w kierunku prawdziwej kreatywności matematycznej - wykraczającej poza biegłość mechaniczną. Ogromne podziękowania dla mojego @YiyouSun @UCBerkeley podoktorskiego prowadzącego projekt oraz niesamowitych współpracowników @nouhadziri @HannaHajishirzi @allen_ai i innych współautorów!