Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Moja grupa i współpracownicy opracowali wiele popularnych testów porównawczych na przestrzeni lat, np. MMLU, MATH, APPS --- naprawdę podekscytowani naszym najnowszym benchmarkiem OMEGA Ω:
🔍Czy LLM naprawdę potrafią myśleć nieszablonowo w matematyce?
Nowy benchmark badający 3 osie uogólnienia:
1️⃣ Eksploracyjny
2️⃣ Kompozycyjny
3️⃣ Transformacyjny
pokazując ograniczenia dzisiejszej granicznej sztucznej inteligencji i szkolenia RL w tych wymiarach uogólnienia.
Zainspirowana typologią kreatywności Bodena, OMEGA wykracza poza wcześniejsze testy porównawcze dzięki programowo generowanemu zestawowi danych, który łączy precyzyjną kontrolę z bogatą różnorodnością. Obejmując szeroki zakres dziedzin matematycznych, jest wyraźnie zaprojektowany do oceny różnych osi uogólnienia i kreatywnego rozumowania.
Izolując i kwantyfikując drobnoziarniste tryby awarii, OMEGA stanowi podstawę do rozwoju LLM w kierunku prawdziwej kreatywności matematycznej - wykraczającej poza biegłość mechaniczną.
Ogromne podziękowania dla mojego @YiyouSun @UCBerkeley podoktorskiego prowadzącego projekt oraz niesamowitych współpracowników @nouhadziri @HannaHajishirzi @allen_ai i innych współautorów!
Najlepsze
Ranking
Ulubione