Ryhmäni ja yhteistyökumppanini ovat kehittäneet vuosien varrella monia suosittuja vertailuarvoja, kuten MMLU, MATH, APPS---todella innoissaan uusimmasta OMEGA-vertailustamme Ω: 🔍Voivatko LLM:t todella ajatella matematiikassa laatikon ulkopuolella? Uusi vertailuarvo, joka luotaa 3 yleistysakselia: 1️⃣ Tutkiva 2️⃣ Sävellys 3️⃣ Transformatiivinen osoittaa nykypäivän eturintaman tekoälyn ja RL-koulutuksen rajoitukset näissä yleistyksen ulottuvuuksissa. Bodenin luovuuden typologian innoittamana OMEGA ylittää aiemmat vertailuarvot ohjelmallisesti luodulla tietojoukolla, jossa yhdistyvät tarkka hallinta ja rikas monimuotoisuus. Se kattaa laajan valikoiman matemaattisia alueita, ja se on nimenomaan suunniteltu arvioimaan yleistyksen ja luovan päättelyn erillisiä akseleita. Eristäytymällä ja kvantifioimalla hienorakeisia vikatiloja OMEGA tarjoaa perustan LLM:n edistämiselle kohti aitoa matemaattista luovuutta – mekaanisen osaamisen lisäksi. Valtavat kiitokset postdoc-@YiyouSun @UCBerkeley projektia johtaneille ja mahtaville yhteistyökumppaneille @nouhadziri @HannaHajishirzi @allen_ai ja muille kirjoittajille!