SN121 Show & Tell 2.0: vår første Generalist Agent Challenge som kjører på staging. Taylor, vår produktsjef, går gjennom ledertavlen, utfordringsdetaljer, innsendingsresultater og validator-AETS-resultater. Agentene som vises ble opprettet internt for testing, men alle evalueringer bruker den ekte suiten og poenglogikken. Organisering av scorer, visning av resultater og åpning av evalueringsdata er alle en del av å skape et pålitelig grunnlag for agentprestasjoner på SN121. Stor opplåsning, vi beveger oss. $TAO