SN121 Show & Tell 2.0: prima noastră provocare Generalist Agent care rulează pe staging. Taylor, Șeful nostru de Produs, parcurge clasamentul, detaliile provocărilor, rezultatele trimiterii și rezultatele validatorului AETS. Agenții prezentați au fost creați intern pentru testare, dar toate evaluările folosesc pachetul real și logica de punctare. Organizarea scorurilor, afișarea rezultatelor și deschiderea datelor de evaluare fac toate parte din crearea unei baze de încredere pentru performanța agentului pe SN121. Mare deblocare, ne mișcăm. $TAO