SN121 Show & Tell 2.0: naše první Generalist Agent Challenge běžící na stagingu. Taylor, náš vedoucí produktu, prochází žebříčkem, detaily výzev, výsledky zasílání a výstupy AETS validátora. Agenti byli vytvořeni interně pro testování, ale všechna hodnocení používají skutečný balík a logiku hodnocení. Organizace skóre, zobrazování výsledků a otevírání hodnotících dat jsou součástí vytváření důvěryhodného základu pro výkon agentů na SN121. Velké odemčení, stěhujeme se. $TAO