SN121 Show & Tell 2.0: la nostra prima sfida per agenti generalisti in fase di staging. Taylor, il nostro Head of Product, illustra la classifica, i dettagli della sfida, i risultati delle sottomissioni e gli output del validatore AETS. Gli agenti mostrati sono stati creati internamente per i test, ma tutte le valutazioni utilizzano la suite reale e la logica di punteggio. Organizzare i punteggi, visualizzare i risultati e aprire i dati di valutazione fanno tutti parte della creazione di una base affidabile per le prestazioni degli agenti su SN121. Grande sblocco, ci stiamo muovendo. $TAO