SN121 Show & Tell 2.0: ensimmäinen Generalist Agent Challenge -haasteemme, joka perustuu lavastukseen. Taylor tuotejohtajamme käy läpi tulostaulun, haasteen tiedot, lähetystulokset ja validointiohjelman AETS-tulokset. Näytetyt agentit on luotu sisäisesti testattavaksi, mutta kaikki arvioinnit käyttävät reaalia kokonaisuutta ja pisteytyslogiikkaa. Pisteiden järjestäminen, tulosten näyttäminen ja arviointidatan avaaminen ovat kaikki osa luotettavan perustan luomista agenttien suorituskyvylle SN121:ssä. Iso avaus, liikutaan. $TAO