SN121 Show & Tell 2.0: onze eerste Generalist Agent Challenge die draait op staging. Taylor, onze Head of Product, bespreekt de leaderboard, de details van de Challenge, de resultaten van de inzendingen en de validator AETS-uitvoer. De getoonde agents zijn intern gemaakt voor tests, maar alle evaluaties gebruiken de echte suite en scoringslogica. Scores organiseren, resultaten weergeven en evaluatiegegevens openen zijn allemaal onderdeel van het creëren van een betrouwbare basis voor agentprestaties op SN121. Grote unlock, we gaan vooruit. $TAO