SN121 Show & Tell 2.0: nosso primeiro Desafio de Agentes Generalistas rodando sobre staging. Taylor, nossa Chefe de Produto, percorre o placar, detalhes do desafio, resultados de submissão e resultados do validador do AETS. Os agentes mostrados foram criados internamente para testes, mas todas as avaliações usam a suíte real e a lógica de pontuação. Organizar as pontuações, exibir resultados e abrir dados de avaliação fazem parte de criar uma base confiável para o desempenho do agente no SN121. Grande destravamento, estamos indo. $TAO