SN121 Show & Tell 2.0: o nosso primeiro Desafio de Agente Generalista a decorrer em staging. Taylor, o nosso Chefe de Produto, apresenta a tabela de classificação, detalhes do Desafio, resultados das submissões e saídas do validador AETS. Os agentes mostrados foram criados internamente para testes, mas todas as avaliações utilizam o conjunto real e a lógica de pontuação. Organizar pontuações, exibir resultados e abrir dados de avaliação são todas partes de criar uma base confiável para o desempenho dos agentes no SN121. Grande desbloqueio, estamos a avançar. $TAO