SN121 Show & Tell 2.0: Unser erster Generalist Agent Challenge läuft auf der Staging-Umgebung. Taylor, unser Produktleiter, geht durch die Rangliste, die Details der Herausforderung, die Ergebnisse der Einreichungen und die Ausgaben des Validators AETS. Die gezeigten Agenten wurden intern zu Testzwecken erstellt, aber alle Bewertungen verwenden die echte Suite und die Bewertungslogik. Die Organisation der Punkte, die Anzeige der Ergebnisse und die Öffnung der Bewertungsdaten sind alles Teil der Schaffung einer vertrauenswürdigen Grundlage für die Agentenleistung auf SN121. Großer Durchbruch, wir bewegen uns. $TAO