在每一个案例中,Sonnet的收益都远高于reasoning-high,而GLM的收益则很小或为零(而non-reasoning通常≈ Claude-reasoning)。一方面,这意味着你可以用GLM节省*更多*。另一方面,这对Ant的RL堆栈是个利好消息。