在每一個案例中,Sonnet 的收益都遠高於 reasoning-high,但 GLM 的收益卻很有限或為零(而非推理的結果通常與 Claude-reasoning 相近)。一方面,這意味著你可以用 GLM 省下 *更多* 的費用。另一方面,這對 Ant 的 RL 堆疊來說是利好消息。