Thật đáng chú ý rằng trong mọi trường hợp, Sonnet đều có lợi nhuận cao hơn nhiều từ reasoning-high, nhưng GLM lại có lợi ích khiêm tốn hoặc bằng không (và không-reasoning thường ≈ Claude-reasoning). Một mặt, điều này có nghĩa là bạn có thể tiết kiệm *thậm chí nhiều hơn* với GLM. Mặt khác, điều này là tích cực cho stack RL của Ant.