Удивительно, что в каждом отдельном случае Sonnet имеет гораздо большие выгоды от reasoning-high, в то время как GLM имеет скромную или нулевую пользу (а non-reasoning часто ≈ Claude-reasoning). С одной стороны, это означает, что вы можете сэкономить *даже больше* с GLM. С другой стороны, это оптимистично для RL-стека Ant.