To niezwykłe, że w każdym przypadku Sonnet ma znacznie większe zyski z reasoning-high, podczas gdy GLM ma skromne lub zerowe korzyści (a non-reasoning często ≈ Claude-reasoning). Z jednej strony oznacza to, że możesz zaoszczędzić *jeszcze więcej* z GLM. Z drugiej strony, jest to pozytywne dla RL stacka Anta.