Es notable que en todos los casos Sonnet tenga ganancias mucho mayores con el razonamiento alto, pero GLM tiene un beneficio modesto o nulo (y el no razonamiento a menudo se ≈ razonamiento de Claude). Por un lado, esto significa que puede ahorrar *aún más* con GLM. Por otro lado, alcista para la pila de RL de Ant.