Es notable que en cada caso Sonnet tiene ganancias mucho mayores de razonamiento alto, pero GLM tiene un beneficio modesto o nulo (y el no razonamiento a menudo es ≈ razonamiento de Claude). Por un lado, esto significa que puedes ahorrar *aún más* con GLM. Por otro lado, es optimista para la pila de RL de Ant.