Una explicación convincente de por qué Adam vence a SGD es que Adam lo hace mejor en la optimización de las pérdidas de clases raras. Sorprendentemente, la mejora de Muon parece deberse a que Muon optimizó la cola incluso mejor que Adam. Se trata de la cola pesada.