Una explicación convincente de por qué Adam supera a SGD es que Adam optimiza mejor las pérdidas de clases raras. Algo sorprendente, la mejora de Muon parece deberse a que Muon optimiza la cola incluso mejor que Adam. Todo se trata de la cola pesada.