Una spiegazione convincente del perché Adam batte SGD è che Adam ottimizza meglio le perdite delle classi rare. Sorprendentemente, il miglioramento di Muon sembra essere dovuto al fatto che Muon ottimizza la coda ancora meglio di Adam. È tutto una questione di coda pesante.