Eine überzeugende Erklärung dafür, warum Adam SGD übertrifft, ist, dass Adam besser darin ist, die Verluste seltener Klassen zu optimieren. Überraschenderweise scheint die Verbesserung von Muon darauf zurückzuführen zu sein, dass Muon den Tail sogar besser optimiert als Adam. Es geht um den schweren Tail.