Одно из убедительных объяснений того, почему Adam превосходит SGD, заключается в том, что Adam лучше оптимизирует потери редких классов. Несколько неожиданно, что улучшение Muon, похоже, связано с тем, что Muon оптимизирует хвост даже лучше, чем Adam. Дело всё в тяжелом хвосте.