Il controllo delle esportazioni ha un enorme impatto, specialmente per i modelli basati su MLA. Prendiamo K2/2.5 come esempio, ha già ridotto num_heads a 64, ma l'intensità di calcolo per FP8 KVCache è ancora ≈2×2×64=256FLOP/Byte. H20 ha solo 148TFLOPS di calcolo BF16. La larghezza di banda massima è di appena 592GB/s.