Kontrola exportu má obrovský dopad, zejména u modelů založených na MLA. Vezměme si například K2/2.5, který už snížil num_heads na 64, ale výpočetní intenzita pro FP8 KVCache je stále ≈2×2×64=256 FLOP/bajt. H20 má jen 148TFLOPS výpočetní výkon BF16. Maximální šířka pásma je pouze 592GB/s.