Kontrola eksportu ma ogromny wpływ, szczególnie w przypadku modeli opartych na MLA. Weź K2/2.5 jako przykład, już zmniejszył num_heads do 64, ale intensywność obliczeniowa dla FP8 KVCache wciąż wynosi ≈2×2×64=256FLOP/Byte. H20 ma tylko 148TFLOPS BF16 obliczeń. Maksymalna przepustowość wynosi zaledwie 592GB/s.