Kontrol ekspor memiliki dampak yang sangat besar, terutama untuk model berbasis MLA. Ambil K2/2.5 sebagai contoh, itu sudah mengurangi num_heads menjadi 64, tetapi intensitas komputasi untuk FP8 KVCache masih ≈2×2×64=256FLOP/Byte. H20 hanya memiliki komputasi 148TFLOPS BF16. Bandwidth maksimum hanya 592GB/s.