Eksportkontroll har stor betydning, spesielt for MLA-baserte modeller. Ta K2/2.5 som eksempel, den har allerede redusert num_heads til 64, men beregningsintensiteten for FP8 KVCache er fortsatt ≈2×2×64=256FLOP/Byte. H20 har bare 148TFLOPS BF16-beregning. Maksimal båndbredde er bare 592GB/s.