O controlo de exportação tem um grande impacto, especialmente para modelos baseados em MLA. Tomemos K2/2.5 como exemplo, já reduziu num_heads para 64, mas a intensidade de computação para FP8 KVCache ainda é ≈2×2×64=256FLOP/Byte. H20 tem apenas 148TFLOPS de computação BF16. A largura de banda máxima é apenas 592GB/s.