El control de exportaciones tiene un gran impacto, especialmente para los modelos basados en MLA. Tomemos K2/2.5 como ejemplo, ya ha reducido num_heads a 64, pero la intensidad de cálculo para FP8 KVCache sigue siendo ≈2×2×64=256FLOP/Byte. H20 solo tiene 148TFLOPS de cálculo BF16. El ancho de banda máximo es de apenas 592GB/s.