El control de exportaciones tiene un gran impacto, especialmente para los modelos basados en MLA. Tomemos como ejemplo K2/2.5, ya se redujo num_heads a 64, pero la intensidad de cálculo para FP8 KVCache sigue siendo ≈2×2×64=256FLOP/byte. H20 solo tiene 148TFLOPS de cómputo BF16. El ancho de banda máximo es de solo 592GB/s.