İhracat kontrolü, özellikle MLA tabanlı modeller için büyük bir etkiye sahip. Örneğin K2/2.5'i ele alalım, num_heads zaten 64'e düşürmüştü, ancak FP8 KVCache için hesaplama yoğunluğu hâlâ ≈2×2×64=256FLOP/Bayt. H20 sadece 148TFLOPS BF16 hesaplamaya sahip. Maksimum bant genişliği sadece 592GB/s.