Vientivalvonnalla on valtava vaikutus, erityisesti MLA-pohjaisissa malleissa. Otetaan esimerkiksi K2/2.5, se on jo vähentänyt num_heads 64:ään, mutta FP8 KVCachen laskentaintensiteetti on silti ≈2×2×64=256FLOP/tavu. H20:lla on vain 148TFLOPS BF16 laskenta. Maksimikaistanleveys on vain 592GB/s.