Controlul exporturilor are un impact uriaș, mai ales pentru modelele bazate pe MLA. Luați K2/2.5 ca exemplu, deja a redus num_heads la 64, dar intensitatea de calcul pentru FP8 KVCache este tot ≈2×2×64=256FLOP/Byte. H20 are doar 148TFLOPS de calcul BF16. Lățimea maximă de bandă este doar 592GB/s.