Exportkontroll har en enorm påverkan, särskilt för MLA-baserade modeller. Ta K2/2.5 som exempel, den har redan minskat num_heads till 64, men beräkningsintensiteten för FP8 KVCache är fortfarande ≈2×2×64=256FLOP/Byte. H20 har bara 148TFLOPS BF16-beräkning. Maxbandbredden är bara 592GB/s.