Kiểm soát xuất khẩu có ảnh hưởng lớn, đặc biệt đối với các mô hình dựa trên MLA. Lấy K2/2.5 làm ví dụ, nó đã giảm số đầu (num_heads) xuống còn 64, nhưng cường độ tính toán cho FP8 KVCache vẫn ≈2×2×64=256FLOP/Byte. H20 chỉ có 148TFLOPS tính toán BF16. Băng thông tối đa chỉ là 592GB/s.