Експортний контроль має величезний вплив, особливо для моделей на основі MLA. Візьмемо K2/2.5 як приклад: він уже зменшив num_heads до 64, але інтенсивність обчислень для FP8 KVCache все ще ≈2×2×64=256FLOP/байт. H20 має лише 148TFLOPS BF16 обчислення. Максимальна пропускна здатність становить лише 592 ГБ/с.