Экспортный контроль оказывает огромное влияние, особенно для моделей на основе MLA. Возьмем K2/2.5 в качестве примера, он уже уменьшил num_heads до 64, но интенсивность вычислений для FP8 KVCache все еще составляет ≈2×2×64=256FLOP/Byte. H20 имеет всего 148TFLOPS BF16 вычислений. Максимальная пропускная способность составляет всего 592GB/s.