出口管制有很大的影響,特別是對於基於MLA的模型。 以K2/2.5為例,它已經將num_heads減少到64,但FP8 KVCache的計算強度仍然是≈2×2×64=256FLOP/Byte。 H20只有148TFLOPS的BF16計算能力。 最大帶寬僅為592GB/s。