出口管制影响巨大,尤其是对于基于MLA的模型。 以K2/2.5为例,它已经将num_heads减少到64,但FP8 KVCache的计算强度仍然是≈2×2×64=256FLOP/Byte。 H20只有148TFLOPS的BF16计算能力。 最大带宽仅为592GB/s。