輸出管理は特にMLAベースのモデルにおいて大きな影響を与えます。 例えばK2/2.5はすでにnum_headsを64に減らしましたが、FP8のKVCacheの計算強度は依然として≈2×2×64=256FLOP/バイトです。 H20はBF16の計算が148TFLOPS(平均点数)しかありません。 最大帯域幅はわずか592GB/sです。