O controle de exportação tem um enorme impacto, especialmente para modelos baseados em MLA. Pegue o K2/2.5 como exemplo, ele já reduziu num_heads para 64, mas a intensidade de processamento para o FP8 KVCache ainda é ≈2×2×64=256FLOP/Byte. O H20 tem apenas 148TFLOPS de computação BF16. A largura de banda máxima é de apenas 592GB/s.