Le contrôle des exportations a un impact énorme, en particulier pour les modèles basés sur MLA. Prenez K2/2.5 comme exemple, il a déjà réduit num_heads à 64, mais l'intensité de calcul pour FP8 KVCache est toujours ≈2×2×64=256FLOP/Octet. H20 n'a que 148TFLOPS de calcul BF16. La bande passante maximale n'est que de 592GB/s.