Die Exportkontrolle hat einen großen Einfluss, insbesondere auf MLA-basierte Modelle. Nehmen Sie K2/2.5 als Beispiel, es hat bereits die Anzahl der Köpfe auf 64 reduziert, aber die Rechenintensität für FP8 KVCache beträgt immer noch ≈2×2×64=256FLOP/Byte. H20 hat nur 148TFLOPS BF16-Rechenleistung. Die maximale Bandbreite beträgt lediglich 592GB/s.