DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Vientivalvonnalla on valtava vaikutus, erityisesti MLA-pohjaisissa malleissa. Otetaan esimerkiksi K2/2.5, se on jo vähentänyt num_heads 64:ään, mutta FP8 KVCachen laskentaintensiteetti on silti ≈2×2×64=256FLOP/tavu. H20:lla on vain 148TFLOPS BF16 laskenta. Maksimikaistanleveys on vain 592GB/s.

Johtavat

Rankkaus

Suosikit