MiniCPM4 Edge-serien - 0,5B och 8B varianter | 8T/1T-token - Träningsbar gles InfLLM-v2 uppmärksamhet → varje token tar hand om ~5% av andra vid 128K ctx - FP8 pipeline + förutsägelse av flera token; Data för UltraClean/UltraChat-v2 - BitCPM ternär kvant (−1/0/+1, ~90% viktfall), Eagle spekulativa huvuden utkast framåt för snabb avkodning (vLLM / FRSpec) - Jetson AGX Orin: ~7× snabbare än Qwen3-8B, stark 128K "nål-i-höstack"-hämtning - Apache-2.0 TÄNK SMOL HF: TR: