Serie MiniCPM4 edge - Varianti 0.5B e 8B | Gettoni 8T/1T - Attenzione InfLLM-v2 sparsa addestrabile → ogni token si occupa di ~5% degli altri a 128K ctx - pipeline FP8 + previsione multi-token; Dati UltraClean/UltraChat-v2 - BitCPM ternary quant (-1/0/+1, ~90% di calo di peso), testine speculative Eagle draft-ahead per la decodifica rapida (vLLM / FRSpec) - Jetson AGX Orin: ~7× più veloce di Qwen3-8B, forte recupero "ago nel pagliaio" a 128K - Apache-2.0 PENSA SMOL HF: TR:
17,01K