Seria MiniCPM4 edge - Variante 0.5B și 8B | Jetoane 8T/1T - Atenție InfLLM-v2 rară antrenabilă → fiecare jeton se ocupă de ~5% din celelalte la 128K ctx - FP8 pipeline + predicție multi-token; Date UltraClean/UltraChat-v2 - BitCPM ternar cantitativ (−1/0/+1, ~90% scădere a greutății), Eagle speculativ se descurcă înainte pentru decodare rapidă (vLLM / FRSpec) - Jetson AGX Orin: ~7× mai rapid decât Qwen3-8B, recuperare puternică de 128K "ac în carul cu fân" - Apache-2.0 GÂNDEȘTE-TE SMOL HF: TR: