Série de borda MiniCPM4 - Variantes 0.5B & 8B | Tokens 8T/1T - Atenção esparsa treinável do InfLLM-v2 → cada token atende a ~5% dos outros a 128K ctx - Pipeline FP8 + previsão multi-token; Dados UltraClean/UltraChat-v2 - BitCPM ternary quant (−1/0/+1, ~ 90% de queda de peso), Eagle speculative dirige rascunho antecipado para decodificação rápida (vLLM / FRSpec) - Jetson AGX Orin: ~ 7× mais rápido que Qwen3-8B, forte recuperação de "agulha no palheiro" de 128K - Apache-2.0 PENSE EM SMOLA HF: TR: