Série de bordas MiniCPM4 - Variantes 0.5B & 8B | Tokens 8T/1T - Atenção esparsa treinável InfLLM-v2 → cada token atende a ~5% dos outros em 128K ctx - Pipeline FP8 + previsão multi-token; Dados UltraClean/UltraChat-v2 - BitCPM ternary quant (−1/0/+1, ~90% de queda de peso), cabeças especulativas Eagle draft-ahead para decodificação rápida (vLLM / FRSpec) - Jetson AGX Orin: ~7× mais rápido que o Qwen3-8B, recuperação forte de 128K "agulha no palheiro" - Apache-2.0 PENSE SMOL HF: TR: