MiniCPM4 边缘系列 - 0.5B 和 8B 变体 | 8T/1T 代币 - 可训练的稀疏 InfLLM-v2 注意力 → 每个代币关注约 5% 的其他代币,上下文为 128K - FP8 流水线 + 多代币预测;UltraClean/UltraChat-v2 数据 - BitCPM 三元量化 (−1/0/+1,约 90% 权重下降),Eagle 预测头提前草拟以实现快速解码 (vLLM / FRSpec) - Jetson AGX Orin: 速度约为 Qwen3-8B 的 7 倍,强大的 128K “大海捞针”检索 - Apache‑2.0 𝑻𝑯𝑰𝑵𝑲 𝑺𝑴𝑶𝑳 HF: TR: