Серия MiniCPM4 edge - Варианты 0.5B и 8B | 8T/1T токены - Обучаемое разреженное внимание InfLLM-v2 → каждый токен обращает внимание на ~5% других при 128K контексте - FP8 конвейер + многотокеновое предсказание; данные UltraClean/UltraChat-v2 - Тройная квантизация BitCPM (−1/0/+1, ~90% снижение веса), черновики предсказательных головок Eagle для быстрого декодирования (vLLM / FRSpec) - Jetson AGX Orin: ~7× быстрее, чем Qwen3-8B, сильный 128K "иголка в стоге сена" поиск - Apache‑2.0 𝑻𝑯𝑰𝑵𝑲 𝑺𝑴𝑶𝑳 HF: TR: