Серія MiniCPM4 edge - Варіанти 0,5B і 8B | Токени 8T/1T - Розріджена увага InfLLM-v2, що тренується, → кожен токен приділяє увагу ~5% інших при 128 тис. ctx - Пайплайн FP8 + прогнозування мультитокенів; Дані UltraClean/UltraChat-v2 - Тернарний квант BitCPM (−1/0/+1, ~90% падіння ваги), спекулятивні головки Eagle для швидкого декодування (vLLM / FRSpec) - Jetson AGX Orin: ~7× швидше, ніж Qwen3-8B, потужний 128K вилучення «голки в копиці сіна» - Apache-2.0 ПОДУМАЙТЕ ПРО СМОЛ ВЧ: ТР: