Сегодня мы запускаем InferenceMAX! У нас есть поддержка от Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell. Он работает каждый день на последнем программном обеспечении (vLLM, SGLang и т.д.) на сотнях GPU, $10 миллионов инфраструктуры работает каждый день, создавая реальные LLM Inference бенчмарки. InferenceMAX отвечает на основные вопросы нашего времени с помощью AI Infrastructure. Сколько токенов генерируется на МВт мощности на разных инфраструктурах? Сколько стоит миллион токенов? Какова реальная задержка по сравнению с пропускной способностью? Мы охватываем более 80% развернутых FLOPS по всему миру, охватывая H100, H200, B200, GB200, MI300X, MI325X и MI355X. Скоро мы будем охватывать более 99% с добавлением Google TPUs и Amazon Trainium.
Чтобы было понятно, это была огромная работа технического персонала в SemiAnalysis. Они здесь настоящие звезды. Они сделали что-то, что, я думаю, изменит подход людей к принятию решений о покупке инфраструктуры. Также огромная благодарность Nvidia и AMD, а также их инженерам за бесчисленные часы усилий.
13,03K