Dziś uruchamiamy InferenceMAX! Mamy wsparcie od Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell. Działa codziennie na najnowszym oprogramowaniu (vLLM, SGLang itd.) na setkach GPU, $10M infrastruktury działa codziennie, aby stworzyć rzeczywiste benchmarki LLM Inference. InferenceMAX odpowiada na najważniejsze pytania naszych czasów z AI Infrastructure. Ile tokenów generuje się na MW pojemności na różnych infrastrukturach? Ile kosztuje milion tokenów? Jaki jest rzeczywisty kompromis między opóźnieniem a przepustowością? Mamy pokrycie ponad 80% wdrożonych FLOPS na całym świecie, obejmując H100, H200, B200, GB200, MI300X, MI325X i MI355X. Wkrótce przekroczymy 99% z Google TPU i Amazon Trainium, które zostaną dodane.
Aby było jasne, to było ogromne wsparcie ze strony zespołu technicznego w SemiAnalysis. Oni są tutaj gwiazdami. Zrobili coś, co moim zdaniem zmieni sposób, w jaki ludzie podejmują decyzje dotyczące zakupu infrastruktury. Również ogromne podziękowania dla Nvidii i AMD, a także ich inżynierów za niezliczone godziny wysiłku.
13,1K