Oggi lanciamo InferenceMAX! Abbiamo il supporto di Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell. Funziona ogni giorno con il software più recente (vLLM, SGLang, ecc.) su centinaia di GPU, $10 milioni di infrastruttura lavorano ogni giorno per creare benchmark di inferenza LLM nel mondo reale. InferenceMAX risponde alle principali domande del nostro tempo con l'AI Infrastructure. Quanti Token vengono generati per MW di capacità su diverse infrastrutture? Quanto costa un milione di token? Qual è il vero compromesso tra latenza e throughput? Abbiamo una copertura di oltre l'80% dei FLOPS distribuiti a livello globale coprendo H100, H200, B200, GB200, MI300X, MI325X e MI355X. Presto saremo oltre il 99% con Google TPUs e Amazon Trainium in aggiunta.
Per essere chiari, questo è stato un enorme sforzo da parte del personale tecnico di SemiAnalysis. Loro sono le stelle brillanti qui. Hanno fatto qualcosa che penso cambierà il modo in cui le persone prendono decisioni di acquisto per le infrastrutture. Un enorme grazie anche a Nvidia e AMD, e ai loro ingegneri per le innumerevoli ore di lavoro.
13,06K