I dag lanserer vi InferenceMAX! Vi har støtte fra Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Den kjører hver dag på den nyeste programvaren (vLLM, SGLang, etc) på tvers av hundrevis av GPUer, $10 millioner med infrastruktur maler hver dag for å lage virkelige LLM Inference-benchmarks InferenceMAX svarer på de store spørsmålene i vår tid med AI-infrastruktur. Hvor mange tokens genereres per MW kapasitet på forskjellige infrastrukturer? Hvor mye koster en million tokes? Hva er den virkelige avveiningen mellom latens og gjennomstrømning? Vi har dekning av over 80 % av distribuerte FLOPS globalt ved å dekke H100, H200, B200, GB200, MI300X, MI325X og MI355X. Snart vil vi være over 99 % med Google TPU-er og Amazon Trainium som blir lagt til.
For å være tydelig var dette et enormt løft fra det tekniske personalet hos SemiAnalysis. De er de skinnende stjernene her. De gjorde noe som jeg tror vil omforme hvordan folk tar beslutninger om kjøp av infrastruktur. Også stor takk til Nvidia og AMD også, og de konstruerer utallige timer med innsats.
13,03K