今天我們推出 InferenceMAX! 我們得到了 Nvidia、AMD、OpenAI、Microsoft、Pytorch、SGLang、vLLM、Oracle、CoreWeave、TogetherAI、Nebius、Crusoe、HPE、SuperMicro、Dell 的支持。 它每天在最新的軟體(vLLM、SGLang 等)上運行,數百個 GPU 每天運行著價值數百萬美元的基礎設施,以創建真實世界的 LLM 推理基準。 InferenceMAX 用 AI 基礎設施回答我們時代的主要問題。 在不同的基礎設施上,每兆瓦的容量生成多少個 Token? 一百萬個 Token 的成本是多少? 實際的延遲與吞吐量的權衡是什麼? 我們覆蓋了全球超過 80% 的部署 FLOPS,涵蓋了 H100、H200、B200、GB200、MI300X、MI325X 和 MI355X。 不久我們將通過添加 Google TPU 和 Amazon Trainium 超過 99%。
為了澄清,這是SemiAnalysis的技術團隊付出的巨大努力。 他們是這裡的閃亮之星。 他們做了一件我認為將重塑人們做出基礎設施購買決策的事情。 同時也要感謝Nvidia和AMD,以及他們的工程師們無數小時的努力。
13.09K