Heute starten wir InferenceMAX! Wir haben Unterstützung von Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell. Es läuft jeden Tag mit der neuesten Software (vLLM, SGLang usw.) auf Hunderten von GPUs, $10Ms an Infrastruktur arbeiten jeden Tag, um echte LLM-Inferenzbenchmarks zu erstellen. InferenceMAX beantwortet die großen Fragen unserer Zeit mit AI-Infrastruktur. Wie viele Tokens werden pro MW Kapazität auf verschiedenen Infrastrukturen generiert? Wie viel kostet eine Million Tokens? Was ist der echte Latenz- vs. Durchsatzkompromiss? Wir haben eine Abdeckung von über 80 % der weltweit eingesetzten FLOPS, indem wir H100, H200, B200, GB200, MI300X, MI325X und MI355X abdecken. Bald werden wir über 99 % sein, da Google TPUs und Amazon Trainium hinzugefügt werden.
Um klarzustellen, das war eine immense Leistung des technischen Personals von SemiAnalysis. Sie sind die strahlenden Sterne hier. Sie haben etwas getan, von dem ich denke, dass es die Art und Weise, wie Menschen Entscheidungen über den Kauf von Infrastruktur treffen, umgestalten wird. Auch ein großes Dankeschön an Nvidia und AMD sowie an ihre Ingenieure für unzählige Stunden an Aufwand.
13,08K