Astăzi lansăm InferenceMAX! Avem suport de la Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Rulează în fiecare zi pe cel mai recent software (vLLM, SGLang etc.) pe sute de GPU-uri, infrastructură de 10 milioane de dolari toarce în fiecare zi pentru a crea benchmark-uri LLM Inference din lumea reală InferenceMAX răspunde la întrebările majore ale vremurilor noastre cu AI Infrastructure. Câte jetoane sunt generate pe MW de capacitate pe diferite infrastructuri? Cât costă un milion de fumuri? Care este compromisul real între latență și debit? Acoperim peste 80% din FLOPS implementate la nivel global, acoperind H100, H200, B200, GB200, MI300X, MI325X și MI355X. În curând vom fi peste 99% cu Google TPU-uri și Amazon Trainium adăugate.
Pentru a fi clar, acesta a fost un impuls imens din partea personalului tehnic de la SemiAnalysis. Ei sunt stelele strălucitoare aici. Au făcut ceva care cred că va remodela modul în care oamenii iau decizii de cumpărare a infrastructurii. De asemenea, mulțumiri uriașe Nvidia și AMD, care au proiectat nenumărate ore de efort.
13,11K