Hoje estamos a lançar o InferenceMAX! Temos apoio da Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Funciona todos os dias com o software mais recente (vLLM, SGLang, etc) em centenas de GPUs, $10Ms de infraestrutura estão a funcionar todos os dias para criar benchmarks de inferência LLM do mundo real. O InferenceMAX responde às principais questões do nosso tempo com Infraestrutura de IA. Quantos Tokens são gerados por MW de capacidade em diferentes infraestruturas? Quanto custa um milhão de tokens? Qual é a verdadeira troca entre latência e throughput? Temos cobertura de mais de 80% dos FLOPS implantados globalmente, cobrindo H100, H200, B200, GB200, MI300X, MI325X e MI355X. Em breve estaremos acima de 99% com Google TPUs e Amazon Trainium a serem adicionados.
Para ser claro, isto foi um enorme esforço da equipe técnica da SemiAnalysis. Eles são as estrelas brilhantes aqui. Fizeram algo que eu acho que vai remodelar a forma como as pessoas tomam decisões de compra de infraestrutura. Além disso, um enorme agradecimento à Nvidia e à AMD também, e aos seus engenheiros por inúmeras horas de esforço.
13,03K