Hoje estamos lançando o InferenceMAX! Temos suporte da Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Ele é executado todos os dias no software mais recente (vLLM, SGLang, etc) em centenas de GPUs, US $ 10 milhões de infraestrutura estão ronronando todos os dias para criar benchmarks de inferência LLM do mundo real O InferenceMAX responde às principais questões de nossos tempos com a infraestrutura de IA. Quantos Tokens são gerados por MW de capacidade em diferentes infraestruturas? Quanto custa um milhão de tragados? Qual é a verdadeira relação latência versus taxa de transferência? Temos cobertura de mais de 80% dos FLOPS implantados globalmente, cobrindo H100, H200, B200, GB200, MI300X, MI325X e MI355X. Em breve, estaremos acima de 99% com os TPUs do Google e o Amazon Trainium sendo adicionados.
Para ser claro, este foi um imenso impulso da equipe técnica da SemiAnalysis. Eles são as estrelas brilhantes aqui. Eles fizeram algo que eu acho que vai remodelar a forma como as pessoas tomam decisões de compra de infraestrutura. Também muito obrigado à Nvidia e à AMD, e eles projetam incontáveis horas de esforço.
13,02K