Fwiw, pelo que eu pude dizer, a oai disse que sua api tem 1,3 quatrilhão de tokens processados, mas sua api é apenas 1/3-1/4 dos tokens que eles processam e a maioria está no aplicativo ChatGPT, então pode ser até 5 quatrilhões de tokens que eles processam, não está claro na minha opinião.
O Google passou de ~ 100T (fevereiro de 2025) para 1300T tokens por mês, ou seja, um aumento de 1200% em apenas 8 meses. E algumas pessoas pensaram que o Google perdeu a corrida da IA. Gemini 3.0 ainda não foi lançado 🤣
Hoje estamos lançando o InferenceMAX!
Temos suporte da Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell
Ele é executado todos os dias no software mais recente (vLLM, SGLang, etc) em centenas de GPUs, US $ 10 milhões de infraestrutura estão ronronando todos os dias para criar benchmarks de inferência LLM do mundo real
O InferenceMAX responde às principais questões de nossos tempos com a infraestrutura de IA.
Quantos Tokens são gerados por MW de capacidade em diferentes infraestruturas?
Quanto custa um milhão de tragados?
Qual é a verdadeira relação latência versus taxa de transferência?
Temos cobertura de mais de 80% dos FLOPS implantados globalmente, cobrindo H100, H200, B200, GB200, MI300X, MI325X e MI355X.
Em breve, estaremos acima de 99% com os TPUs do Google e o Amazon Trainium sendo adicionados.