¡Hoy lanzamos InferenceMAX!
Contamos con el apoyo de Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell
Se ejecuta todos los días en el software más reciente (vLLM, SGLang, etc.) en cientos de GPU, $ 10Ms de infraestructura ronronea todos los días para crear puntos de referencia de inferencia LLM del mundo real
InferenceMAX responde a las principales preguntas de nuestro tiempo con AI Infrastructure.
¿Cuántos tokens se generan por MW de capacidad en diferentes infraestructuras?
¿Cuánto cuesta un millón de caladas?
¿Cuál es la compensación real entre latencia y rendimiento?
Tenemos una cobertura de más del 80% de los FLOPS desplegados a nivel mundial al cubrir H100, H200, B200, GB200, MI300X, MI325X y MI355X.
Pronto superaremos el 99% con la adición de TPU de Google y Amazon Trainium.