Hari ini kami meluncurkan InferenceMAX! Kami mendapat dukungan dari Nvidia, AMD, OpenAI, Microsoft, Pytorch, SGLang, vLLM, Oracle, CoreWeave, TogetherAI, Nebius, Crusoe, HPE, SuperMicro, Dell Ini berjalan setiap hari pada perangkat lunak terbaru (vLLM, SGLang, dll) di ratusan GPU, infrastruktur senilai $10 juta mendengkur setiap hari untuk membuat tolok ukur LLM Inferensi dunia nyata InferenceMAX menjawab pertanyaan utama zaman kita dengan Infrastruktur AI. Berapa banyak Token yang dihasilkan per MW kapasitas pada infrastruktur yang berbeda? Berapa biaya satu juta tok? Apa tradeoff latensi vs throughput sebenarnya? Kami memiliki cakupan lebih dari 80% FLOPS yang diterapkan secara global dengan mencakup H100, H200, B200, GB200, MI300X, MI325X, dan MI355X. Segera kami akan lebih dari 99% dengan Google TPU dan Amazon Trainium ditambahkan.
Untuk lebih jelasnya, ini adalah dorongan besar dari staf teknis di SemiAnalysis. Mereka adalah bintang yang bersinar di sini. Mereka melakukan sesuatu yang menurut saya akan membentuk kembali cara orang membuat keputusan pembelian infrastruktur. Juga terima kasih banyak kepada Nvidia dan AMD juga, dan mereka merekayasa upaya berjam-jam yang tak terhitung jumlahnya.
13,12K