Mô hình @OpenAI gpt-oss-120b của chúng tôi không chỉ đạt 402 token mỗi giây, mà còn duy trì được thông lượng đó từ 1k đến 100k token mà không bị sụp đổ. Đối với các đội ngũ mở rộng ứng dụng thực tế, sự nhất quán này có nghĩa là chi phí có thể dự đoán, độ tin cậy đạt tiêu chuẩn sản xuất và sự tự tin để triển khai ở quy mô lớn.