Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đã kích hoạt đào tạo fp8 để cải thiện +4.3% thời gian đến "GPT-2", giờ chỉ còn 2.91 giờ. Cũng đáng lưu ý rằng nếu bạn sử dụng giá phiên bản spot 8XH100, thì việc tái tạo GPT-2 này thực sự chỉ tốn khoảng ~$20. Thật thú vị -
GPT-2 (7 năm trước): quá nguy hiểm để phát hành.
GPT-2 (hôm nay): MNIST mới! :)
Chắc chắn điều này có thể giảm xuống dưới 1 giờ.
Một vài lời về fp8, nó khó hơn một chút so với tôi dự đoán và tôi đã mất một thời gian để tiếp cận nó và ngay cả bây giờ tôi cũng không chắc 100% rằng đây là một ý tưởng hay vì sự hỗ trợ tổng thể cho nó ít hơn. Trên lý thuyết, fp8 trên H100 có 2X FLOPS, nhưng trên thực tế thì ít hơn nhiều. Chúng tôi không hoàn toàn bị giới hạn bởi tính toán trong quá trình đào tạo thực tế, có thêm chi phí từ việc chuyển đổi quy mô, các GEMM không đủ lớn trên quy mô GPT-2 để làm cho chi phí thêm rõ ràng đáng giá, và tất nhiên - ở độ chính xác thấp hơn, chất lượng của mỗi bước nhỏ hơn. Đối với công thức mở rộng theo hàng, các đường cong mất mát fp8 so với bf16 khá gần nhau nhưng nó chậm hơn một chút. Đối với mở rộng theo tensor, các đường cong mất mát tách biệt hơn (tức là mỗi bước có chất lượng kém hơn), nhưng ít nhất bây giờ chúng tôi cũng có được một sự tăng tốc (~7.3%). Bạn có thể khôi phục hiệu suất một cách ngây thơ bằng cách tăng thời gian đào tạo (bạn đào tạo nhiều bước hơn, nhưng mỗi bước nhanh hơn) và hy vọng rằng tổng thể bạn sẽ có lợi. Trong trường hợp này và tổng thể, chơi với những công thức và thời gian đào tạo này một chút, cho đến nay tôi đã có được ~5% tăng tốc. torchao trong bài báo của họ báo cáo tốc độ đào tạo fp8 Llama3-8B tăng 25% (so với ~7.3% của tôi mà không tính đến khả năng), điều này gần hơn với những gì tôi đã hy vọng ban đầu, mặc dù Llama3-8B là một mô hình lớn hơn nhiều. Đây có lẽ không phải là kết thúc của câu chuyện fp8. Nó nên có thể cải thiện mọi thứ bằng cách chọn và lựa chọn các lớp nào để áp dụng chính xác, và cẩn thận hơn với các số liệu trong toàn bộ mạng.
Hàng đầu
Thứ hạng
Yêu thích
