Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đây là một thí nghiệm tuyệt vời! Nó không hoàn toàn là một quy luật mở rộng RL, theo những gì tôi đã thu thập từ một vài phòng thí nghiệm tiên phong. Nhiều điều tương tự, nhưng phương pháp của họ để thiết lập những mối quan hệ này có vẻ hơi khác.
Đầu tiên, họ chắc chắn sử dụng một tập hợp các mô hình cơ bản giống như thế này. Tuy nhiên, tôi không rõ liệu sự kết hợp của GSM8K đặc biệt với Qwen 3 có phải là một cặp tốt hay không. Đây là một vấn đề quá dễ đối với những mô hình đó và có khả năng đã là mục tiêu của việc huấn luyện trước hoặc giữa quá trình huấn luyện.
Để giảm thiểu điều này, điều được sử dụng để xem xét sự mở rộng cho các phòng thí nghiệm là độ chính xác xác thực trên một tập con của các bài toán huấn luyện. Điều này cho thấy khả năng của các mô hình trong việc học từ một tập dữ liệu nhất định. Điều này khác với các quy luật mở rộng huấn luyện trước dự đoán tổn thất trên tập kiểm tra.
Một điều lớn chưa biết theo ý kiến của tôi là số bước cần thiết cho một mô hình nhỏ so với một mô hình lớn để hội tụ. Qua nhiều trải nghiệm cá nhân của tôi (và các cuộc thảo luận), có vẻ như các mô hình lớn thực sự cần ít bước hơn, vì vậy biểu đồ bạn chia sẻ khiến tôi có một số lo ngại.
Sau đó, những gì các phòng thí nghiệm làm là dự đoán hiệu suất cuối cùng từ hình dạng ban đầu của các đường cong RL. Điều này cũng dễ dàng hơn với cơ sở hạ tầng vượt trội ổn định hơn trong các phiên chạy dài hơn. Điều này trông giống hơn với các quy luật mở rộng huấn luyện trước truyền thống, nơi bạn huấn luyện mỗi mô hình đến một bội số của các token tối ưu Chinchilla.
Điều này cũng không tính đến việc mở rộng các siêu tham số khác nhau. Một phần lớn của việc áp dụng các quy luật mở rộng là học cách mở rộng các tham số chính cho mô hình một cách chính xác. Đối với việc huấn luyện trước, điều này thường là tốc độ học (LR), lịch trình LR và điều chỉnh kích thước lô. Theo kinh nghiệm của tôi, RL ít nhạy cảm hơn với tốc độ học so với việc huấn luyện trước.
Hàng đầu
Thứ hạng
Yêu thích

