Це чудовий експеримент! Це не зовсім закон про масштабування РЛ, в сенсі того, що я зібрав у кількох прикордонних лабораторіях. Багато в чому схожі, але їх методи встановлення цих відносин здаються дещо різними. По-перше, вони обов'язково використовують набір базових моделей приблизно так. Хоча для мене незрозуміло, чи є комбінація GSM8K, особливо з Qwen 3, хорошим поєднанням. Це занадто проста проблема для цих моделей і, швидше за все, була мішенню попереднього тренування або безпосередньо під час тренування. Щоб пом'якшити це, річ, яка використовується для розгляду масштабування для лабораторій, - це точність валідації на підмножині навчальних задач. Це показує здатність моделей навчатися на заданому наборі даних. Це відрізняється від законів шкалювання перед навчанням, які передбачають втрату тестового набору. На мій погляд, велика невідомість полягає в тому, скільки кроків потрібно для зближення маленької моделі в порівнянні з великою. З мого особистого досвіду (і дискусій) здається найбільш ймовірним, що великим моделям насправді потрібно менше кроків, тому сюжет, яким ви поділилися, викликає у мене деякі занепокоєння. Потім лабораторії прогнозують кінцеву продуктивність за початковою формою кривих РЛ. Це також набагато простіше з чудовою інфраструктурою, яка є більш стабільною на довгих дистанціях. Це виглядає ближче до традиційних законів масштабування перед навчанням, коли ви тренуєте кожну модель до кратної кількості оптимальних токенів Cinchilla. Це також не враховує різне масштабування гіперпараметрів. Велика частина застосування законів масштабування полягає в правильному навчанні масштабуванню ключових параметрів для моделі. Для попереднього навчання це часто використовується коефіцієнт навчання (LR), графік LR і коригування розміру партії. RL, з мого досвіду, був набагато менш чутливим до швидкості навчання, ніж попередня підготовка.