Это отличной эксперимент! Это не совсем закон масштабирования RL, в том смысле, что я собрал из нескольких передовых лабораторий. Многое похоже, но их методы установления этих взаимосвязей кажутся немного другими. Во-первых, они определенно используют набор базовых моделей, похожих на это. Хотя мне неясно, является ли сочетание GSM8K, особенно с Qwen 3, хорошей парой. Это слишком простая задача для этих моделей и, вероятно, была целью предобучения или промежуточного обучения напрямую. Чтобы облегчить это, то, что используется для изучения масштабирования в лабораториях, - это точность валидации на подмножестве обучающих задач. Это показывает способности моделей учиться на данном наборе данных. Это отличается от законов масштабирования предобучения, которые предсказывают потерю на тестовом наборе. Большая неизвестность, на мой взгляд, заключается в том, сколько шагов требуется маленькой модели по сравнению с большой моделью для сходимости. На основе многих моих личных опытов (и обсуждений) кажется наиболее вероятным, что большим моделям на самом деле нужно меньше шагов, поэтому график, который вы поделились, вызывает у меня некоторые опасения. Затем лаборатории прогнозируют окончательную производительность по начальной форме кривых RL. Это также гораздо проще с превосходной инфраструктурой, которая более стабильна на длительных запусках. Это ближе к традиционным законам масштабирования предобучения, где вы обучаете каждую модель до множителя оптимальных токенов Chinchilla. Это также не учитывает масштабирование различных гиперпараметров. Большая часть применения законов масштабирования заключается в правильном обучении тому, как масштабировать ключевые параметры для модели. Для предобучения это часто скорость обучения (LR), график LR и корректировки размера пакета. RL, по моему опыту, был гораздо менее чувствителен к скорости обучения, чем предобучение.