分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

🧵 AI ラボが RL の拡張を競う中、重要な質問の 1 つは、いつ事前トレーニングを停止して RL を開始するべきかということです。 GSM8KでRLを使用して5つのQwenモデル(0.6B→14B)をトレーニングしたところ、奇妙なことがわかりました。小さなモデルでは、EMERGENCE-LIKE ジャンプが見られます。大規模なモデルでは収益が逓減します。スケーリングの法則?あなたが期待するものとは違います

トップ

ランキング

お気に入り