トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ steelmanに、私自身の最後の糸。研究者は、「RLを使用して制度的コンテキストを抽出してみませんか?」と疑問に思うかもしれません。はい、試してみてください!しかし、モデルを法律、医療、サービスに使える製品に変えるのはアタリではありません。それはワークフローであり、RLはすぐに乱雑な壁にぶつかります。
2/ ステップ 1 は単純に聞こえます: 専門家のアクションをログに記録します。すべてのレッドライン、オーバーライド、またはエスカレーションはデータポイントです。理論的には、履歴からポリシーを複製できます。実際には、ログにはその理由が捉えられません。条項は、法的リスク、顧客の好み、または純粋な習慣のために破棄される場合があります。
3/ 次に、フィードバックから報酬モデルをトレーニングします。比較を集めてください:「このドラフトはあのドラフトよりも安全です。」RLHF論文でうまく機能します。一か八かの領域では、専門家の時間が不足しており、彼らの判断が矛盾することがよくあります。まばらでコストがかかり、乱雑な信号。
4/ たとえ結果が出ても、クレジットの割り当てはちょっと残酷に思えますか?事件の結果は、何年にもわたる動議によって異なります。数十回の介入による患者の回復。どのアクションが「報酬を獲得した」のでしょうか?RL は、制度的なタイムスケールではなく、短期間で繁栄します。
24.3K
トップ
ランキング
お気に入り