1/ Till steelman min egen sista tråd. Forskare kan fråga: "Varför inte bara använda RL för att extrahera institutionell kontext?" Ja, försök! Men att omvandla modeller till användbara produkter för juridik, sjukvård eller service är inte Atari. Det är arbetsflöden – och RL stöter snabbt på röriga väggar.
2/ Steg ett låter enkelt: logga expertåtgärder. Varje röd linje, åsidosättning eller eskalering är en datapunkt. I teorin kan du klona en princip från historiken. I praktiken samlar loggarna inte in varför. En klausul kan strykas på grund av juridisk risk, klientpreferens eller ren vana.
3/ Träna sedan en belöningsmodell från feedback. Samla jämförelser: "det här utkastet är säkrare än det där." Fungerar utmärkt i RLHF-papper. I områden med höga insatser är experternas tid knapp och deras bedömningar är ofta motstridiga. Gles, kostsam och rörig signal.
4/ Även när du har resultat verkar kredittilldelning ganska brutalt? Utgången i ett ärende beror på år av motioner; en patients återhämtning på dussintals ingrepp. Vilken handling "förtjänade belöningen"? RL trivs med korta horisonter, inte institutionella tidsramar.
21,41K