1/ Om mijn laatste draad te versterken. Onderzoekers zouden kunnen vragen: "Waarom niet gewoon RL gebruiken om institutionele context te extraheren?" Ja, probeer het! Maar modellen omzetten in bruikbare producten voor de wet, gezondheidszorg of dienstverlening is geen Atari. Het zijn workflows — en RL loopt snel tegen rommelige muren aan.
2/ Stap één klinkt eenvoudig: log de acties van experts. Elke rode lijn, overschrijving of escalatie is een datapunt. In theorie kun je een beleid uit de geschiedenis klonen. In de praktijk vangen logs niet de reden. Een clausule kan geschrapt worden vanwege juridische risico's, klantvoorkeur of pure gewoonte.
3/ Vervolgens train je een beloningsmodel op basis van feedback. Verzamel vergelijkingen: "dit concept is veiliger dan datgene." Werkt geweldig in RLHF-papers. In hoog-risico domeinen is de tijd van experts schaars en hun oordelen conflicteren vaak. Schaarse, kostbare en rommelige signalen.
4/ Zelfs wanneer je resultaten hebt, lijkt de toewijzing van krediet nogal wreed? Een zaakresultaat hangt af van jaren van procedures; het herstel van een patiënt van tientallen interventies. Welke actie "verdiende de beloning"? RL gedijt op korte tijdshorizonten, niet op institutionele tijdschalen.
15,47K