1/ Către oțelul ultimul meu fir. Cercetătorii ar putea întreba: "De ce să nu folosești RL pentru a extrage contextul instituțional?" Da, încercați! Dar transformarea modelelor în produse utilizabile pentru lege, asistență medicală sau servicii nu este Atari. Sunt fluxuri de lucru - iar RL se lovește rapid de pereți dezordonați.
2/ Primul pas sună simplu: înregistrați acțiunile experților. Fiecare linie roșie, suprascriere sau escaladare este un punct de date. În teorie, puteți clona o politică din istoric. În practică, jurnalele nu surprind de ce. O clauză ar putea fi eliminată pentru risc legal, preferințe ale clientului sau obicei pur.
3/ Apoi, antrenați un model de recompensă din feedback. Colectați comparații: "acest proiect este mai sigur decât acesta". Funcționează excelent în lucrările RLHF. În domeniile cu mize mari, timpul experților este limitat și judecățile lor sunt adesea contradictorii. Semnal rar, costisitor și dezordonat.
4/ Chiar și atunci când ai rezultate, atribuirea creditelor pare oarecum brutală? Rezultatul unui caz depinde de ani de moțiuni; recuperarea unui pacient la zeci de intervenții. Ce acțiune "a câștigat recompensa"? RL prosperă pe orizonturi scurte, nu pe termene instituționale.
15,47K