Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Aby wzmocnić moją ostatnią dyskusję. Badacze mogą zapytać: „Dlaczego nie użyć RL do wydobycia kontekstu instytucjonalnego?” Tak, spróbuj! Ale przekształcenie modeli w użyteczne produkty dla prawa, opieki zdrowotnej czy usług to nie jest Atari. To są przepływy pracy — a RL szybko napotyka na chaotyczne przeszkody.
2/ Pierwszy krok wydaje się prosty: rejestruj działania ekspertów. Każda czerwona linia, nadpisanie lub eskalacja to punkt danych. Teoretycznie możesz sklonować politykę z historii. W praktyce, logi nie uchwycą dlaczego. Klauzula może zostać usunięta z powodu ryzyka prawnego, preferencji klienta lub czystego nawyku.
3/ Następnie wytrenuj model nagród na podstawie opinii. Zbieraj porównania: „ten szkic jest bezpieczniejszy niż tamten.” Świetnie działa w pracach dotyczących RLHF. W dziedzinach o wysokim ryzyku czas ekspertów jest ograniczony, a ich oceny często się różnią. Rzadki, kosztowny i chaotyczny sygnał.
4/ Nawet gdy masz wyniki, przypisanie zasług wydaje się dość brutalne? Wynik sprawy zależy od lat wniosków; powrót pacjenta od dziesiątek interwencji. Która akcja "zarobiła nagrodę"? RL rozwija się w krótkich horyzontach, a nie w instytucjonalnych ramach czasowych.
15,46K
Najlepsze
Ranking
Ulubione