Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

1/ До сталевара моєї останньої нитки. Дослідники можуть запитати: «Чому б просто не використати РЛ для вилучення інституційного контексту?» Так, спробуйте! Але перетворення моделей на корисні продукти для юриспруденції, охорони здоров'я чи послуг – це не Atari. Це робочі процеси — і RL швидко натикається на безладні стіни.

2. Крок перший звучить просто: записуйте дії експерта. Кожна червона лінія, перевизначення чи ескалація – це точка даних. Теоретично можна клонувати політику з історії. На практиці журнали не фіксують чому. Пункт може бути порушений через юридичний ризик, уподобання клієнта або звичайну звичку.

3. Далі тренуйте модель винагороди на основі зворотного зв'язку. Збирайте порівняння: «цей проект безпечніший за той». Чудово працює в паперах RLHF. У сферах з високими ставками експертного часу обмаль, а їхні судження часто суперечать одна одній. Розріджений, дорогий і безладний сигнал.

4. Навіть коли у вас є результати, призначення кредиту здається дещо жорстоким? Результат справи залежить від років клопотань; відновлення пацієнта на десятках втручань. Яка дія «принесла винагороду»? РЛ процвітає на коротких горизонтах, а не в інституційних часових масштабах.

25,04K

Найкращі

Рейтинг

Вибране