Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Pour renforcer mon dernier fil. Les chercheurs pourraient demander : « Pourquoi ne pas simplement utiliser le RL pour extraire le contexte institutionnel ? » Oui, essayez ! Mais transformer des modèles en produits utilisables pour le droit, la santé ou les services n'est pas un jeu Atari. Ce sont des flux de travail — et le RL se heurte rapidement à des murs désordonnés.
2/ La première étape semble simple : enregistrer les actions des experts. Chaque ligne rouge, chaque remplacement ou escalade est un point de données. En théorie, vous pouvez cloner une politique de l'historique. En pratique, les journaux ne capturent pas pourquoi. Une clause peut être supprimée pour risque juridique, préférence du client ou simple habitude.
3/ Ensuite, entraînez un modèle de récompense à partir des retours. Collectez des comparaisons : « ce brouillon est plus sûr que celui-là. » Cela fonctionne très bien dans les articles sur RLHF. Dans des domaines à enjeux élevés, le temps des experts est rare et leurs jugements sont souvent en conflit. Signal épars, coûteux et désordonné.
4/ Même lorsque vous avez des résultats, l'attribution de crédit semble un peu brutale ? Le résultat d'une affaire dépend de plusieurs années de motions ; la récupération d'un patient dépend de dizaines d'interventions. Quelle action a "gagné la récompense" ? L'apprentissage par renforcement prospère sur des horizons courts, pas sur des échelles de temps institutionnelles.
15,45K
Meilleurs
Classement
Favoris