1/ Gensyn の新しい研究: 分かち合いは思いやりです SAPO(Swarm sampling Policy Optimization)は、モデルが経験を共有してより速く学習する分散型RLポストトレーニング手法です。