RLAD (Reinforcement Learning with Abstraction and Deduction) melatih model melalui RL menggunakan pengaturan 2 pemain: ▪️ Generator abstraksi – mengusulkan "petunjuk penalaran" (abstraksi) singkat dan alami yang merangkum fakta dan strategi kunci. ▪️ Generator solusi – menggunakannya untuk memecahkan masalah. Metode ini memisahkan "bagaimana bernalar" dari "bagaimana menjawab", mencapai peningkatan ~44% dibandingkan metode penalaran rantai panjang standar. Begini cara kerjanya: