📣 Variasi dalam Verifikasi: Memahami Dinamika Verifikasi dalam Model Bahasa Besar 📄 Kertas: 🔗 Proyek: Pernah bertanya-tanya apakah verifikator LLM Anda benar-benar dapat diandalkan untuk tugas Anda? Kerangka kerja analisis kami mengungkapkan tiga faktor kunci yang menentukan keberhasilan verifikasi di seluruh kesulitan masalah, kemampuan generator, dan kemampuan verifikasi. Wawasan utama: 📈 Kesulitan masalah mendorong pengenalan respons yang benar - verifikator unggul dalam masalah mudah tetapi berjuang dengan masalah yang sulit 🔍 Kekuatan generator memengaruhi deteksi kesalahan - generator yang lemah menghasilkan kesalahan yang jelas, yang kuat menciptakan solusi yang elegan tetapi salah ⚖️ Penskalaan verifier menunjukkan pengembalian yang berkurang dalam rezim tertentu - terkadang GPT-4o hampir tidak mengalahkan model yang lebih kecil 💡 Untuk penskalaan waktu pengujian: generator + verifikasi yang lemah dapat mencocokkan kinerja generator yang kuat, dan verifikator yang mahal tidak selalu sepadan. Karya hebat oleh Yefan Zhou @LiamZhou98, Austin Xu @austinsxu, Yilun Zhou @YilunZhou, Janvijay Singh @iamjanvijay, Jiang Gui @JiangGui, Shafiq Joty @JotyShafiq! #LLM #AIVerification #TestTimeScaling #FutureOfAI #EnterpriseAI