熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

EigenPhi HQ 🎯 Wisdom of DeFi (🔭, 🎙) 🦇🔊
企業 AI 的使用案例往往會讓驗證變得複雜。但如果你能利用結構化日誌、經濟意圖或代理行為,你就能增強信號。我們一起努力將這些可驗證的行為納入模型訓練體系。

Salesforce AI Research9月24日 08:57
📣 驗證的變化:理解大型語言模型中的驗證動態
📄 論文:
🔗 項目:
你是否曾想過你的 LLM 驗證器是否真的可靠?我們的分析框架揭示了三個關鍵因素,決定了在問題難度、生成器能力和驗證器能力下的驗證成功。
關鍵見解:
📈 問題難度驅動正確回應的識別 - 驗證器在簡單問題上表現出色,但在困難問題上卻掙扎
🔍 生成器的強度影響錯誤檢測 - 弱生成器會產生明顯的錯誤,強生成器則會創造優雅但錯誤的解決方案
⚖️ 驗證器的擴展在某些範疇中顯示出收益遞減 - 有時 GPT-4o 僅僅比較小的模型好一點
💡 對於測試時擴展:弱生成器 + 驗證可以匹配強生成器的性能,而昂貴的驗證器並不總是值得。
感謝 Yefan Zhou @LiamZhou98, Austin Xu @austinsxu, Yilun Zhou @YilunZhou, Janvijay Singh @iamjanvijay, Jiang Gui @JiangGui, Shafiq Joty @JotyShafiq 的出色工作!
#LLM #AIVerification #TestTimeScaling #FutureOfAI #EnterpriseAI

759
向TOOL團隊致敬 👏 將Ethereum提升為超大規模的協處理器是個遊戲改變者。在我們這邊,只有當擴展基礎設施與透明、可審計的交易處理和優先級數據相匹配時,才能蓬勃發展。沒有這一點,低延遲的最終性將為集中化打開大門。

0xprincess9月24日 22:26
1// 我們自豪地宣布 TOOL 測試網啟動!
3.36K
驗證者的法則是一個很好的視角,Jason。我很好奇你對像是密碼學或鏈上記錄這樣的領域有什麼看法——在這些領域中,驗證幾乎是免費的,但解決方案的複雜性卻爆炸性增長? 💭🔐

Jason Wei2025年7月16日
關於驗證不對稱和「驗證者定律」的新部落格文章:
驗證的不對稱性——某些任務比解決更容易的想法——正在成為一個重要的想法,因為我們有了最終普遍有效的 RL。
驗證不對稱的很好的例子是數獨謎題、為 Instagram 等網站編寫代碼以及 BrowseComp 問題(需要 ~100 個網站才能找到答案,但一旦找到答案就很容易驗證)。
其他任務具有近乎對稱的驗證,例如將兩個 900 位數字相加或一些數據處理腳本。然而,其他任務提出可行的解決方案比驗證它們要容易得多(例如,對一篇長文進行事實核查或陳述一種新的飲食習慣,例如“只吃野牛”)。
關於驗證的不對稱性,需要了解的一件重要事情是,您可以通過事先做一些工作來改善不對稱性。例如,如果您有數學問題的答案鍵,或者您有 Leetcode 問題的測試用例。這大大增加了理想驗證不對稱的一組問題。
「驗證者定律」指出,訓練人工智慧解決任務的難易程度與任務的可驗證性成正比。所有可以解決且易於驗證的任務都將由人工智慧解決。訓練 AI 解決任務的能力與任務是否具有以下屬性成正比:
1.客觀真相:大家都同意什麼是好的解決方案
2. 快速驗證:任何給定的解決方案都可以在幾秒鐘內驗證
3. 可擴展驗證:可同時驗證多種解決方案
4. 低雜訊:驗證與解決方案品質盡可能緊密相關
5. 持續獎勵:對於單一問題,很容易對多種解決方案的優劣進行排名
驗證者定律的一個明顯實例是,人工智慧中提出的大多數基準測試都很容易驗證,並且迄今為止已經解決。請注意,過去十年中幾乎所有流行的基準都符合標準 #1-4;不符合標準 #1-4 的基準將很難流行。
為什麼可驗證性如此重要?當滿足上述標準時,人工智慧中發生的學習量會最大化;您可以採取許多梯度步驟,其中每個步驟都有很多訊號。迭代速度至關重要,這就是數位世界的進步比實體世界的進步快得多的原因。
Google 的 AlphaEvolve 是利用驗證不對稱性的最佳例子之一。它專注於符合上述所有標準的設置,並在數學和其他領域取得了許多進步。與我們過去二十年來在人工智慧領域所做的不同,這是一種新的範式,因為所有問題都在訓練集等同於測試集的環境中進行最佳化。
驗證的不對稱性無處不在,考慮到一個鋸齒狀的智能世界,我們可以測量的任何事情都將得到解決,這是令人興奮的。

892
熱門
排行
收藏