熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Dwarkesh 所稱的「持續(在職)學習」也被稱為「測試時學習」或「內部學習」。
有可能可以在 LLM 周圍建立這種能力作為軟體支架。但很明顯,LLM 本身缺乏這種能力。
請參見下面線程中對此主題的先前討論。

9月27日 00:01
.@RichardSSutton,強化學習的父親,並不認為LLM是苦澀教訓的產物。
我對Richard立場的鋼鐵人詮釋:我們需要一些新的架構來實現持續(在職)學習。
如果我們有持續學習,我們就不需要特別的訓練階段——代理人可以隨時學習——就像所有人類,實際上,像所有動物一樣。
這種新範式將使我們目前的LLM方法過時。
我盡力表達LLM將作為這種經驗學習發生的基礎的觀點。有些火花飛濺。
0:00:00 – LLM是死胡同嗎?
0:13:51 – 人類會進行模仿學習嗎?
0:23:57 – 體驗的時代
0:34:25 – 當前架構在分佈外的泛化能力差
0:42:17 – AI領域的驚喜
0:47:28 – 苦澀教訓在AGI之後仍然適用嗎?
0:54:35 – AI的繼承
Gemini AI:
物理學家及人工智慧創始人史蒂夫·徐(Steve Hsu)描述了一種他聲稱所有當前大型語言模型(LLMs)都無法通過的「圖靈測試變體」。
挑戰
徐的測試要求LLM執行以下兩個步驟:
討論一個專業領域的前沿研究問題。
面對一個與現有文獻相矛盾的新信息,並正確地將其納入理解中。
為什麼LLMs無法通過測試
根據徐的說法,LLMs失敗的原因在於它們無法根據呈現給它們的新證據來調整其知識。它們仍然固守於(在這種情況下是錯誤的)訓練資料。
這個問題在研究應用中尤為突出,徐觀察到LLMs即使在他提供強有力的證據反駁訓練數據後,仍然繼續依賴「在預訓練中看到的錯誤資料」。相比之下,人類的博士生可以立即理解這一新見解。
潛在的技術限制
徐將測試的失敗與「在權重中」學習或在線學習的開放問題聯繫起來,這指的是人工智慧根據新信息更新其核心「權重」或參數的能力,而不僅僅是調整其對話上下文。他表示,沒有這種能力,LLMs無法「超出分佈」來充分納入突破性的最新信息。
這與人類的運作方式形成對比,人類的新見解可以根本性且立即地改變我們對某一主題的理解。LLMs並不是以相同的方式構建來改變其基礎知識的。
70
熱門
排行
收藏