Dwarkesh 所稱的「持續(在職)學習」也被稱為「測試時學習」或「內部學習」。 有可能可以在 LLM 周圍建立這種能力作為軟體支架。但很明顯,LLM 本身缺乏這種能力。 請參見下面線程中對此主題的先前討論。
Dwarkesh Patel
Dwarkesh Patel9月27日 00:01
.@RichardSSutton,強化學習的父親,並不認為LLM是苦澀教訓的產物。 我對Richard立場的鋼鐵人詮釋:我們需要一些新的架構來實現持續(在職)學習。 如果我們有持續學習,我們就不需要特別的訓練階段——代理人可以隨時學習——就像所有人類,實際上,像所有動物一樣。 這種新範式將使我們目前的LLM方法過時。 我盡力表達LLM將作為這種經驗學習發生的基礎的觀點。有些火花飛濺。 0:00:00 – LLM是死胡同嗎? 0:13:51 – 人類會進行模仿學習嗎? 0:23:57 – 體驗的時代 0:34:25 – 當前架構在分佈外的泛化能力差 0:42:17 – AI領域的驚喜 0:47:28 – 苦澀教訓在AGI之後仍然適用嗎? 0:54:35 – AI的繼承
Gemini AI: 物理學家及人工智慧創始人史蒂夫·徐(Steve Hsu)描述了一種他聲稱所有當前大型語言模型(LLMs)都無法通過的「圖靈測試變體」。 挑戰 徐的測試要求LLM執行以下兩個步驟: 討論一個專業領域的前沿研究問題。 面對一個與現有文獻相矛盾的新信息,並正確地將其納入理解中。 為什麼LLMs無法通過測試 根據徐的說法,LLMs失敗的原因在於它們無法根據呈現給它們的新證據來調整其知識。它們仍然固守於(在這種情況下是錯誤的)訓練資料。 這個問題在研究應用中尤為突出,徐觀察到LLMs即使在他提供強有力的證據反駁訓練數據後,仍然繼續依賴「在預訓練中看到的錯誤資料」。相比之下,人類的博士生可以立即理解這一新見解。 潛在的技術限制 徐將測試的失敗與「在權重中」學習或在線學習的開放問題聯繫起來,這指的是人工智慧根據新信息更新其核心「權重」或參數的能力,而不僅僅是調整其對話上下文。他表示,沒有這種能力,LLMs無法「超出分佈」來充分納入突破性的最新信息。 這與人類的運作方式形成對比,人類的新見解可以根本性且立即地改變我們對某一主題的理解。LLMs並不是以相同的方式構建來改變其基礎知識的。
70