ドワーケシュが「継続的(実地)学習」と呼んでいるものは、「テスト時学習」または「インウェイト」学習としても知られています。 この機能を LLM を中心としたソフトウェアの足場として構築できる可能性があります。しかし、LLM 自体にはこの機能が欠けていることは明らかです。 以下のスレッドでこのトピックに関する以前の議論を参照してください。
Dwarkesh Patel
Dwarkesh Patel10時間前
強化学習の父である.@RichardSSuttonは、LLMが苦い教訓を受けているとは考えていません。 リチャードの立場の私の鋼鉄の男は、継続的な(実地での)学習を可能にするために、いくつかの新しいアーキテクチャが必要です。 そして、継続的な学習があれば、特別なトレーニング段階は必要ありません - エージェントは、すべての人間と同じように、そして実際、すべての動物と同じように、その場で学習するだけです。 この新しいパラダイムにより、LLM を使用した現在のアプローチは時代遅れになります。 私は、LLMがこの体験学習の基盤として機能するという見解を表現するために最善を尽くしました。いくつかの火花が飛び散った。 0:00:00 – LLM は行き止まりですか? 0:13:51 – 人間は模倣学習をしますか? 0:23:57 – 経験の時代 0:34:25 – 現在のアーキテクチャは、ディストリビューションから一般化が不十分です 0:42:17 – AI分野の驚き 0:47:28 – 苦い教訓はAGIの後も適用されますか? 0:54:35 – AI への継承
ジェミニAI: 物理学者でAIの創設者であるスティーブ・スー氏は、「チューリングテストの変種」について説明し、現在の大規模言語モデル(LLM)はすべて失敗していると主張している。 課題 Hsu のテストでは、LLM が次の 2 つの手順を実行する必要があります。 専門分野のフロンティア研究問題について議論する。 一般的な文献と矛盾する新しい情報を提示され、それをその理解に正しく組み込んでください。 LLM がテストに不合格になる理由 Hsu 氏によると、LLM は、提示された新しい証拠に基づいて知識を適応させることができないために失敗します。彼らは、トレーニングを受けた(この場合は正しくない)情報に固定されたままです。 この問題は研究アプリケーションで特に強調されており、Hsu氏は、トレーニングデータと矛盾する非常に強力な証拠を提供した後でも、LLMが「事前トレーニングで見た間違ったもの」に依存し続けていることを観察しています。対照的に、人間の博士課程の学生は、新しい洞察をすぐに理解できます。 根本的な技術的制限 Hsu氏は、テストの失敗を「重み込み」学習、つまりオンライン学習という未解決の問題と結びつけており、これはAIが会話のコンテキストを単に調整するのではなく、新しい情報に基づいてコアの「重み」やパラメータを更新する能力を指します。同氏は、この機能がなければ、LLM は画期的な新しい情報を完全に組み込むために「配布から外れる」ことはできないと述べています。 これは、新しい洞察が主題に対する私たちの理解を根本的かつ即座に変える可能性がある人間の行動とは対照的です。LLMは、基礎知識を同じように変えるように構築されているわけではありません。
3.3K