Ciò che Dwarkesh definisce come "apprendimento continuo (sul lavoro)" è anche conosciuto come "apprendimento al momento del test" o "apprendimento in peso". È possibile che si possa costruire questa capacità come impalcatura software attorno agli LLM. Ma è chiaro che gli LLM da soli mancano di questa capacità. Vedi la discussione precedente su questo argomento nel thread qui sotto.
Dwarkesh Patel
Dwarkesh Patel27 set, 00:01
.@RichardSSutton, padre dell'apprendimento per rinforzo, non pensa che i LLM siano stati influenzati dalla lezione amara. La mia interpretazione della posizione di Richard: abbiamo bisogno di una nuova architettura per abilitare l'apprendimento continuo (sul campo). E se abbiamo un apprendimento continuo, non abbiamo bisogno di una fase di addestramento speciale - l'agente impara semplicemente al volo - come tutti gli esseri umani e, in effetti, come tutti gli animali. Questo nuovo paradigma renderà obsoleta l'attuale approccio con i LLM. Ho fatto del mio meglio per rappresentare la visione che i LLM funzioneranno come la base su cui può avvenire questo apprendimento esperienziale. Sono volate alcune scintille. 0:00:00 – I LLM sono un vicolo cieco? 0:13:51 – Gli esseri umani fanno apprendimento per imitazione? 0:23:57 – L'Era dell'Esperienza 0:34:25 – Le architetture attuali generalizzano male fuori distribuzione 0:42:17 – Sorprese nel campo dell'IA 0:47:28 – La Lezione Amara si applicherà ancora dopo l'AGI? 0:54:35 – Successione all'IA
Gemini AI: Il fisico e fondatore di AI Steve Hsu ha descritto una "variante del test di Turing" che afferma che tutti i modelli di linguaggio di grandi dimensioni (LLM) attuali non superano. La sfida Il test di Hsu richiede a un LLM di eseguire i seguenti due passaggi: Discutere un problema di ricerca all'avanguardia in un campo specializzato. Essere presentato con un nuovo pezzo di informazione che contraddice la letteratura prevalente e incorporarlo correttamente nella propria comprensione. Perché gli LLM non superano il test Secondo Hsu, gli LLM falliscono perché non possono adattare la loro conoscenza in base a nuove evidenze presentate loro. Rimangono ancorati alle informazioni (in questo caso, errate) su cui sono stati addestrati. Il problema è specificamente evidenziato nelle applicazioni di ricerca, dove Hsu ha osservato che gli LLM continuano a fare affidamento su "cose sbagliate che hanno visto durante il pre-addestramento", anche dopo che lui fornisce prove molto forti che contraddicono i dati di addestramento. Uno studente di dottorato umano, al contrario, può afferrare immediatamente la nuova intuizione. La limitazione tecnica sottostante Hsu collega il fallimento del test al problema aperto dell'apprendimento "in-weight", o apprendimento online, che si riferisce alla capacità di un'AI di aggiornare i propri "pesi" o parametri fondamentali in base a nuove informazioni, piuttosto che limitarsi ad adattare il proprio contesto conversazionale. Afferma che senza questa capacità, gli LLM non possono muoversi "fuori distribuzione" per incorporare completamente nuove informazioni rivoluzionarie. Questo contrasta con il modo in cui operano gli esseri umani, dove nuove intuizioni possono cambiare fondamentalmente e immediatamente la nostra comprensione di un argomento. Gli LLM non sono costruiti per cambiare la loro conoscenza fondamentale nello stesso modo.
53