Lo que Dwarkesh denomina "aprendizaje continuo (en el trabajo)" también se conoce como "aprendizaje en tiempo de prueba" o aprendizaje "en peso". Es posible que se pueda construir esta capacidad como andamiaje de software alrededor de los LLM. Pero está claro que los LLM por sí mismos carecen de esta capacidad. Vea la discusión anterior sobre este tema en el hilo a continuación.
Dwarkesh Patel
Dwarkesh Patel27 sept, 00:01
.@RichardSSutton, padre del aprendizaje por refuerzo, no cree que los LLM sean una amarga lección. Mi hombre de acero de la posición de Richard: necesitamos una nueva arquitectura para permitir el aprendizaje continuo (en el trabajo). Y si tenemos un aprendizaje continuo, no necesitamos una fase de entrenamiento especial: el agente simplemente aprende sobre la marcha, como todos los humanos y, de hecho, como todos los animales. Este nuevo paradigma hará que nuestro enfoque actual con los LLM sea obsoleto. Hice todo lo posible para representar la opinión de que los LLM funcionarán como la base sobre la cual puede ocurrir este aprendizaje experiencial. Algunas chispas volaron. 0:00:00 - ¿Son los LLM un callejón sin salida? 0:13:51 - ¿Los humanos aprenden por imitación? 0:23:57 - La era de la experiencia 0:34:25 - Las arquitecturas actuales generalizan mal fuera de la distribución 0:42:17 - Sorpresas en el campo de la IA 0:47:28 - ¿La amarga lección seguirá aplicándose después de AGI? 0:54:35 - Sucesión a la IA
IA de Géminis: El físico y fundador de IA, Steve Hsu, describió una "variante de prueba de Turing" que, según él, todos los modelos de lenguaje grande (LLM) actuales fallan. El reto La prueba de Hsu requiere un LLM para realizar los dos pasos siguientes: Discutir un problema de investigación de frontera en un campo especializado. Recibir una nueva información que contradiga la literatura prevaleciente e incorporarla correctamente a su comprensión. Por qué los LLM no pasan la prueba Según Hsu, los LLM fracasan porque no pueden adaptar sus conocimientos en función de las nuevas pruebas que se les presentan. Permanecen anclados a la información (en este caso, incorrecta) con la que fueron entrenados. El problema se destaca específicamente en las aplicaciones de investigación, donde Hsu ha observado que los LLM continúan confiando en "cosas incorrectas que vieron en el preentrenamiento", incluso después de proporcionar evidencia muy sólida que contradice los datos de entrenamiento. Un estudiante de doctorado humano, por el contrario, puede captar inmediatamente la nueva visión. La limitación técnica subyacente Hsu conecta el fracaso de la prueba con el problema abierto del aprendizaje "en peso", o aprendizaje en línea, que se refiere a la capacidad de una IA para actualizar sus "pesos" o parámetros centrales en función de nueva información, en lugar de simplemente ajustar su contexto conversacional. Afirma que sin esta capacidad, los LLM no pueden salir de la distribución para incorporar completamente nueva información innovadora. Esto contrasta con la forma en que operan los humanos, donde los nuevos conocimientos pueden cambiar fundamental e inmediatamente nuestra comprensión de un tema. Los LLM no están diseñados para cambiar su conocimiento fundamental de la misma manera.
5.86K