.@RichardSSutton, отец обучения с подкреплением, не считает, что LLM являются горьким уроком. Моя стальная версия позиции Ричарда: нам нужна новая архитектура, чтобы обеспечить непрерывное (на рабочем месте) обучение. И если у нас есть непрерывное обучение, нам не нужна специальная фаза обучения - агент просто учится на лету - как все люди и, действительно, как все животные. Эта новая парадигма сделает наш текущий подход с LLM устаревшим. Я сделал все возможное, чтобы представить точку зрения, что LLM будут функционировать как основа, на которой может происходить это опытное обучение. Некоторые искры полетели. 0:00:00 – Являются ли LLM тупиковым путем? 0:13:51 – Делают ли люди обучение подражанию? 0:23:57 – Эра опыта 0:34:25 – Текущие архитектуры плохо обобщают за пределами распределения 0:42:17 – Сюрпризы в области ИИ 0:47:28 – Будет ли горький урок все еще применим после AGI? 0:54:35 – Наследие ИИ
Ищите подкаст Dwarkesh на YouTube, Apple Podcasts, Spotify и т.д., чтобы смотреть его и подписаться на будущие эпизоды.
685,13K