То, что Дваркеш называет "непрерывным (в процессе работы) обучением", также известно как "обучение во время тестирования" или "обучение в весах". Возможно, что такую способность можно создать как программную опору вокруг LLM. Но очевидно, что сами по себе LLM не обладают этой способностью. Смотрите предыдущее обсуждение на эту тему в потоке ниже.
Dwarkesh Patel
Dwarkesh Patel14 часов назад
.@RichardSSutton, отец обучения с подкреплением, не считает, что LLM являются горьким уроком. Моя стальная версия позиции Ричарда: нам нужна новая архитектура, чтобы обеспечить непрерывное (на рабочем месте) обучение. И если у нас есть непрерывное обучение, нам не нужна специальная фаза обучения - агент просто учится на лету - как все люди и, действительно, как все животные. Эта новая парадигма сделает наш текущий подход с LLM устаревшим. Я сделал все возможное, чтобы представить точку зрения, что LLM будут функционировать как основа, на которой может происходить это опытное обучение. Некоторые искры полетели. 0:00:00 – Являются ли LLM тупиковым путем? 0:13:51 – Делают ли люди обучение подражанию? 0:23:57 – Эра опыта 0:34:25 – Текущие архитектуры плохо обобщают за пределами распределения 0:42:17 – Сюрпризы в области ИИ 0:47:28 – Будет ли горький урок все еще применим после AGI? 0:54:35 – Наследие ИИ
Gemini AI: Физик и основатель AI Стив Хсу описал "вариант теста Тьюринга", который, по его словам, все текущие большие языковые модели (LLM) не проходят. Задача Тест Хсу требует от LLM выполнения следующих двух шагов: Обсудить передовую исследовательскую проблему в специализированной области. Получить новую информацию, которая противоречит существующей литературе, и правильно интегрировать её в своё понимание. Почему LLM не проходят тест По словам Хсу, LLM не проходят тест, потому что не могут адаптировать свои знания на основе новых представленных им доказательств. Они остаются привязанными к (в данном случае, неправильной) информации, на которой они были обучены. Проблема особенно выделяется в исследовательских приложениях, где Хсу наблюдал, как LLM продолжают полагаться на "неправильные вещи, которые они видели в предобучении", даже после того, как он предоставляет очень сильные доказательства, противоречащие данным обучения. Человек-аспирант, напротив, может сразу же понять новое понимание. Основное техническое ограничение Хсу связывает провал теста с открытой проблемой "обучения в весах" или онлайн-обучения, что относится к способности AI обновлять свои основные "веса" или параметры на основе новой информации, а не просто корректировать свой разговорный контекст. Он утверждает, что без этой возможности LLM не могут выйти "за пределы распределения", чтобы полностью интегрировать революционную новую информацию. Это контрастирует с тем, как действуют люди, где новые идеи могут фундаментально и немедленно изменить наше понимание предмета. LLM не созданы для изменения своих основополагающих знаний таким образом.
3,99K