Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
То, что Дваркеш называет "непрерывным (в процессе работы) обучением", также известно как "обучение во время тестирования" или "обучение в весах".
Возможно, что такую способность можно создать как программную опору вокруг LLM. Но очевидно, что сами по себе LLM не обладают этой способностью.
Смотрите предыдущее обсуждение на эту тему в потоке ниже.

14 часов назад
.@RichardSSutton, отец обучения с подкреплением, не считает, что LLM являются горьким уроком.
Моя стальная версия позиции Ричарда: нам нужна новая архитектура, чтобы обеспечить непрерывное (на рабочем месте) обучение.
И если у нас есть непрерывное обучение, нам не нужна специальная фаза обучения - агент просто учится на лету - как все люди и, действительно, как все животные.
Эта новая парадигма сделает наш текущий подход с LLM устаревшим.
Я сделал все возможное, чтобы представить точку зрения, что LLM будут функционировать как основа, на которой может происходить это опытное обучение. Некоторые искры полетели.
0:00:00 – Являются ли LLM тупиковым путем?
0:13:51 – Делают ли люди обучение подражанию?
0:23:57 – Эра опыта
0:34:25 – Текущие архитектуры плохо обобщают за пределами распределения
0:42:17 – Сюрпризы в области ИИ
0:47:28 – Будет ли горький урок все еще применим после AGI?
0:54:35 – Наследие ИИ
Gemini AI:
Физик и основатель AI Стив Хсу описал "вариант теста Тьюринга", который, по его словам, все текущие большие языковые модели (LLM) не проходят.
Задача
Тест Хсу требует от LLM выполнения следующих двух шагов:
Обсудить передовую исследовательскую проблему в специализированной области.
Получить новую информацию, которая противоречит существующей литературе, и правильно интегрировать её в своё понимание.
Почему LLM не проходят тест
По словам Хсу, LLM не проходят тест, потому что не могут адаптировать свои знания на основе новых представленных им доказательств. Они остаются привязанными к (в данном случае, неправильной) информации, на которой они были обучены.
Проблема особенно выделяется в исследовательских приложениях, где Хсу наблюдал, как LLM продолжают полагаться на "неправильные вещи, которые они видели в предобучении", даже после того, как он предоставляет очень сильные доказательства, противоречащие данным обучения. Человек-аспирант, напротив, может сразу же понять новое понимание.
Основное техническое ограничение
Хсу связывает провал теста с открытой проблемой "обучения в весах" или онлайн-обучения, что относится к способности AI обновлять свои основные "веса" или параметры на основе новой информации, а не просто корректировать свой разговорный контекст. Он утверждает, что без этой возможности LLM не могут выйти "за пределы распределения", чтобы полностью интегрировать революционную новую информацию.
Это контрастирует с тем, как действуют люди, где новые идеи могут фундаментально и немедленно изменить наше понимание предмета. LLM не созданы для изменения своих основополагающих знаний таким образом.
3,99K
Топ
Рейтинг
Избранное