Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Те, що Дваркеш називає «безперервним навчанням (на робочому місці)», також відоме як «навчання під час тестування» або навчання з «вагою».
Цілком можливо, що можна побудувати цю можливість як програмний каркас навколо LLM. Але очевидно, що самі по собі LLM не мають такої можливості.
Дивіться попередню дискусію на цю тему в гілці нижче.

27 вер., 00:01
.@RichardSSutton, батько навчання з підкріпленням, не вважає, що LLM – це гіркі уроки.
Моя сталева людина з позицією Річарда: нам потрібна нова архітектура, яка забезпечить безперервне (на робочому місці) навчання.
І якщо у нас є постійне навчання, нам не потрібна спеціальна фаза навчання - агент просто вчиться на льоту - як всі люди, і навіть як всі тварини.
Ця нова парадигма зробить наш нинішній підхід до LLM застарілим.
Я зробив усе можливе, щоб представити думку, що LLM функціонуватимуть як основа, на якій може відбуватися це експериментальне навчання. Полетіли якісь іскри.
0:00:00 – LLM – це глухий кут?
0:13:51 – Чи займаються люди імітацією?
0:23:57 – Ера досвіду
0:34:25 – Поточні архітектури погано узагальнюють поза розподілом
0:42:17 – Сюрпризи у сфері штучного інтелекту
0:47:28 – Чи буде «Гіркий урок» застосовуватися після AGI?
0:54:35 – Спадкоємство до ШІ
Gemini AI:
Фізик і засновник штучного інтелекту Стів Хсу описав «варіант тесту Тюрінга», який, за його словами, не дають змоги виконувати всі поточні моделі великих мов (LLM).
У чому полягає проблема
Тест Hsu вимагає від LLM виконання наступних двох кроків:
Обговорити проблему дослідження кордону в спеціалізованій галузі.
Отримати нову інформацію, яка суперечить пануючій літературі, і правильно включити її в своє розуміння.
Чому LLM не проходять тест
За словами Хсу, LLM зазнають невдачі, тому що вони не можуть адаптувати свої знання на основі нових представлених їм даних. Вони залишаються прив'язаними до (в даному випадку неправильної) інформації, на якій вони були навчені.
Проблема особливо висвітлюється в дослідницьких додатках, де Хсу спостерігав, що LLM продовжують покладатися на «неправильні речі, які вони бачили під час попереднього навчання», навіть після того, як він надав дуже переконливі докази, що суперечать даним тренувань. Аспірант, навпаки, може відразу вловити нове розуміння.
Основне технічне обмеження
Хсу пов'язує невдачу тесту з відкритою проблемою навчання «у вазі», або онлайн-навчання, яке стосується здатності штучного інтелекту оновлювати свої основні «ваги» або параметри на основі нової інформації, а не просто коригувати свій розмовний контекст. Він стверджує, що без цієї можливості LLM не можуть вийти «з дистрибуції», щоб повністю включити новаторську інформацію.
Це контрастує з тим, як працюють люди, де нові ідеї можуть докорінно і негайно змінити наше розуміння предмета. LLM не створені для того, щоб змінювати свої базові знання однаково.
64
Найкращі
Рейтинг
Вибране