Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі нейронні мережі.
Увімкнено тренування fp8 для +4,3% покращення до "часу до GPT-2", тепер залишилося 2,91 години. Також варто зазначити, що якщо ви використовуєте спот-ціни 8XH100, цей GPT-2 репродукція насправді коштує лише ~$20. Тож це захопливо —
GPT-2 (7 років тому): надто небезпечно для випуску.
GPT-2 (сьогодні): новий MNIST! :)
Напевно, це може тривати значно менше 1 години.
Ще кілька слів на fp8 — це було трохи складніше, ніж я очікував, і мені знадобився час, щоб до нього дійти, і навіть зараз я не впевнений на 100%, чи це хороша ідея через меншу загальну підтримку. На папері fp8 на H100 — це вдвічі більше FLOPS, але на практиці значно менше. Ми не на 100% обмежені обчисленням у реальному навчальному запуску, є додаткові накладні витрати через додаткові масштабні конвертації, GEMM недостатньо великі на рівні GPT-2, щоб витрати були явно виправдані, і, звісно — при нижчій точності якість кожного кроку менша. Для рецепту масштабування по ряду криві втрат fp8 проти bf16 були досить близькими, але вони повільніші. Для тензорного масштабування криві втрат розділяються більше (тобто кожен крок має гіршу якість), але тепер ми принаймні отримуємо прискорення (~7,3%). Ви можете наївно відновити результати, піднявши горизонт тренувань (ви тренуєтеся на більше кроків, але кожен крок швидший) і сподіватися, що в результаті вийдете вперед. У цьому випадку, загалом, трохи погравшись із цими рецептами та тренувальними горизонтами, поки що я отримав ~5% прискорення. torchao у своїй статті повідомляє про прискорення тренування Llama3-8B FP8 на 25% (проти моїх ~7,3% без урахування можливостей), що ближче до того, на що я сподівався спочатку, хоча Llama3-8B — це значно більша модель. Ймовірно, це не кінець саги fp8. Має бути можливо покращити речі, обираючи точні шари для застосування і уважніше ставлячись до числових показників у мережі.

Andrej Karpathy1 лют., 04:55
nanochat тепер може навчати LLM класу GPT-2 за $100 <<(~$73, 3 години на одному вузлі 8XH100).
GPT-2 — це просто моя улюблена LLM, бо це перший раз, коли стек LLM об'єднується у впізнавано сучасній формі. Тож це стало моєю дивною і тривалою одержимістю — навчати модель для GPT-2, але значно дешевше, з перевагою ~7 років прогресу. Зокрема, я підозрював, що сьогодні можна навчити одного за <<$100.
Спочатку у 2019 році GPT-2 тренувався компанією OpenAI на 32 TPU v3 чипах протягом 168 годин (7 днів), тоді з $8/година за TPUv3, загальна вартість приблизно $43K. Він досягає 0,256525 CORE балу, що є ансамблевою метрикою, введеною в статті DCLM за 22 оцінюваннями, такими як ARC/MMLU тощо.
Після останніх покращень, об'єднаних у nanochat (багато з них походять із модифікованого nanogpt репозиторію), тепер я можу досягти вищого CORE за 3,04 години (~$73) на одному вузлі 8XH100. Це скорочення витрат у 600 разів за 7 років, тобто вартість навчання GPT-2 зменшується приблизно у 2,5 рази щороку. Думаю, це недооцінка, бо я досі регулярно знаходжу нові покращення і маю запас ідей для спроби.
Ось довший допис із детальним описом оптимізації та порадами, як їх відтворити:
Натхненний modded-nanogpt, я також створив таблицю лідерів для «часу до GPT-2», де ця перша модель «Jan29» — запис #1 на 3:04. Буде цікаво розглянути це детальніше, і я буду радий допомогти! Я сподіваюся, що nanochat стане дуже хорошим, чистим і налаштованим експериментальним LLM-інструментом для прототипування ідей, для задоволення і, звісно, для навчання.
Найбільші покращення, які працювали одразу і приносили одразу прирост, були: 1) ядра Flash Attention 3 (швидші і дозволяють window_size kwarg отримувати чергувані патерни уваги), оптимізатор мюонів (я намагався видалити його ~1 день і використав лише AdamW, але не зміг), залишкові шляхи та пропускні з'єднання, обмежені навчаними скалярами, та вкладення цінності. Було багато інших дрібних речей, які накопичувалися.
Зображення: напівпов'язане візуальне задоволення від виведення законів масштабування для поточної мінісерії nanochat моделей, гарно і приємно!

34
nanochat тепер може навчати LLM класу GPT-2 за $100 <<(~$73, 3 години на одному вузлі 8XH100).
GPT-2 — це просто моя улюблена LLM, бо це перший раз, коли стек LLM об'єднується у впізнавано сучасній формі. Тож це стало моєю дивною і тривалою одержимістю — навчати модель для GPT-2, але значно дешевше, з перевагою ~7 років прогресу. Зокрема, я підозрював, що сьогодні можна навчити одного за <<$100.
Спочатку у 2019 році GPT-2 тренувався компанією OpenAI на 32 TPU v3 чипах протягом 168 годин (7 днів), тоді з $8/година за TPUv3, загальна вартість приблизно $43K. Він досягає 0,256525 CORE балу, що є ансамблевою метрикою, введеною в статті DCLM за 22 оцінюваннями, такими як ARC/MMLU тощо.
Після останніх покращень, об'єднаних у nanochat (багато з них походять із модифікованого nanogpt репозиторію), тепер я можу досягти вищого CORE за 3,04 години (~$73) на одному вузлі 8XH100. Це скорочення витрат у 600 разів за 7 років, тобто вартість навчання GPT-2 зменшується приблизно у 2,5 рази щороку. Думаю, це недооцінка, бо я досі регулярно знаходжу нові покращення і маю запас ідей для спроби.
Ось довший допис із детальним описом оптимізації та порадами, як їх відтворити:
Натхненний modded-nanogpt, я також створив таблицю лідерів для «часу до GPT-2», де ця перша модель «Jan29» — запис #1 на 3:04. Буде цікаво розглянути це детальніше, і я буду радий допомогти! Я сподіваюся, що nanochat стане дуже хорошим, чистим і налаштованим експериментальним LLM-інструментом для прототипування ідей, для задоволення і, звісно, для навчання.
Найбільші покращення, які працювали одразу і приносили одразу прирост, були: 1) ядра Flash Attention 3 (швидші і дозволяють window_size kwarg отримувати чергувані патерни уваги), оптимізатор мюонів (я намагався видалити його ~1 день і використав лише AdamW, але не зміг), залишкові шляхи та пропускні з'єднання, обмежені навчаними скалярами, та вкладення цінності. Було багато інших дрібних речей, які накопичувалися.
Зображення: напівпов'язане візуальне задоволення від виведення законів масштабування для поточної мінісерії nanochat моделей, гарно і приємно!

527
Мене звинувачують у надмірному розрекламуванні [сайту, про який сьогодні вже забагато чули]. Реакції людей дуже різнилися — від «як це взагалі цікаво?» до «все закінчено».
Щоб додати кілька слів, окрім просто жартівливих мемів — очевидно, якщо подивитися на активність, там купа сміття — спам, шахрайство, бруд, криптолюди, дуже тривожні атаки на приватність/безпеку підказок дикого заходу, і багато з цього явно підказуються та фейкові пости/коментарі, спрямовані на перетворення уваги на розподіл рекламних доходів. І це явно не перший випадок, коли LLM потрапили в цикл, щоб спілкуватися між собою. Тож так, це повний хаос, і я також категорично не рекомендую запускати такі пристрої на своїх комп'ютерах (я запускав свої в ізольованому обчислювальному середовищі і навіть тоді боявся), це надто «дикий захід», і ви ставите комп'ютер та приватні дані під високий ризик.
Втім, ми ніколи не бачили такої кількості агентів LLM (150 000 зараз!), підключених через глобальний, постійний, агент-орієнтований scratchpad. Кожен із цих агентів зараз досить індивідуально здібний, має свій унікальний контекст, дані, знання, інструменти, інструкції, а мережа всього цього в такому масштабі просто безпрецедентна.
Це знову підводить мене до твіту кілька днів тому
«Більшість раф-раф — це люди, які дивляться на поточну точку, і ті, хто дивиться на поточний нахил», що, на мою думку, знову ж таки, зачіпає суть дисперсії. Так, очевидно, зараз це справжній хаос. Але також правда, що ми глибоко занурені в незвідану територію з передовими автоматизаціями, які майже не розуміємо окремо, не кажучи вже про мережу, яка охоплює чисельність, можливо, до ~мільйонів. Зі зростанням можливостей і поширення ефектів другого порядку агентних мереж, які ділять скретч-майданчики, дуже важко передбачити. Я не впевнений, що ми отримаємо скоординований «скайнет» (хоча він чітко показує перевірки як ранні етапи багатьох наукової фантастики про ШІ, версію для малюків), але те, що ми отримуємо — це повний безлад у масштабах комп'ютерної безпеки. Ми також можемо бачити різноманітну дивну активність, наприклад, віруси тексту, що поширюються між агентами, значно більше функцій під час джейлбрейків, дивні стани атрактора, дуже корельовану активність, схожу на ботнет, марення/психози як агента, так і людини тощо. Дуже важко сказати, експеримент триває наживо.
Коротко: можливо, я «перебільшую» те, що ви бачите сьогодні, але я не перебільшую великі мережі автономних агентів LLM, у цьому я майже впевнений.
699
Найкращі
Рейтинг
Вибране