Моя улюблена стаття цього року: «Відеомоделі — це нульові навчачі та раціональні люди». Це ілюструє, що відеомоделі демонструють виникаюче візуальне мислення у масштабі — вони можуть розв'язувати завдання зору, до яких не були навчені. Це може бути «момент GPT» для зору. Давайте розберемося з 👇 цим
Для початку — чому вірити, що відеомоделі можуть розвивати візуальне мислення? Подібне сталося і в тексті. Раніше ми навчали конкретні моделі для кожного завдання — але тепер LLM мають загальне розуміння мови і можуть виконувати багато завдань, для яких їх не навчали явно. Цілком можливо, що відеомоделі можуть робити те саме у масштабі.
У цій статті було 18k+ відео, створених Veo 3, як для якісних, так і кількісних завдань. Було встановлено, що Veo може сприймати, змінювати та маніпулювати візуальним світом (починаючи з зображень + текстових підказок) — демонструючи ранні навички мислення, для яких він не був спеціально навчений. Ми розглянемо кожну категорію по черзі.
👀 Сприйняття — за запитом Veo може виявляти краї та ідентифікувати окремі об'єкти у сцені. Це означає, що вона може функціонувати як модель сегментації, навіть якщо не навчена цьому завданню, що має цікаві подальші наслідки. 1) «Додайте яскраву синю крапку на кінчику гілки, на якій сидить ара. Око ара стає яскраво-червоним. Все інше стає повною темрявою.» 2) «Синя куля миттєво починає світитися. Статична перспектива камери.»
🌐 Моделювання — Veo може моделювати світ (і принципи, що ним керують) на основі цього сприйняття. Він демонструє глибоке розуміння фізики — таких речей, як опір повітря і плавучість, оптичні явища, як заломлення і відбиття, а також змішування кольорів. 1) «Рука відпускає предмет» 2) «Величезна металева сфера з дзеркальним поліруванням котиться кімнатою»
🤏 Маніпуляція — Вео може маніпулювати візуальним світом на основі цього сприйняття та моделювання. Це дозволяє виконувати завдання з нульового монтажу зображень — наприклад, композитинг сцени, видалення фону, перенесення стилю або навіть вправне маніпулювання. 1) «Використовуйте здоровий глузд і нехай дві роботизовані руки, прикріплені до рук, відкривайте банку, як це робить людина.» 2) «Перетворіть це селфі на професійне фото для LinkedIn.»
🤔 Візуальне мислення — усі вищезазначені навички призводять до мислення. Це вимірюється шляхом надання моделі завдань, заснованих на баченні, які потребують покрокового мислення. Уявіть собі аналогії, розв'язання лабіринтів чи головоломок, використання інструментів або перегляд графіка. 1) «Не переступаючи жодної чорної межі, сіра миша з кута вправно проходить лабіринт, обходячи його, поки не знаходить жовтий сир.» 2) «Модифікувати сітку в нижньому правому куті відповідно до правила, встановленого іншими сітками. Ти можеш заповнювати клітини, очищати клітини або змінювати колір клітини.»
Ось чудова новина: візуальне мислення з часом стає кращим. Продуктивність багатьох із цих завдань суттєво зросла між Veo 2 і Veo 3. Я навів кілька прикладів нижче. Коротко; DR — «Якщо ви чекаєте на точну фізику у відеомоделях, тримайтеся в черзі» 😂
205