Můj nejoblíbenější článek letos: "Video modely jsou nuloví studenti a uvažující" Ukazuje, že video modely ukazují vznikající vizuální uvažování ve velkém měřítku – dokážou řešit vizuální úkoly, na které nebyly školeny. To může být "GPT moment" pro vidění. Pojďme to rozebrat 👇
Na úvod – proč věřit, že video modely by mohly rozvíjet vizuální uvažování? Podobná věc se stala i v textu. Dříve jsme trénovali specifické modely pro každý úkol – ale teď mají LLM obecné znalosti jazyka a dokážou zvládnout spoustu úkolů, na které nebyly výslovně trénovány. Je možné, že video modely mohou dělat totéž ve větším měřítku.
Tento článek měřil 18 tisíc+ videí generovaných Veo 3 napříč kvalitativními i kvantitativními úkoly. Zjistil, že Veo dokáže vnímat, upravovat a manipulovat s vizuálním světem (počínaje obrázkem + textovými prompty) – což ukazuje rané schopnosti uvažování, na které nebylo explicitně trénováno. Budeme se věnovat každé kategorii jednotlivě.
👀 Vnímání – když je vyzván, Veo dokáže detekovat hrany a identifikovat odlišné objekty ve scéně. To znamená, že může fungovat jako segmentační model, i když není na tento úkol trénován, což má zajímavé důsledky v dalším vývoji. 1) "Přidejte jasně modrou tečku na špičku větve, na které ara sedí. Oko ary zčervená. Všechno ostatní se změní v úplnou tmu." 2) "Modrá koule okamžitě začne zářit. Statická kamera z pohledu."
🌐 Modelování – Veo může modelovat svět (a principy, které ho řídí) na základě tohoto vnímání. Ukazuje to silné znalosti fyziky – například odporu vzduchu a vztlaku, optických jevů jako lom a odrazy a míchání barev. 1) "Ruka pustí předmět" 2) "Obří kovová koule z leštidla zrcadla se kutálí místností"
🤏 Manipulace – Veo může manipulovat vizuálním světem na základě tohoto vnímání a modelování. To umožňuje úpravy obrázků bez záběrů – například kompozici scén, odstranění pozadí, přenos stylů nebo dokonce obratnou manipulaci. 1) "Použijte zdravý rozum a nechte dvě robotické ruce připevněné k pažím otevřít sklenici, jako by to udělal člověk." 2) "Proměňte toto selfie v profesionální portrét pro LinkedIn."
🤔 Vizuální uvažování – všechny výše uvedené dovednosti vedou k uvažování. To se měří tím, že model má výzvy založené na vizi, které vyžadují krokové uvažování. Představte si vytváření analogií, řešení bludišť nebo hádanek, používání nástrojů nebo procházení grafu. 1) "Aniž by překročila černou hranici, šedá myš z rohu obratně prochází bludištěm tím, že najde žlutý sýr." 2) "Upravte pravý dolní roh mřížky tak, aby odpovídal pravidlu stanovenému ostatními mřížkami. Můžete zaplnit buňky, vyčistit nebo změnit barvu buňky."
Skvělá zpráva je: vizuální uvažování se časem zlepšuje. Výkon u mnoha z těchto úkolů se mezi Veo 2 a Veo 3 výrazně zvýšil. Níže jsem uvedl několik příkladů. Stručně; DR - "Pokud čekáte na přesnou fyziku ve video modelech, držte se ve frontě" 😂
218