Mein Lieblingspapier in diesem Jahr: "Videomodelle sind Zero-Shot-Lerner und -Denker" Es zeigt, dass Videomodelle emergentes visuelles Denken im großen Maßstab zeigen - sie können Vision-Aufgaben lösen, für die sie nicht trainiert wurden. Das könnte der "GPT-Moment" für die Vision sein. Lassen Sie uns das aufschlüsseln 👇
Um zu beginnen - warum glauben, dass Videomodelle visuelles Denken entwickeln könnten? Ein ähnliches Phänomen gab es bei Texten. Früher haben wir spezifische Modelle für jede Aufgabe trainiert - aber jetzt haben LLMs ein allgemeines Sprachverständnis und können viele Aufgaben bewältigen, für die sie nicht explizit trainiert wurden. Es ist möglich, dass Videomodelle dasselbe im großen Maßstab tun könnten.
Dieses Papier hat über 18.000 Videos gemessen, die von Veo 3 in qualitativen und quantitativen Aufgaben generiert wurden. Es wurde festgestellt, dass Veo die visuelle Welt wahrnehmen, modifizieren und manipulieren kann (beginnend mit Bild- + Textaufforderungen) - und dabei frühe Denkfähigkeiten zeigt, für die es nicht explizit trainiert wurde. Wir werden jede Kategorie nacheinander angehen.
👀 Wahrnehmung - wenn aufgefordert, kann Veo Kanten erkennen und verschiedene Objekte in einer Szene identifizieren. Das bedeutet, dass es als Segmentierungsmodell fungieren kann, obwohl es nicht für diese Aufgabe trainiert wurde, was einige interessante nachgelagerte Implikationen hat. 1) "Füge einen hellblauen Punkt an der Spitze des Zweigs hinzu, auf dem der Ara sitzt. Das Auge des Aras wird leuchtend rot. Alles andere wird pechschwarz." 2) "Der blaue Ball beginnt sofort zu leuchten. Statische Kameraperspektive."
🌐 Modellierung - Veo kann die Welt (und die Prinzipien, die sie regieren) basierend auf dieser Wahrnehmung modellieren. Es zeigt ein starkes Verständnis der Physik - Dinge wie Luftwiderstand und Auftrieb, optische Phänomene wie Brechung und Reflexion sowie Farbmischung. 1) "Die Hand lässt das Objekt los" 2) "Eine riesige spiegelpolierte Metallkugel rollt durch den Raum"
🤏 Manipulation - Veo kann die visuelle Welt basierend auf dieser Wahrnehmung und Modellierung manipulieren. Dies ermöglicht Aufgaben der Bildbearbeitung ohne vorherige Beispiele - denken Sie an Dinge wie Szenenkomposition, Hintergrundentfernung, Stilübertragung oder sogar geschickte Manipulation. 1) "Verwenden Sie gesunden Menschenverstand und lassen Sie die beiden Roboterhände, die an Armen befestigt sind, das Glas öffnen, wie es ein Mensch tun würde." 2) "Verwandeln Sie dieses Selfie in ein professionelles Profilbild für LinkedIn."
🤔 Visuelles Denken - all diese Fähigkeiten führen zu einem schlüssigen Denken. Dies wird gemessen, indem dem Modell visionbasierte Herausforderungen gestellt werden, die schrittweises Denken erfordern. Denken Sie an Analogien, das Lösen von Labyrinthen oder Rätseln, den Einsatz von Werkzeugen oder das Durchqueren eines Graphen. 1) "Ohne eine schwarze Grenze zu überschreiten, navigiert die graue Maus aus der Ecke geschickt durch das Labyrinth, indem sie umherläuft, bis sie den gelben Käse findet." 2) "Ändern Sie das untere rechte Feld, um sich an die Regel zu halten, die von den anderen Feldern aufgestellt wurde. Sie können Zellen ausfüllen, Zellen leeren oder die Farbe einer Zelle ändern."
Hier ist die großartige Nachricht: Visuelles Denken wird im Laufe der Zeit besser. Die Leistung bei vielen dieser Aufgaben hat sich zwischen Veo 2 und Veo 3 erheblich verbessert. Ich habe ein paar Beispiele unten eingefügt. TL;DR - "Wenn du auf genaue Physik in Videomodellen wartest, bleib in der Schlange" 😂
212