Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mon article préféré cette année : "Les modèles vidéo sont des apprenants et des raisonneurs sans entraînement"
Il illustre que les modèles vidéo montrent un raisonnement visuel émergent à grande échelle - ils peuvent résoudre des tâches de vision pour lesquelles ils n'ont pas été entraînés.
Cela pourrait être le "moment GPT" pour la vision. Décomposons cela 👇
Pour commencer - pourquoi croire que les modèles vidéo pourraient développer un raisonnement visuel ?
Une chose similaire s'est produite avec le texte. Nous avions l'habitude de former des modèles spécifiques pour chaque tâche - mais maintenant, les LLM ont une compréhension générale du langage et peuvent s'attaquer à de nombreuses tâches pour lesquelles ils n'ont pas été explicitement formés.
Il est envisageable que les modèles vidéo puissent faire de même à grande échelle.

Ce document a mesuré plus de 18 000 vidéos générées par Veo 3 à la fois dans des tâches qualitatives et quantitatives.
Il a révélé que Veo peut percevoir, modifier et manipuler le monde visuel (à partir d'images + de prompts textuels) - montrant des compétences de raisonnement précoce pour lesquelles il n'a pas été explicitement formé.
Nous aborderons chaque catégorie une par une.

👀 Perception - lorsqu'on lui demande, Veo peut détecter les contours et identifier des objets distincts dans une scène.
Cela signifie qu'il peut fonctionner comme un modèle de segmentation bien qu'il n'ait pas été entraîné pour cette tâche, ce qui a des implications intéressantes en aval.
1) "Ajoutez un point bleu vif au bout de la branche sur laquelle le ara est assis. L'œil du ara devient rouge vif. Tout le reste devient noir profond."
2) "La balle bleue commence instantanément à briller. Perspective de caméra statique."
🌐 Modélisation - Veo peut modéliser le monde (et les principes qui le régissent) en fonction de cette perception.
Il démontre une forte compréhension de la physique - des choses comme la résistance de l'air et la flottabilité, des phénomènes optiques comme la réfraction et la réflexion, et le mélange des couleurs.
1) "La main lâche l'objet"
2) "Une sphère en métal poli géante roule dans la pièce"
🤏 Manipulation - Veo peut manipuler le monde visuel en fonction de cette perception et modélisation.
Cela permet des tâches d'édition d'images en zéro-shot - pensez à des choses comme le compositing de scènes, la suppression de fonds, le transfert de style, ou même la manipulation habile.
1) "Utilisez le bon sens et faites en sorte que les deux mains robotiques attachées aux bras ouvrent le pot, comme le ferait un humain."
2) "Transformez ce selfie en un portrait professionnel pour LinkedIn."
🤔 Raisonnement visuel - toutes les compétences ci-dessus aboutissent à un raisonnement.
Cela se mesure en donnant au modèle des défis basés sur la vision qui nécessitent un raisonnement étape par étape.
Pensez à faire des analogies, à résoudre des labyrinthes ou des énigmes, à utiliser des outils, ou à traverser un graphe.
1) "Sans franchir aucune limite noire, la souris grise du coin navigue habilement dans le labyrinthe en contournant jusqu'à ce qu'elle trouve le fromage jaune."
2) "Modifiez la grille en bas à droite pour respecter la règle établie par les autres grilles. Vous pouvez remplir des cellules, vider des cellules ou changer la couleur d'une cellule."
Voici la bonne nouvelle : le raisonnement visuel s'améliore avec le temps.
Les performances sur bon nombre de ces tâches ont augmenté de manière significative entre Veo 2 et Veo 3. J'ai inclus quelques exemples ci-dessous.
TL;DR - "Si vous attendez une physique précise dans les modèles vidéo, restez en ligne" 😂

258
Meilleurs
Classement
Favoris
