一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我今年最喜欢的论文："视频模型是零样本学习者和推理者" 它说明视频模型在规模上展现了新兴的视觉推理能力——它们可以解决未经过训练的视觉任务。这可能是视觉领域的"GPT时刻"。让我们来分析一下 👇

首先 - 为什么相信视频模型可能会发展出视觉推理能力？文本中发生过类似的事情。我们曾经为每个任务训练特定的模型 - 但现在，LLM 具备了通用的语言理解能力，可以处理许多它们没有明确训练过的任务。视频模型在规模上可能也会做到这一点。

这篇论文测量了由Veo 3生成的超过18k个视频，涵盖了定性和定量任务。研究发现，Veo能够感知、修改和操控视觉世界（从图像 + 文本提示开始）——展示了它未经过明确训练的早期推理能力。我们将逐一处理每个类别。

👀 感知 - 当被提示时，Veo 可以检测边缘并识别场景中的不同物体。这意味着它可以作为一个分割模型运作，尽管没有在该任务上进行训练，这具有一些有趣的下游影响。 1）"在金刚鹦鹉栖息的树枝尖上添加一个明亮的蓝点。金刚鹦鹉的眼睛变成鲜红色。其他一切都变成漆黑。" 2）"蓝球瞬间开始发光。静态相机视角。"

🌐 建模 - Veo 可以根据这种感知对世界（以及支配它的原则）进行建模。它展示了对物理学的深刻理解 - 比如空气阻力和浮力、折射和反射等光学现象，以及颜色混合。 1) "手放开了物体" 2) "一个巨大的镜面抛光金属球在房间里滚动"

🤏 操控 - Veo 可以根据这种感知和建模操控视觉世界。这使得零样本图像编辑任务成为可能 - 想想场景合成、背景去除、风格迁移，甚至灵巧的操控。 1) "运用常识，让两个机器人手臂像人类一样打开罐子。" 2) "将这张自拍转变为 LinkedIn 的专业头像。"

🤔 视觉推理 - 以上所有技能都导致推理。这通过给模型视觉基础的挑战来衡量，这些挑战需要逐步推理。想象一下制作类比、解决迷宫或拼图、使用工具或遍历图形。 1) "在不越过任何黑色边界的情况下，灰色老鼠从角落灵巧地绕过迷宫，直到找到黄色奶酪。" 2) "修改右下角的网格，以遵循其他网格建立的规则。您可以填充单元格、清除单元格或更改单元格的颜色。"

好消息是：视觉推理随着时间的推移在不断改善。在许多任务上的表现从Veo 2到Veo 3有了显著提升。我在下面列出了一些例子。简而言之 - "如果你在等待视频模型中的准确物理效果，请耐心排队" 😂

229