我今年最喜欢的论文:"视频模型是零样本学习者和推理者" 它说明视频模型在规模上展现了新兴的视觉推理能力——它们可以解决未经过训练的视觉任务。 这可能是视觉领域的"GPT时刻"。让我们来分析一下 👇
首先 - 为什么相信视频模型可能会发展出视觉推理能力? 文本中发生过类似的事情。我们曾经为每个任务训练特定的模型 - 但现在,LLM 具备了通用的语言理解能力,可以处理许多它们没有明确训练过的任务。 视频模型在规模上可能也会做到这一点。
这篇论文测量了由Veo 3生成的超过18k个视频,涵盖了定性和定量任务。 研究发现,Veo能够感知、修改和操控视觉世界(从图像 + 文本提示开始)——展示了它未经过明确训练的早期推理能力。 我们将逐一处理每个类别。
👀 感知 - 当被提示时,Veo 可以检测边缘并识别场景中的不同物体。 这意味着它可以作为一个分割模型运作,尽管没有在该任务上进行训练,这具有一些有趣的下游影响。 1)"在金刚鹦鹉栖息的树枝尖上添加一个明亮的蓝点。金刚鹦鹉的眼睛变成鲜红色。其他一切都变成漆黑。" 2)"蓝球瞬间开始发光。静态相机视角。"
🌐 建模 - Veo 可以根据这种感知对世界(以及支配它的原则)进行建模。 它展示了对物理学的深刻理解 - 比如空气阻力和浮力、折射和反射等光学现象,以及颜色混合。 1) "手放开了物体" 2) "一个巨大的镜面抛光金属球在房间里滚动"
🤏 操控 - Veo 可以根据这种感知和建模操控视觉世界。 这使得零样本图像编辑任务成为可能 - 想想场景合成、背景去除、风格迁移,甚至灵巧的操控。 1) "运用常识,让两个机器人手臂像人类一样打开罐子。" 2) "将这张自拍转变为 LinkedIn 的专业头像。"
🤔 视觉推理 - 以上所有技能都导致推理。 这通过给模型视觉基础的挑战来衡量,这些挑战需要逐步推理。 想象一下制作类比、解决迷宫或拼图、使用工具或遍历图形。 1) "在不越过任何黑色边界的情况下,灰色老鼠从角落灵巧地绕过迷宫,直到找到黄色奶酪。" 2) "修改右下角的网格,以遵循其他网格建立的规则。您可以填充单元格、清除单元格或更改单元格的颜色。"
好消息是:视觉推理随着时间的推移在不断改善。 在许多任务上的表现从Veo 2到Veo 3有了显著提升。我在下面列出了一些例子。 简而言之 - "如果你在等待视频模型中的准确物理效果,请耐心排队" 😂
229