热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我今年最喜欢的论文:"视频模型是零样本学习者和推理者"
它说明视频模型在规模上展现了新兴的视觉推理能力——它们可以解决未经过训练的视觉任务。
这可能是视觉领域的"GPT时刻"。让我们来分析一下 👇
首先 - 为什么相信视频模型可能会发展出视觉推理能力?
文本中发生过类似的事情。我们曾经为每个任务训练特定的模型 - 但现在,LLM 具备了通用的语言理解能力,可以处理许多它们没有明确训练过的任务。
视频模型在规模上可能也会做到这一点。

这篇论文测量了由Veo 3生成的超过18k个视频,涵盖了定性和定量任务。
研究发现,Veo能够感知、修改和操控视觉世界(从图像 + 文本提示开始)——展示了它未经过明确训练的早期推理能力。
我们将逐一处理每个类别。

👀 感知 - 当被提示时,Veo 可以检测边缘并识别场景中的不同物体。
这意味着它可以作为一个分割模型运作,尽管没有在该任务上进行训练,这具有一些有趣的下游影响。
1)"在金刚鹦鹉栖息的树枝尖上添加一个明亮的蓝点。金刚鹦鹉的眼睛变成鲜红色。其他一切都变成漆黑。"
2)"蓝球瞬间开始发光。静态相机视角。"
🌐 建模 - Veo 可以根据这种感知对世界(以及支配它的原则)进行建模。
它展示了对物理学的深刻理解 - 比如空气阻力和浮力、折射和反射等光学现象,以及颜色混合。
1) "手放开了物体"
2) "一个巨大的镜面抛光金属球在房间里滚动"
🤏 操控 - Veo 可以根据这种感知和建模操控视觉世界。
这使得零样本图像编辑任务成为可能 - 想想场景合成、背景去除、风格迁移,甚至灵巧的操控。
1) "运用常识,让两个机器人手臂像人类一样打开罐子。"
2) "将这张自拍转变为 LinkedIn 的专业头像。"
🤔 视觉推理 - 以上所有技能都导致推理。
这通过给模型视觉基础的挑战来衡量,这些挑战需要逐步推理。
想象一下制作类比、解决迷宫或拼图、使用工具或遍历图形。
1) "在不越过任何黑色边界的情况下,灰色老鼠从角落灵巧地绕过迷宫,直到找到黄色奶酪。"
2) "修改右下角的网格,以遵循其他网格建立的规则。您可以填充单元格、清除单元格或更改单元格的颜色。"
好消息是:视觉推理随着时间的推移在不断改善。
在许多任务上的表现从Veo 2到Veo 3有了显著提升。我在下面列出了一些例子。
简而言之 - "如果你在等待视频模型中的准确物理效果,请耐心排队" 😂

229
热门
排行
收藏
