热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
数学奥林匹克中的人工智能:数学问题解决的新纪元
国际数学奥林匹克(IMO)长期以来一直是全球顶尖学生的最艰难数学竞赛。
现在,它也正在成为人工智能推理的基准。👇
今年标志着一个里程碑:
谷歌DeepMind和OpenAI的AI模型在国际数学奥林匹克(IMO)问题上达到了金牌水平——与顶尖人类选手相同的水平。
这是AI在抽象数学推理能力上的一次真正飞跃。
事件时间线:
> 星期五:关于DeepMind获得金牌表现的消息泄露
> 星期六凌晨1点:OpenAI在官方确认之前宣布了结果
> 星期一:DeepMind正式确认金牌状态,优雅的解决方案已由国际数学奥林匹克(IMO)官员完全验证。他们的解决方案更加优雅且经过严格检查。
2024 年至 2025 年的技术转变
去年:像 AlphaGeometry 这样的 AI 模型需要域转换(精益等)+ 2-3 天的计算时间。
今年:Gemini 和 OpenAI 的模型在 IMO 的 4.5 小时限制内以自然语言端到端解决了问题。
风格差异
OpenAI的回答:
> 逻辑上合理,但杂乱无章
> 缺乏结构,过度使用“禁止”等术语
> 对于某些问题超过400行
> 不易于人类阅读
Gemini的证明:
> 优雅且清晰,IMO评分者表示它们“易于理解”
> 可以通过人类写作的标准
问题 2(几何)显示了差距:
OpenAI 使用暴力坐标几何→正确但笨拙的 442 行证明
DeepMind 的 Gemini 使用角度追逐和西尔维斯特定理→简洁、富有洞察力的解决方案,反映了熟练的人类。
为什么 Gemini 成功了
> 并行思维:同时探索多个解决方案路径
> 增强多步推理的新型强化学习技术
> 获得精心策划的数学解决方案和战略提示
OpenAI 的方法?
通用强化学习 + 测试时计算扩展。
这意味着什么
解决 IMO 问题令人印象深刻,但真正的数学更深入:
> 抽象推理
>概念创建
> 研究直觉
我们还没有到那一步,但这是向前迈出的真正一步。
为了真正推动人工智能数学能力向前发展,我们需要:
> 精细奖励函数
> 专用 RL 管道
>或者也许......一种没有人预料到的通配符技术
随着人工智能在数学、科学和研究领域的深入,计算需求急剧增加。
这就是为什么获得可负担的、可扩展的GPU基础设施至关重要。
让我们让未来对所有人都可及。
查看完整博客请点击这里:
我们与Latent Space的完整播客在这里:
1.07K
热门
排行
收藏