跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-5.32%
USELESS
+0.52%
IKUN
-12.32%
gib
-9.57%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.6%
ALON
+0.12%
LAUNCHCOIN
+4.71%
GOONC
+2.18%
KLED
+11.59%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.54%
Boopa
+3.05%
PORK
+0.3%
主页
gum 九尾狐
gum 九尾狐
3 小时前
也许我应该更清楚地说明这一点,但相当多的人似乎混淆了这个基准实际上测量的内容。它不是,也不试图成为对代理或现实生活编码能力的测量。它试图近似当前大型语言模型在一组我直觉上认为特别难以解决的问题上的数学能力。我个人倾向于比大多数人更重视数学能力,这完全没问题。在我看来,大多数人不应该关心数学,也许Claude-4-5-Sonnet在你更看重的LLM方面更好。但严格来说,对于棘手的数学问题——这正是这张图表所声称的——GLM-4.6的表现优于Claude-4-5-Sonnet,仅此而已,不多也不少。它不是证据,也不声称Claude-4-5-Sonnet是一个整体上更差的模型,或者不是更适合你的选择。我不知道是否有些人想要错误解读,但我假设大多数人能够理解上述内容。这实际上只需要思考、阅读,并且看这张图表超过2秒钟。
gum 九尾狐
10月5日 04:55
GLM-4.6 的表现优于 claude-4-5-sonnet,同时价格便宜了约 8 倍
3.75K
32
gum 九尾狐
10月5日 04:55
GLM-4.6 的表现优于 claude-4-5-sonnet,同时价格便宜了约 8 倍
174.42K
1.01K
gum 九尾狐
2025年9月28日
Kimi 为 deepseek-v3.1-terminus(非推理)灵感而生的供应商基准
57.21K
213
热门
排行
收藏