开源 AI 的天下,变了!

去年 7 月,LMArena 开源模型榜单上,前四名都还是清一色的美企GoogleNvidiaMetaCohere

而仅仅短短一年后的今天,形势就已彻底反转。

现在的前五,全都被中国大模型占领

智谱的 Z.ai 拿下榜首,阿里巴巴紧随其后,DeepSeek 位列第三,Moonshot AI(kimi 母公司)和美团 AI 分列四五。

这里多说一嘴这个 LMArena:

LMArena 可以说是目前 AI 业内公认最为权威的模型评测平台,由伯克利研究团队运营。

它的独特之处在于采用盲测机制,也就是让用户在完全不知道模型身份的情况下,对比两个 AI 的回答质量,然后投票选出更好的那个。

这种方式可以完全避免品牌偏见和打钱营销的噱头干扰,因为没有预设立场,没有刷榜空间,全是靠真实的用户在拿到模型结果后,用结果来说话

也是因为如此,LMArena 的排名被业界视为 AI 模型实力评估的金标准。OpenAI、Anthropic、Google 等几乎所有 AI 模型厂商都会密切关注自家模型在榜单上的表现。

值得一提的是,此前出爆被 LlaMa 4 在小扎 KPI 的 push 下钻了漏洞后,LMArena 也是及时采取了多项改进措施,比如提交的模型必须与公开版本一致公开了对战记录供公众审查等等。

虽不能说绝对意义上的 0 水分,但可以说 LMArena 是目前可信度最高的评测平台之一了。

当然,说之一而不是唯一,是因为还有另一个同样较为可靠的榜单:OpenRouter 的模型使用榜单(由开发者真刀真枪花钱来用的排行榜,也是 Andrew Karpathy 力荐的榜单):

榜单中除了Kimi,GLM-4.6美团龙猫DeepSeek V3.2 ExpQwen 3 也都纷纷现身 trending 榜首(Claude Sonnet 4.5 为闭源模型),也基本与 LMArena 排名一致。

以及,还可以看 HuggingFace 的 Trending 榜:

智谱登顶

先来说说在这场开源逆袭中最为惊艳、且目前排在榜首的智谱的 GLM-4.6 模型。

GLM-4.6 是智谱在国庆期间发布的最新旗舰模型,整体性能上超越了在其前一天发布的 DeepSeek-V3.2-Exp,并无限对齐 Claude Sonnet 4,甚至在部分指标上超过了 Claude Sonnet 4.5,见:GLM-4.6 来了,与 Claude 4.5 仅差一点点

4.5 和 4.6 本来也就,只差 0.1 点点

要知道,Claude 4.5 可是目前闭源模型的天花板啊!

而同时,GLM-4.6 也一举成为了国内最好的 Coding 模型,受到全球网友和开发者们的追捧:

就单说我的 Claude CodeX 编程交流群里,国庆以来 GLM-4.6 的讨论也显然密集了许多,现在也几乎成了每天都躲不掉的话题:

先前各种想办法去用中转站的朋友们,不少都转向了 GLM-4.6 的订阅包,从大家的反馈上基本都是:「GLM-4.6 已经无限接近 Claude 4.5 了。

而在另一边打助攻的,则是 Claude Code 在降智后开始不断缩水用量,以及原本还能一战的 OpenAI Codex 也像是因为 SORA 2 太烧 GPU 而间歇性降智,相比而言智谱的包月套餐简直是朴实的奢华、大雪中送炭了。

图片

从套餐价格及模型能力上看,可以说:现在我们可以用 1/7 的价格,买到 Claude Sonnet 4 / 4.5 九成的智商。

不得不说,价格方面咱中国公司是真的给卷到地板价了,有点离谱:Claude Max 一个月的钱,几乎快能够我订阅 GLM Max 一整年……

而说到模型订阅,我自己一直都是 Claude Code 的 200$ Max 会员 + ChatGPT 20$ 的 plus 会员,但由于最近这两坑货的各种迷惑行为,我也果断开了个 GLM 会员。

我最近的日常使用上,重要任务(比如需要持续迭代的大项目)还是会优先官方 Claude Code(毕竟确实还是略强一点,且我花了那么多的钱),刁钻一些难解决的 bug 则会尝试用 Codex(不都好使,但偶有奇效),而其他写个小脚本啥的任务我则几乎都切到 cc + GLM-4.6 了。

毕竟时代变了,那个对 Max 账号不限速的Claude Code 已经回不去了……而 GLM-4.6 也是这么又顶又便宜。

中国军团崛起

除了占据开源榜首的智谱外,阿里巴巴的 Qwen 则稳居开源模型第二,《华盛顿邮报》 的分析指出,智谱、阿里等中国公司的开源模型在 LMArena 盲测中的评分已经大幅超过了 OpenAI 和 Meta。

分析指出,中国模型公司 DeepSeek 在今年 1 月震撼了整个全球科技界:在 Hugging Face 平台上,DeepSeek 获得了 12.8k 个赞,是 Meta Llama 顶级模型(6.3k)的两倍,OpenAI 只排在第五位(4.0k)。

Moonshot AI 和美团 AI 则紧随其后也上了榜,在美国网友们看来则是:连家排名第五的外卖公司都打不过

Hugging Face 首席政策官 Irene Solaiman 评价说,中国公司 「发布频繁,质量优秀」,这正是建立用户基础的关键。

免费的降维打击

Rushabh Shah(@Rushabh_Shah777) 指出:

中国人正在构建最受欢迎的免费 AI,而大多数西方 AI 工具都在向你收费。创新不会等待监管、利润或炒作。免费访问 ≠ 免费质量。但中国刚刚证明了它可以两者兼得。

pirate philosophy(@essenciverse) 则分析称:

你不觉得吗,中国只是想通过开源将 AI 成本降到「零」,然后在机器人/能源上作为下一个有价值的东西进行资本化?

这或许,也正是中国 AI 策略的关键之处:

通过开源和低价,快速占领市场,培养用户习惯,然后在应用层面收割价值。

就像 Google 的 Android 系统一样,通过免费开源占领了全球智能手机市场,然后通过搜索、邮件等服务获利。

而此时,中国的 AI 公司正在疯狂复制这个成功模式。

甚至,不仅仅是文本,图像和视频也在遵循同样的趋势。

Solaiman 指出,中国竞争对手不仅更加高产,在其他用途的 AI 方面也极具竞争力,发布了生成图像和视频的最先进开源软件

而美国自己,也意识到了这个问题。

Trump 政府的 AI 战略敦促开发基于「美国价值观」的开放 AI 技术,希望它们成为具有「地缘战略价值」的全球标准。

一些美国高管、投资者和学者甚至发起了 ATOM 项目(American Truly Open Models),目标是创建一个美国 AI 实验室,开发能与世界最佳模型竞争的开源 AI。

但是呢,现实很骨感。

Meta 的 Zuckerberg 去年还在高喊要分享最好的模型和研究,今年不知咋想的就又改口了:公司需要「谨慎选择开源什么」,Meta 可能会把下一个模型留给自己,甚至 LeCun 的论文都不能随便发了得先过一下内审。

虽然 Anthropic 的 Claude 4.5、OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro 等最强的闭源模型仍然掌握在美国手中,但中国开源模型正在无限接近这个天花板。

有点滑稽的是,当美国模型公司们还在反复纠结调整如何定价、怎么各种限制使用量、怎么借“智能”的理由偷偷进行模型路由时,中国模型已经用开源 + 极致的性价比迅速拿下全球用户的心。

就拿智谱 GLM 来说,最低 20 元包月畅玩套餐,就能立享体验几乎全球最强的 Coding 模型!

这,也就一杯奶茶的价格啊!

好了,快来扫我的码,你我都会被白送 token:


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎进 Claude CodeX 交流群交流(见评论区)。

标签: 分类

添加新评论