能最终找到真相的,往往不是沉思者,而是探索者。 
图片

昨晚Moonshot AI 宣布发布 Kimi K2 Thinking:

早前的思考模型,就像关在黑屋子里的哲学家,无论思考多深刻、推理多严密,都无法知道屋外正在发生什么。这种「思考」在本质上,我愿称之为内耗型思考——在自己的认知边界内反复推演,却无法突破信息的牢笼。

不同于传统的内耗型推理模型,K2 Thinking 实现了真正的边思考边行动:它能连续执行 200-300 轮工具调用,一边推理一边搜索,一边编程一边验证。

真相不在脑海里,在大千世界之中。

来,上展示!这是一道博士级别的数学题

K2 Thinking 模型通过23 次交替的推理和工具调用,最终,给出了正确答案。

更重要的是:这是目前最强的开源思考模型

超越 GPT-5

在人类最后的考试(HLE)上,K2 Thinking 拿下 44.9% 的成绩,超越 GPT-5 的 41.7%。

图片

BrowseComp 达到 60.2%,领先 GPT-5 的 54.9%,更是把 Claude Sonnet 4.5 (Thinking) 的 24.1% 远远甩在身后。

在 BrowseComp 中,人类平均只能达到 29.2%。K2 Thinking 的 60.2% 意味着,它在复杂信息搜索和推理上已经远超人类水平

在 Seal-0(真实世界信息收集)上,K2 Thinking 以 56.3% 的成绩同样领先 GPT-5 的 51.4% 和 Claude 的 53.4%。

编程能力同样出色:SWE-Multilingual 上达到 61.1%,超过 GPT-5 的 55.3%;LiveCodeBench V6 的 83.1% 更是大幅领先 Claude 的 64.0%。

这是开源模型首次,在多个关键指标上全面超越闭源巨头。

注意:不只是开源SOTA、国产SOTA,而是在 HLE、BrowseComp 等榜单全面超过闭源顶级模型 GPT-5 和 Claude Sonnet 4.5,即是世界级的SOTA。

真正的首次,开源领先闭源!(……字的颜色快不够用了

唯一不足是……

如果非要说 K2 Thinking 模型有什么不足,那就是,背后的公司估值严重不足……

来看几个数据:

  • 训练成本约 460 万美元据 CNBC 报道的消息人士,Kimi K2 Thinking 训练开销约 $4.6M(约合 460 万美元)。在“能边思考边行动”的前沿模型里,这个数字,显然过于“朴素”,让老外贱笑了(见 CNBC)。 

     加拿大 - 2025/07/15: 在这张照片插图中,可以看到金米AI的标志显示在智能手机屏幕上。(照片插图由托马斯·富勒/SOPA Images/LightRocket通过Getty Images提供)

  • 体量对比(估值)Moonshot 的最新公开估值约 33 亿美元;而 OpenAI 约 5000 亿美元Anthropic 约 1830 亿美元。粗算下来,Moonshot 估值不到 OpenAI 的 
    1%,也仅为 Anthropic 的 ~1.8% 左右。

一句话说:小体量 + 低预算,在高难基准上掰倒了闭源高估值巨头。

是 OpenAI 和 Anthropic 泡沫太高,还是 Moonshot 估值严重不足呢?这个,就得你自行判断了……

海外开发者再次沸腾

看到 K2 Thinking 模型的发布,全球网友都彻底按捺不住了,纷纷留言点赞。

Rohan paul(@Rohanpaul_ai) 表示:

世界上最强大的代理模型现已开源

注意:说的不是开源中最强的模型,而是说最强的模型开源了!

Muratcan Koylan(@deedydas) 称 Kimi 此次可谓是直接封神:

K2 Thinking 模型能完成几乎不可能完成的任务。

硅谷著名投资人 Deedy 也发文指出:

今天是人工智能的转折点:中国开源模型排名第一。

其他也是一边倒的网友点赞,请一色好评:

甚至就连友商智谱也大方前来送上祝福:

图片

会思考的 Agent 架构

K2 Thinking 最大的突破在于「测试时扩展」(Test-Time Scaling)——不仅扩展思考 Token,还扩展工具调用轮次。

模型采用混合专家架构(MoE)

  • 总参数:1T

  • 激活参数:32B

  • 层数:61 层(含 1 层密集层)

  • 注意力隐藏维度:7168

  • 专家数量:384 个

  • 每个 Token 选择 8 个专家

  • 上下文窗口:256K

  • 注意力机制:MLA

  • 激活函数:SwiGLU

  • 词汇表大小:160K

这种架构让它能在解决问题的过程中不断思考和调整策略。并通过 可多达数百次的交替的推理和工具调用最终解出答案。

比人类更会搜索

在 BrowseComp 测试中,K2 Thinking 展现了什么叫「刨根问底」。

图片

通过「思考 → 搜索 → 浏览 → 思考 → 编程」的动态循环,K2 Thinking 能持续提出假设、验证证据、推理分析,最终构建出逻辑一致的答案。

当工具执行结果导致输入超过上下文限制时,模型会智能地隐藏之前的工具输出,继续保持推理的连贯性。

256K 的上下文窗口,则让它能处理海量信息而不会遗忘关键细节。

原生 INT4 量化

K2 Thinking 采用量化感知训练(QAT),在后训练阶段对 MoE 组件应用 INT4 权重量化。

这带来了约 2 倍的生成速度提升,同时保持了 SOTA 性能。

所有的基准测试成绩都是在 INT4 精度下取得的,也就是说你不需要顶级硬件也能运行这个强大的模型。

INT4 对推理硬件的兼容性更强,对国产加速计算芯片也更加友好

部署使用

部署示例代码:

简单对话:

def simple_chat(client: openai.OpenAI, model_name: str):    messages = [        {"role""system""content""You are Kimi, an AI assistant created by Moonshot AI."},        {"role""user""content": [{"type""text""text""which one is bigger, 9.11 or 9.9? think carefully."}]},    ]    response = client.chat.completions.create(        model=model_name,        messages=messages,        stream=False,        temperature=1.0,  # 推荐温度设置        max_tokens=4096    )    print(f"k2 answer: {response.choices[0].message.content}")    print("=====below is reasoning content======")    print(f"reasoning content: {response.choices[0].message.reasoning_content}")

工具调用示例:

# 工具实现def get_weather(city: str) -> dict:    return {"weather""Sunny"}
# 工具定义tools = [{    "type""function",    "function": {        "name""get_weather",        "description""Retrieve current weather information.",        "parameters": {            "type""object",            "required": ["city"],            "properties": {                "city": {"type""string""description""Name of the city"}            }        }    }}]
# 执行工具调用def tool_call_with_client(client: OpenAI, model_name: str):    messages = [        {"role""system""content""You are Kimi, an AI assistant created by Moonshot AI."},        {"role""user""content""What's the weather like in Beijing today?"}    ]
    completion = client.chat.completions.create(        model=model_name,        messages=messages,        temperature=1.0,        tools=tools,        tool_choice="auto"    )    # 处理工具调用结果...

部署方式:

  • vLLM
  • SGLang
  • KTransformers

API 访问:

  • platform.moonshot.ai(OpenAI/Anthropic 兼容接口,除了 Kimi Cli,Claude Code, Codex 都可以接起来了)
  • 输入:4 元/百万 Token
  • 输出:16 元/百万 Token
  • Turbo API:100 Token/s,输入 8 元/百万 Token

开源许可证上,模型采用的是 Modified MIT License,即代码和模型权重都可以自由使用和修改。

实测

评分这么高,说了这么多,网友也赞了这么多,最后还是得看实操。我也用 K2 Thinking 和最强模型做了些对比测试。

先说一下用到的工具,这里有意思的是,Anthropic 和 Moonshot 目前都推出了命令行工具,我也就让他们各自用自家的的家伙来干活:Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.

实测一:谁更懂 Three.js?

我先让 K2 Thinking 和 Claude 来一场硬核较量,我准备了两个 Three.js 挑战,看看谁能输出更优雅的代码。

第一轮:3D 水族箱挑战 🐠

这是一个略有难度的需求,prompt 如下:

实现一个写实风格的 3D 水族箱,要求有三种不同 AI 行为的鱼群、真实的水体光照、焦散效果、投食互动……

Claude 输出效果:

Kimi输出效果:

从结果来看——

Claude Code:代码结构清晰,注释详细,但鱼好像不太想受浴缸的限制,开始了皆若空游无所依的跳动式逃离。

如果通过进一步的提示词约束,应该能效果更好。

而 Kimi CLI (K2 Thinking) 的完成过程确实如官方所言:

一边写代码一边搜索 Three.js 文档,一边检查错误,最后输出的赛博鱼群看起来也比较自然。

第二轮:语义空间可视化 🧠

这一轮的挑战就更有些抽象了,需要让“大语言模型的高维语义向量空间”以人类可感知的形式出现。要求模型生成一个可交互的 3D 语义空间可视化

  • 展示词语在三维空间中的分布与聚类;

  • 点击节点后自动连线至最相似的若干词;

  • 支持“第一人称视角”在词云中穿梭浏览;

这一任务的难点在于它是一个复合型挑战,同时考验模型在多个层面的理解与生成能力:

  1. 语义层理解模型需要准确把握“向量空间”与“相似度”的抽象概念,理解词语间关系的高维本质。

  2. 空间映射推理将高维嵌入压缩至 3D 坐标的同时,保持语义邻近性与分布合理性,需要模型具备一定的数学与几何直觉。

  3. 可视化生成与代码推理涉及 Three.js 的场景搭建、事件监听、动态渲染与物理交互逻辑,是对模型前端工程化理解的综合考验。

Claude 输出效果:

kimi 输出效果:

这轮的表现:

Claude Code 一次性生成了完整代码,逻辑严谨,确实可以直接拿来做课堂教学了,和上课一样有些无聊。

Kimi CLI (K2 Thinking) 则又一次通过多轮推理,先是实现了基础功能,然后又在迭代中自主地加了个粒子尾迹效果,但从视觉效果来看,倒是确实挺酷炫的

对比下来,两个工具各有千秋:

Claude Code 就像个经验丰富的 E 人老司机,代码高效,该有的都有,稳得一批。适合需要快速出活,大开大阖的场景。

Kimi K2 Thinking则更像个细腻的 I 人程序员校招生,会不停地思考“还能怎么优化”,虽然慢了点,但最终效果经常让你惊喜——它真的会去查文档、测试边界情况,甚至主动考虑性能优化。

而值得一提的是,K2 在生成水族箱代码时,竟然还考虑到了“鱼吃饱了会游得慢一点”这样的细节(我都没要求!)。

上面的完整的对比实验代码、提示词、运行效果,我都整理好了,有兴趣的朋友可以体验下:

GitHub 仓库链接:

https://github.com/qwwzdyj/VectorSpace-Explorer

并且我也扔到 yourware 上部署了可以直接看(对我而言,youware 可能唯一有点用的地方了)

向量:

https://youware.app/project/jda4kdg1q5

https://youware.app/project/vs2u3dlgu2

水族馆:

https://youware.app/project/14cek9gtc6

https://youware.app/project/wmsbniei65

我决定

测完,我决定:

是时候退掉 Claude 200 美元的 Max 会员了!

当然,还会是保留个 100$ 的,我自然得是 全都要!

让 Claude 快速出原型,用 Kimi K2 Thinking做深度优化,再结合 Codex 补补漏,多个    工具配合使用,三个臭皮匠都能抵一个诸葛亮,而有这三在手,我有种将要天下无敌的错觉

唯一让我担心的是,如果我想用 Kimi 来花掉从 Claude 这里省下来的 100$,是不是要没时间睡觉了……



[1]

技术博客: https://moonshotai.github.io/Kimi-K2/thinking.html

[2]

API 平台: https://platform.moonshot.ai/

[3]

Hugging Face: https://huggingface.co/moonshotai

[4]

GitHub 部署指南: https://github.com/moonshotai/Kimi-K2-Thinking

[5]

模型下载: https://huggingface.co/moonshotai/Kimi-K2-Thinking

[6]

在线体验: https://kimi.com/

[7]

Discord 社区: https://discord.gg/TYU2fdJykW


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!

也欢迎加群和10000+群友交流。

标签: 分类

添加新评论