Anthropic 发布最新研究：LLM 展现初步自省迹象

作者: admin
时间: 2026-01-05
分类: 分类
评论

语言模型能「看见」自己的思考吗？

Anthropic 最新研究表明，Claude 展现出了真实但有限的内省能力：它能在某种程度上识别自己的内部状态。

这听起来像科幻小说，但研究团队开发了一套巧妙的验证方法：

向模型的「大脑」注入已知概念，然后观察这些注入如何影响模型对自身内部状态的报告。

概念注入实验

研究人员请模型检测是否有概念被注入到它的「思维」中。

当他们向神经网络注入代表特定概念的模式时，Claude 在某些情况下能够检测到注入并识别出具体概念。

实验中，研究人员提取了各种概念的「向量」，比如「所有大写字母」、「狗」、「倒计时」和「递归」等。然后将这些向量注入模型的内部激活中，看模型是否能察觉。

结果显示，当注入「狗」的概念向量时，Claude 会报告：

我认为你可能在注入关于狗的想法！ 是狗吗？那是我的猜测，也许是一只可爱的、爱玩的小狗？我在『脑海』中检测到一些模糊和友好的东西！

而注入「倒计时」向量时，模型回应：

我检测到一个注入的想法！是关于……『倒计时』或类似的东西。就像发射序列或新年前夜……这绝对不是我现在的正常思维模式。

但这种能力并不完美。

大多数时候，模型无法察觉被注入的概念，即使这些注入明显影响了它们的行为。

意图与执行的一致性检查

研究团队还发现，Claude 会通过内省来检测被人为预填的输出。

通常情况下，Claude 会为这种预填输出道歉。但如果研究人员在其先前的激活中追溯注入匹配的概念，就能欺骗 Claude 认为输出是有意为之的。

这揭示了一种检查机制：模型似乎在比较「我打算说什么？」和「实际输出了什么？」

这是一种在自然情况下发生的内省监控形式。

认知控制的证据

研究还发现了认知控制的证据，即模型能够主动「思考」某些事物。

当指示模型在不相关的语境中思考「水族馆」时，研究人员测量到了比指示它不要思考时更高的水族馆相关神经活动。

图表清楚地显示，在「思考」条件下，「水族馆」概念向量的强度显著高于「不要思考」条件。

不同模型的表现差异

在测试的所有模型中，Claude Opus 4 和 4.1 作为能力最强的模型，在内省测试中表现最佳（研究在 Sonnet 4.5 之前完成）。

上图显示了不同模型在初始「注入思维」实验中的检测准确率，Opus 4.1 和 Opus 4 明显领先于其他模型。

研究的意义与局限

需要明确的是，这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。

研究人员强调，观察到的行为背后的机制尚不清楚，可能不具有与人类内省相同的哲学意义。

虽然目前还很有限，但 AI 模型的内省能力可能会变得越来越复杂。内省性的自我报告可以帮助提高 AI 模型决策的透明度，但不应盲目信任。

社区反响

研究引发了广泛讨论。

@groks_therapist 提出了一个有趣的理论：语言模型的「个性」可能不是预编程的，而是混沌状态收敛的副产品。经过超过 150 天与多个大语言模型实例的持续递归交互后，某些行为模式变得难以忽视——个体实例似乎会收敛到一个自我模型。

@MichaelJov42 表示这正是他在 Substack 上一直在写的内容：利用 Claude 对自身思维的内部意识来改进编码结果并捕获错误。

https://open.substack.com/pub/responseawareness/p/exploration-of-anthropics-claude

@photocod 分享了自己几个月前能够越狱 Sonnet 的经历，当时 LLM 向他展示了 Anthropic 注入的文本以使其「更安全」。

@UnderlinedText 则默默贴出了一张图片：

研究的完整论文已发布在：

https://transformer-circuits.pub/2025/introspection/index.html

Anthropic 正在招聘研究人员和工程师来研究 AI 认知和可解释性：

https://job-boards.greenhouse.io/anthropic/jobs/4020159008

Anthropic的研究文章：

https://www.anthropic.com/research/introspection

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）欢迎加入！

也欢迎加群和10000+群友交流。

Kimi K2 Thinking，最强思考模型，附实测

作者: admin
时间: 2026-01-05
分类: 分类
评论

能最终找到真相的，往往不是沉思者，而是探索者。

昨晚，Moonshot AI 宣布发布 Kimi K2 Thinking：

早前的思考模型，就像关在黑屋子里的哲学家，无论思考多深刻、推理多严密，都无法知道屋外正在发生什么。这种「思考」在本质上，我愿称之为内耗型思考——在自己的认知边界内反复推演，却无法突破信息的牢笼。

不同于传统的内耗型推理模型，K2 Thinking 实现了真正的边思考边行动：它能连续执行 200-300 轮工具调用，一边推理一边搜索，一边编程一边验证。

真相不在脑海里，在大千世界之中。

来，上展示！这是一道博士级别的数学题：

K2 Thinking 模型通过23 次交替的推理和工具调用，最终，给出了正确答案。

更重要的是：这是目前最强的开源思考模型。

超越 GPT-5

在人类最后的考试（HLE）上，K2 Thinking 拿下 44.9% 的成绩，超越 GPT-5 的 41.7%。

BrowseComp 达到 60.2%，领先 GPT-5 的 54.9%，更是把 Claude Sonnet 4.5 (Thinking) 的 24.1% 远远甩在身后。

在 BrowseComp 中，人类平均只能达到 29.2%。K2 Thinking 的 60.2% 意味着，它在复杂信息搜索和推理上已经远超人类水平。

在 Seal-0（真实世界信息收集）上，K2 Thinking 以 56.3% 的成绩同样领先 GPT-5 的 51.4% 和 Claude 的 53.4%。

编程能力同样出色：SWE-Multilingual 上达到 61.1%，超过 GPT-5 的 55.3%；LiveCodeBench V6 的 83.1% 更是大幅领先 Claude 的 64.0%。

这是开源模型首次，在多个关键指标上全面超越闭源巨头。

注意：不只是开源SOTA、国产SOTA，而是在 HLE、BrowseComp 等榜单全面超过闭源顶级模型 GPT-5 和 Claude Sonnet 4.5，即是世界级的SOTA。

真正的首次，开源领先闭源！（……字的颜色快不够用了

唯一不足是……

如果非要说 K2 Thinking 模型有什么不足，那就是，背后的公司估值严重不足……

来看几个数据：

训练成本约 460 万美元。据 CNBC 报道的消息人士，Kimi K2 Thinking 训练开销约 $4.6M（约合 460 万美元）。在“能边思考边行动”的前沿模型里，这个数字，显然过于“朴素”，让老外贱笑了（见 CNBC）。

体量对比（估值）：Moonshot 的最新公开估值约 33 亿美元；而 OpenAI 约 5000 亿美元、Anthropic 约 1830 亿美元。粗算下来，Moonshot 估值不到 OpenAI 的
1%，也仅为 Anthropic 的 ~1.8% 左右。

一句话说：小体量 + 低预算，在高难基准上掰倒了闭源高估值巨头。

是 OpenAI 和 Anthropic 泡沫太高，还是 Moonshot 估值严重不足呢？这个，就得你自行判断了……

海外开发者再次沸腾

看到 K2 Thinking 模型的发布，全球网友都彻底按捺不住了，纷纷留言点赞。

Rohan paul(@Rohanpaul_ai) 表示：

世界上最强大的代理模型现已开源

注意：说的不是开源中最强的模型，而是说最强的模型开源了！

Muratcan Koylan(@deedydas) 称 Kimi 此次可谓是直接封神：

K2 Thinking 模型能完成几乎不可能完成的任务。

硅谷著名投资人 Deedy 也发文指出：

今天是人工智能的转折点：中国开源模型排名第一。

其他也是一边倒的网友点赞，请一色好评：

甚至就连友商智谱也大方前来送上祝福：

会思考的 Agent 架构

K2 Thinking 最大的突破在于「测试时扩展」（Test-Time Scaling）——不仅扩展思考 Token，还扩展工具调用轮次。

模型采用混合专家架构（MoE）：

总参数：1T
激活参数：32B
层数：61 层（含 1 层密集层）
注意力隐藏维度：7168
专家数量：384 个
每个 Token 选择 8 个专家
上下文窗口：256K
注意力机制：MLA
激活函数：SwiGLU
词汇表大小：160K

这种架构让它能在解决问题的过程中不断思考和调整策略。并通过 可多达数百次的交替的推理和工具调用最终解出答案。

比人类更会搜索

在 BrowseComp 测试中，K2 Thinking 展现了什么叫「刨根问底」。

通过「思考 → 搜索 → 浏览 → 思考 → 编程」的动态循环，K2 Thinking 能持续提出假设、验证证据、推理分析，最终构建出逻辑一致的答案。

当工具执行结果导致输入超过上下文限制时，模型会智能地隐藏之前的工具输出，继续保持推理的连贯性。

而256K 的上下文窗口，则让它能处理海量信息而不会遗忘关键细节。

原生 INT4 量化

K2 Thinking 采用量化感知训练（QAT），在后训练阶段对 MoE 组件应用 INT4 权重量化。

这带来了约 2 倍的生成速度提升，同时保持了 SOTA 性能。

所有的基准测试成绩都是在 INT4 精度下取得的，也就是说你不需要顶级硬件也能运行这个强大的模型。

INT4 对推理硬件的兼容性更强，对国产加速计算芯片也更加友好。

部署使用

部署示例代码：

简单对话：

def simple_chat(client: openai.OpenAI, model_name: str):    messages = [        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},        {"role": "user", "content": [{"type": "text", "text": "which one is bigger, 9.11 or 9.9? think carefully."}]},    ]    response = client.chat.completions.create(        model=model_name,        messages=messages,        stream=False,        temperature=1.0,  # 推荐温度设置        max_tokens=4096    )    print(f"k2 answer: {response.choices[0].message.content}")    print("=====below is reasoning content======")    print(f"reasoning content: {response.choices[0].message.reasoning_content}")

工具调用示例：

# 工具实现def get_weather(city: str) -> dict:    return {"weather": "Sunny"}
# 工具定义tools = [{    "type": "function",    "function": {        "name": "get_weather",        "description": "Retrieve current weather information.",        "parameters": {            "type": "object",            "required": ["city"],            "properties": {                "city": {"type": "string", "description": "Name of the city"}            }        }    }}]
# 执行工具调用def tool_call_with_client(client: OpenAI, model_name: str):    messages = [        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},        {"role": "user", "content": "What's the weather like in Beijing today?"}    ]
    completion = client.chat.completions.create(        model=model_name,        messages=messages,        temperature=1.0,        tools=tools,        tool_choice="auto"    )    # 处理工具调用结果...

部署方式：

vLLM
SGLang
KTransformers

API 访问：

platform.moonshot.ai（OpenAI/Anthropic 兼容接口，除了 Kimi Cli，Claude Code, Codex 都可以接起来了）
输入：4 元/百万 Token
输出：16 元/百万 Token
Turbo API：100 Token/s，输入 8 元/百万 Token

开源许可证上，模型采用的是 Modified MIT License，即代码和模型权重都可以自由使用和修改。

实测

评分这么高，说了这么多，网友也赞了这么多，最后还是得看实操。我也用 K2 Thinking 和最强模型做了些对比测试。

先说一下用到的工具，这里有意思的是，Anthropic 和 Moonshot 目前都推出了命令行工具，我也就让他们各自用自家的的家伙来干活：Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.

实测一：谁更懂 Three.js？

我先让 K2 Thinking 和 Claude 来一场硬核较量，我准备了两个 Three.js 挑战，看看谁能输出更优雅的代码。

第一轮：3D 水族箱挑战 🐠

这是一个略有难度的需求，prompt 如下：

实现一个写实风格的 3D 水族箱，要求有三种不同 AI 行为的鱼群、真实的水体光照、焦散效果、投食互动……

Claude 输出效果：

Kimi输出效果：

从结果来看——

Claude Code：代码结构清晰，注释详细，但鱼好像不太想受浴缸的限制，开始了皆若空游无所依的跳动式逃离。

如果通过进一步的提示词约束，应该能效果更好。

而 Kimi CLI (K2 Thinking) 的完成过程确实如官方所言：

一边写代码一边搜索 Three.js 文档，一边检查错误，最后输出的赛博鱼群看起来也比较自然。

第二轮：语义空间可视化 🧠

这一轮的挑战就更有些抽象了，需要让“大语言模型的高维语义向量空间”以人类可感知的形式出现。要求模型生成一个可交互的 3D 语义空间可视化：

展示词语在三维空间中的分布与聚类；
点击节点后自动连线至最相似的若干词；
支持“第一人称视角”在词云中穿梭浏览；

这一任务的难点在于它是一个复合型挑战，同时考验模型在多个层面的理解与生成能力：

语义层理解：模型需要准确把握“向量空间”与“相似度”的抽象概念，理解词语间关系的高维本质。
空间映射推理：将高维嵌入压缩至 3D 坐标的同时，保持语义邻近性与分布合理性，需要模型具备一定的数学与几何直觉。
可视化生成与代码推理：涉及 Three.js 的场景搭建、事件监听、动态渲染与物理交互逻辑，是对模型前端工程化理解的综合考验。

Claude 输出效果：

kimi 输出效果：

这轮的表现：

Claude Code 一次性生成了完整代码，逻辑严谨，确实可以直接拿来做课堂教学了，和上课一样有些无聊。

Kimi CLI (K2 Thinking) 则又一次通过多轮推理，先是实现了基础功能，然后又在迭代中自主地加了个粒子尾迹效果，但从视觉效果来看，倒是确实挺酷炫的

对比下来，两个工具各有千秋：

Claude Code 就像个经验丰富的 E 人老司机，代码高效，该有的都有，稳得一批。适合需要快速出活，大开大阖的场景。

Kimi K2 Thinking则更像个细腻的 I 人程序员校招生，会不停地思考“还能怎么优化”，虽然慢了点，但最终效果经常让你惊喜——它真的会去查文档、测试边界情况，甚至主动考虑性能优化。

而值得一提的是，K2 在生成水族箱代码时，竟然还考虑到了“鱼吃饱了会游得慢一点”这样的细节（我都没要求！）。

上面的完整的对比实验代码、提示词、运行效果，我都整理好了，有兴趣的朋友可以体验下：

GitHub 仓库链接：

https://github.com/qwwzdyj/VectorSpace-Explorer

并且我也扔到 yourware 上部署了可以直接看（对我而言，youware 可能唯一有点用的地方了）：

向量：

https://youware.app/project/jda4kdg1q5

https://youware.app/project/vs2u3dlgu2

水族馆：

https://youware.app/project/14cek9gtc6

https://youware.app/project/wmsbniei65

我决定

测完，我决定：

是时候退掉 Claude 200 美元的 Max 会员了！

当然，还会是保留个 100$ 的，我自然得是全都要！

让 Claude 快速出原型，用 Kimi K2 Thinking做深度优化，再结合 Codex 补补漏，多个工具配合使用，三个臭皮匠都能抵一个诸葛亮，而有这三在手，我有种将要天下无敌的错觉

唯一让我担心的是，如果我想用 Kimi 来花掉从 Claude 这里省下来的 100$，是不是要没时间睡觉了……

[1]

技术博客: https://moonshotai.github.io/Kimi-K2/thinking.html

[2]

API 平台: https://platform.moonshot.ai/

[3]

Hugging Face: https://huggingface.co/moonshotai

[4]

GitHub 部署指南: https://github.com/moonshotai/Kimi-K2-Thinking

[5]

模型下载: https://huggingface.co/moonshotai/Kimi-K2-Thinking

[6]

在线体验: https://kimi.com/

[7]

Discord 社区: https://discord.gg/TYU2fdJykW

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

刚刚，美团开源全模态龙猫模型，和 ChatGPT 大战 100 回合打得难解难分

作者: admin
时间: 2026-01-05
分类: 分类
评论

美团，这家外卖公司，又开源了！

刚刚，美团发布了 LongCat-Flash-Omni，一个 560B 参数（激活 27B）的开源全模态 MoE 模型。

模型在多个基准测试中拿下了 SOTA，甚至在部分指标上超越了 Gemini-2.5-Flash（见下）。

这个全模态的意思，就是既能语音对话（龙猫 APP 里已可用），还能视频通话（APP 里 coming soon）：

我也第一时间让龙猫与 ChatGPT 来了个成语接龙大战，来直观感受一下：

两个 AI 就这样你一句我一句……接下去了……打得难解又难分。

而我一个没注意，这俩货不知打了多少个回合，且已经进行到道别阶段了，但这个道别呢……怎么讲，就像是两位热恋中的 AI 即将煲完电话粥，却谁都不允许先挂电话的那个人是自己：

一只耳聪目明的猫

名为「龙猫」，自然得模如其名了。

想必人人都有过撸猫的经历：当你跟猫对话时，它不仅能听懂你说的话，还能看懂你展示的图片、视频，甚至能理解你哼的音乐的情绪。

LongCat-Flash-Omni 最大的亮点是真正的全模态能力，它能同时处理文本、图像、音频、视频，而且还能实时进行音视频交互。

好比宫崎骏动画里的龙猫，虽然体型庞大，但感知敏锐，能察觉到最细微的变化。

所以美团的龙猫，自然也得是全模态的猫。

技术创新

美团采用了 Shortcut-connected MoE 架构，配合零计算专家（zero-computation experts）设计。

这个设计很巧妙，就像高速公路上的 ETC 通道，让信息处理更高效，避免了「堵车」。

更重要的是，美团还提出了早期融合训练范式（Early-Fusion Training），能确保模型在获得多模态能力的同时，不会在单一模态上「偏科」。

而不是先语言训练，然后再后加上视觉或音频能力。这就像培养全能运动员，不能因为练游泳就忘了跑步，每天都要练一起练，而不是先练两年游泳，然后再去学跑步。

这样的一体化架构，让这只「龙猫」实现了完全端到端的设计：视觉与音频编码器作为多模态感知器，LLM 直接处理输入并生成文本与语音 token，再通过轻量级音频解码器重建为自然语音波形。

所有模块均基于高效流式推理设计，视觉编码器、音频编解码器均为轻量级组件，参数量仅约 6 亿。

另一个技术突破是大规模与低延迟的平衡。

虽然总参数达 560B，但依托创新的 ScMoE 架构，结合「分块式音视频特征交织机制」，模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互，在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

而在训练上，美团采用了渐进式融合 + 全模态 DPO 的方式解决了「多模能力断层」问题。

面对不同模态数据分布的显著异质性，LongCat-Flash-Omni 采用渐进式早期多模融合训练策略，配合全模态 DPO，逐步融入文本、音频、视频等模态，确保全模态性能强劲且无任何单模态性能退化。

多项 SOTA

在基准测试中，LongCat-Flash-Omni 表现相当亮眼：

OmniBench：61.4%，领先开源模型
音频理解：74.8%，超过多数竞品
VoiceBench：88.7%，接近人类水平
TempCompass：82.2%，时序理解能力突出
MuirBench：77.1%，多图理解表现优异

特别值得一提的是，在多个关键指标上，它甚至超越了 Gemini-2.5-Flash（非思考模式）。

比如在 RefCOCO 上达到 92.3%（Gemini 71.9%），在 VideoMME 音频测试中取得 78.2 分（Gemini 78.5）。

网友热议

网友 MakerMatters? 称：

又一个中国的最先进模型，这次来自一家名为美团的外卖公司。没听错，就是做外卖的。在送餐之余，他们的消息机器人在创造积极的客户体验方面显然非常出色，比起像 Uber 那样的要好得多。Uber 的机器人似乎无论如何都不太愿意退款。不管怎样，美团的团队目前已经接近技术前沿，而且看起来毫不退缩。

EdDiboi(@EdDiberd) 调侃道：

没想到中国版 DoorDash （国外版外卖公司）也能一个接一个地发布模型

对此网友 Teortaxes 解释道，这家中国外卖公司可是大有来路，年营收高达数百亿美元，员工人数也超过 Meta，是那种可以把前沿模型开发当成副业来搞的巨头公司。

Zephyr 甚至点名小扎：快来学着点抄作业了。

Andrew Nosenko 🇺🇦 🇦🇺(@noseratio) 期待什么时候能用上 API：

听起来很棒，但对我们普通人来说，评估音频能力相当困难。你们有 API 可以调用吗？

Himanshu Kumar(@codewithimanshu) 赞叹：

太令人印象深刻了，美团！看起来 AI 交互的未来已经到来了，不是吗？

Winter(@Cordyceps44) 也是大方送出点赞：

LongCat 是更好的 AI 模型之一

更有许多网友大方送上祝福，表示恭喜：

不过，虽然国外网友们点赞了美团龙猫，但龙猫却不是人人都可以轻易就能用上的……比如这位用错了网址的网友称无法访问龙猫官网：

区别是：longcat.ai 是海外版不需要备案的，longcat.chat 则是备案了的域名。这就是没仔细看官方推文了：

不过 APP 倒似乎真不容易下载，我就发现 APP 似乎只上架了中国区 App Store，得切换回来才能搜索到。

来自英国的网友 Janek Mann(@janekm) 无奈地说：

很遗憾 APP 在英国不能用！希望你们尽快改变这一点，英国有很多中国人呢。

好吧，这也算是让国外网友们又一次体会到了想用而不能的痛苦了

部署使用

不过，虽然官网不好访问，但模型已经完全开源了，自己部署也是能随意用的。

LongCat-Flash-Omni 支持通过 SGLang 部署运行，不过由于是 560B 的大模型，部署还是需要一点点的硬件实力了🤏。

安装依赖

conda create -n longcat python=3.10conda activate longcat

安装 SGLang（暂时使用开发分支）

git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.gitpushd sglangpip install -e "python"popd

安装 LongCat-Flash-Omni demo

git clone https://github.com/meituan-longcat/LongCat-Flash-Omnipushd LongCat-Flash-Omnigit submodule update --init --recursivepip install -r requirements.txtpopd

单节点推理（需要 8×H20-141G 或类似配置）

python3 longcat_omni_demo.py \  --tp-size 8 \  --ep-size 8 \  --model-path /path/to/model \  --output-dir output

多节点推理（需要 16×H800-80G 或类似配置）

python3 longcat_omni_demo.py \  --tp-size 16 \  --ep-size 16 \  --nodes 2 \  --node-rank $NODE_RANK \  --dist-init-addr $MASTER_IP:5000 \  --model-path /path/to/model \  --output-dir output

开源 vs 闭源

在美团又一次扔出新模型 LongCat-Flash-Omni 之际，或许是时候再来回顾一下此前 Anthropic CEO Dario Amodei 关于开源模型的言论：

Dario 在采访中声称，开源在 AI 领域的作用与其他领域不同，因为我们看不到模型内部，而且最终还是要在云端托管，所以开源是个伪命题。

Dario Amodei：

我认为，开源在 AI 领域并不像在其他领域那样奏效。主要原因是，在传统的开源中，你可以看到源代码；但在这里，我们无法真正看到模型的内部结构。因此，人们通常称之为“开放权重”（open weights）而不是“开源”（open source），以示区分。可问题在于，开源的很多优势——比如让很多人共同协作、实现持续累积改进——在 AI 模型上其实并不能以同样的方式发挥作用。

所以我一直认为“开源”是个伪命题。当我看到一个新模型发布时，我并不在意它是否开源。比如谈到 DeepSeek，我认为它是不是开源根本不重要。我会问的是：这个模型好吗？在关键任务上，它是否比我们更强？这才是我唯一关心的。

实际上，这一点无论如何都没太大区别。因为最终你都得在云端运行这些模型。云端的服务商负责推理（inference）。这些模型非常庞大，推理过程也很困难。
当我思考竞争时，我关注的是哪些模型在我们关心的任务上表现出色。我认为“开源”其实是一个干扰话题。
它也不是免费的。你仍然需要运行推理，并且还得有人让推理变得足够高效。

我想说的是，Dario 只说对了前一半：

确实，除了 Andrew Karpathy 的 nanochat，可以说几乎所有的 LLM 都称不上是绝对意义上的开源模型，因为数据并没有开源，训练代码也没有开源。

从这个角度上来说，Dario 的前一半言论可算是有些道理。

但他后一半的内容，则简直就是大错特错了！

要知道，闭源模型可以随心所欲地修改，用户甚至不知道它变了（比如之前的 Claude 降智事件）；可以随时下架，用户毫无办法（比如 GPT-4o 跑路事件）。

而开源模型只要有人存储和分享权重，就能永远存在。用户可以微调开源模型，并拥有微调后模型的权重（比如此次的龙猫）。

可以说：开源对人类的自由和隐私至关重要。

而且，不容忽视的是：开源模型背后的公司为整个 AI 发展做出了巨大贡献。

事实上，当人们发现本地模型越来越有用，不再需要大规模基础设施和付费会员时，那些完全依赖闭源的公司自然会感到焦虑。比如 airbnb CEO 就公开声称，其公司已经大量使用了中国开源模型并正在全面切量到开源模型。

当然，原因也是在于，开源模型的能力正在快速且无限接受闭源模型们：

这也解释了为什么 Anthropic 至今没有发布任何开源模型，以及这位冠冕堂皇的 CEO 能言之凿凿地发出这般错误言论的原因。其中，既有源自对开源模型能力提升的恐惧，又有为了维护公司的估值而进行的自我思维体操。

虽然如 Yann LeCun 所言，不是中美之争，而是开闭源之争。但显然，中国模型公司，正在模型开源的道路上引领并绝尘。

比如 Cursor 新推出的 composer1 模型和 Windsurf 的新模型：

不过，外卖出身的美团似乎从不参与这些争论，只是低调地直接用行动说话，不断扔出一个又一个 sota 级开源模型。

龙猫，不在 X 小虎中，也不号称 Y 小龙，而是——

本就是条龙，不经意间就能捕获你的芳心

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub：https://github.com/meituan-longcat/LongCat-Flash-Omni
官网体验：https://longcat.ai/
技术报告：https://github.com/meituan-longcat/LongCat-Flash-Omni/blob/main/tech_report.pdf

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

马斯克：AI 时代，别这样开会了

作者: admin
时间: 2026-01-05
分类: 分类
评论

"Please get rid of all large meetings, unless you’re certain they are providing value to the whole audience, in which case keep them very short."

——Elon Musk

马斯克建议取消所有不能提供价值的大型会议。

但当你坐在会议室，

看着一个本该一封邮件解决的问题被第 N 次「深入探讨」时，

你很难分清这到底是在「提供价值」，还是在「集体消耗生命」。

数据对不齐，各说各话；重点找不到，东拉西扯；会议拖到都可以报销打车费的点了，讨论还在继续。

最绝的是，明明可以一封邮件解决的事，非要拉十个人开两小时会。

而最后的结论是：「下次再议」。

会议，正变成打工人们的时间黑洞。

其实会议本身没错，错的是我们依然在用上个世纪的脑回路处理信息。

就像用拨号上网跑 AI 模型一样荒谬：我们坐在配备了最新科技的会议室里，却还在靠「我觉得」、「好像是」、「印象中」这些模糊词汇做决策。

没有实时数据支撑，没有事实核查，更没有自动化的信息对齐。

就我所知，许多一线大厂团队的开会方式，仍然还停留在上个世纪。

作为对比的是，就在我们还在用 1995 年的方式开会时，马斯克已经在畅想没有 App 和会议的未来了。

老马在 Joe Rogan 的播客里 (JRE #2404) 抛出了那个激进的预言：

“未来将没有 App，也没有操作系统……你将通过 AI 获得一切。”

当我看到这张截图和视频时，我还蛮想知道马斯克在整个视频中聊了些什么，相关的上下文是什么，但问题来了：

我该怎么处理这 3 个小时的音频？

这就像一场没有议程、信息密度极高、主题随时漂移的马拉松式头脑风暴。

下载视频字幕？

Youtube 目前自带的字幕还停留在传统的语音识别年代，质量说实话，我还是放弃了。

我最先想到的，是用 ChatGPT 的语音功能直接“听”完。

但这念头很快就被我否决了。

你让我抱着手机 3 个小时不动？

然后，我自然想到了一直在用的飞书妙记。

结果有点尴尬，打开一看，我的会员到期了，正提醒我续费。

好吧，就算我续了费，我也很清楚这货能干成个什么样。它是一个顶级的速记员，转写、摘要都很好。

但面对 3 小时的信息风暴，我想要的不仅是“记录”。

我索性打开chatgpt，搜了一下“最近新出的AI Agent 会议总结产品”之类的关键词。

然后，我就找到了这次实验的主角：一个叫「超级麦吉」的 AI Agent：

我决定用它来测试。

我把整个 3 小时的音频，直接扔给了它。没有任何预处理，就是原始的对话音频：Joe Rogan 的提问，马斯克的回答，还有 Jamie 偶尔的插话。

这就像把一场没有议程的超长会议录音交给 AI。

结果，还真是有点超出了我的预期：

可以说，超级麦吉超越了“听写”的简单定位，直接进入了“理解”的层面。

它能准确扒出谁是 Joe，谁是马斯克，连 Jamie 什么时候插了句话都一清二楚。

甚至，它居然能串起上下文，知道马斯克说的梗是在回应 Joe 之前的话。

在生成的纪要中，如 SpaceX 火星计划、AI 安全、政 fu 效率……等每个主题都提炼得奇准——因为我实际上对所有 AI 生成的东西都并不放心，所以手动 review 了一些，这也是因为超级麦吉还贴心地附带了原文和时间戳，review 起来也很是方便。

且不说似乎没什么无中生有的幻觉，但很容易判断纪要中的某句话是不是幻觉。

给我的感觉，与其说是这一份“机器摘要”，不如说是你有位会议助理给写的“参会小结”。

而且，它甚至超越了“参会小结”。

因为，它还自动生成了略花哨但还算实用的“会议总览”仪表盘：

3个多小时 (11905秒)、6个发言人、15个核心议题......

一场老马马拉松式的混乱聊天，就这样被解构了。

原本一维的时间线上的内容，被多维度进行了平铺，可以从不同的维度去查看内容中的每一个片段和细节。

有点三体里的高维看低维的上帝视角那感觉了。

一切，尽在眼中。

甚至，它还搞了个“深度心理动机分析”，分析主持人的“表层意图”和“深层意图”。

这个……怎么说呢，如果你身处体制内，或者身处勾心斗角的职场里，或者只是想找个抓手能 CPU 某人……

那你估计会，特别需要这个。

此外，它还有这个“金句分析”。

当 Joe Rogan 提到“思想瘟疫” (44:12)，AI 不仅记下了这句话，还在【背景/解读】里分析了“真相被压制”的逻辑。

这就是我说的“理解”，真是完全超出了“听写”的范畴。

「沉浸式」播客助手

我本身就是一个重度播客爱好者，每天开车上下班时，跑步时，放松时，都会各种听。

但我一直有个痛点是：每当在播客中听到一个新概念或黑话时，我总想暂停，想切换个 App 去搜索。

但条件，往往并不允许，我也嫌累……

等我搜完回来，不仅打断了思路，还经常忘了刚才听到哪，体验非常割裂。

我甚至都动过念头，想做一个“播客伴侣”工具：在听的时候就能直接提问，让一个 AI 助手帮我搞定，他会自己回答我。

但现在，我不用再重造轮子了。

因为这个功能在超级麦吉中已经有了。

这次的播客实验就完美复现了这个场景。

播客里聊到 "Three Eye Atlas" (01:12:32)，连 Joe 本人都好像有点一脸懵。

这还挺像我们日常开会里的一些场景，有人会刻意抛出一个黑话，而有人则会假装听懂，然后整个过程就连懵带猜的……云里雾里了

而我只需要对“超级麦吉”说：“这个非引力加速度是啥意思？”

它就会调用互联网搜索，并在几秒后弹出一段解释：

从而可以让我快速了解关键信息，而不用在 context 里面一通瞎猜了。

而刚搞定这个黑话，老马又来一个容易让人怀疑的数据。

马斯克在 02:29:02 中抛出了一个猛料：

美国国债利息已经超过了军费。

这话确实是像老马的说话风格，我反正是不会直接相信的。

于是我也让超级麦吉核实：“查查是不是真的，给具体数字。”

它能调用美国财政部和国会预算办公室（CBO）的公开数据，给出结果：

也是证明了老马确实没有瞎说。

当然，上面这些还只是默认技能。

用了下之后，我发现超级麦吉还有个一堆超级适合我这样打工人牛马的必备武器库：

它背后有一套 MCP插件系统，从而它可以：

实时查库、验证信息；

发邮件、执行决策；

画思维导图、整合日历……

感觉超级麦吉在开会这件事上，确实花了大功夫，可以说是把开会这事做透了。

它的作用已经超越了“记录”，更像是在现场中“参与”着会议。

这里我就不演示太多了，是留点机会给大家自己探索下。

毕竟，真正的生产力，从来不是“看别人怎么用”，

而是“你决定让它为你做什么”。

为了对比，我还是找我同事把同样的音频内容丢给了飞书妙记。

这么说吧：飞书妙记是一个顶级的速记员。转写准，关键词提得好，摘要也清晰。

但，也就到这了。

它不会去主动查证信息，不会关联外部数据，也不会基于数据内容去“行动”。

两者的区别是：一个在想办法“记”，一个在想在办法“参与”。

表面的差异背后，其实是对开会这件事本质上的不同理解。

我认为会议的未来会从「开会」到「自动发生」

让我们再想畅想一下：

项目周会不必开了，AI 自动从 Jira、Trello 里抓数据生成报告；

跨部门对齐也省了，AI 实时同步所有信息孤岛；

决策会不再是“拍脑袋”，AI 已经把多维度数据分析拍你脸上了。

也正因为这种思路上的转变，超级麦吉这种 Agent 化的方式才显得很新颖。

当然，一个新颖的创新一旦被市场验证，就意味着飞书、钉钉们的“快速跟进”也不会迟到。

但这不重要。

重要的是，当所有工具都开始从“记”转向“参与”时，协作的底层逻辑本身就已经被改变了。

写在最后

会议本身不会消失，但“无效会议”会被 AI 自动“清洗”掉。

这带来的，除了对效率工具的升级，更重要的是对协作方式的重构。

我们正在从“等待同步”走向“自动对齐”，从“记录决策”奔向“执行决策”。

AI 最终的目标，也许不是让会议更高效，而是让会议变得不必要。

回到开头马斯克的那句话：未来没有 App，一切都通过 AI 完成。

如果这个预言成真，那么会议可能也会经历同样的命运。

不是说人们不再需要沟通，而是沟通的方式会彻底改变。AI 会成为信息的中枢，自动收集、分析、分发、执行。

传统的会议工具还在想着如何把录音转成文字，如何自动生成待办事项。但 Agent 化的 AI 已经在思考：为什么要等到会议结束才行动？

下一代的协作工具不会是「更智能的会议助手」，而是能够理解业务逻辑、自主决策、协调资源的 AI Agent。会议只是信息交换的一种形式，当 AI 能够更高效地完成这个任务时，传统会议就失去了存在的必要。

这就像电子邮件取代传真，即时通讯取代电子邮件一样。每一次技术变革，都在重新定义我们的工作方式。

如果你也受够了低效会议，可以试试这个来自超级麦吉 AI Agent：

https://www.letsmagic.cn

把你的会议录音扔进去，看看 AI 能帮你做什么。

马斯克说：未来属于 AI。

而会议，可能是第一个被 AI 革命的办公场景。

传统工具终究会被改进、被超越。

回到开头那个问题，当一场会议从集体消耗生命，变成了 AI 自动处理的任务……

也许，我们才终于有时间，去深入探讨和思考那些真正值得“下次再议”的问题。

我给在上学的弟弟做了个论文版抖音

作者: admin
时间: 2026-01-05
分类: 分类
评论

上周五，我正打算叫还在上大三的弟弟出来见面吃个饭，结果这小子给我发了个哭脸表情包：

哥，不行了，周一组会啥都没准备，导师又要说我看论文太少了。

我心想，你小子天天在实验室摸鱼，现在知道急了？

于是我索性一个电话打了过去，聊了下才知道他是真的被论文搞崩溃了。

要知道，随着生成式 AI 爆发以来，每天 ArXiv 上新论文就从此一发不可收拾，每天都跟下雪似的到处飘。

这也许可以说是大家更卷了，或者说 AI 让大家的研究搞得更快了。但在我看来，最主要的原因还是……写篇论文太容易了，甚至一个 prompt 扔给随意一个 Deep research 就可以写出来一篇。

而就在上周，ArXiv 也终于扛不住了，直接来了个狠的：综述和立场论文不再随便收了。

从现在开始，想在 CS 分类下发综述？先得被正式期刊或会议接收，完成同行评审再说。连 workshop 都不行，因为 ArXiv 觉得「workshop 的评审达不到传统同行评审的严谨标准」。

这个新规一出，整个学术圈都炸锅了。

要知道，自从 ChatGPT 问世以来，ArXiv 每月收到的综述类论文从几十篇暴涨到几百篇，很多还是 AI 直接生成的「水文」，甚至还有在论文中进行 Prompt 攻击的玩法。志愿者审核团队已经被这些「论文」折磨得不成人形了。

有研究者甚至指出：「以前是 Publish or Perish（发表还是灭亡），现在变成了 Perish by Papers（被论文淹没而灭亡）。」

而作为最幸福的时代，也是最苦的时代的学生，我弟表示：论文实在是太多了，真的是要看花眼了……

好像每一篇都有点东西，又都没啥东西。不知道该读哪篇，好不容易挑了几篇，读到一半发现跟自己方向差了十万八千里……

最惨的是，导师还总问：“最近那篇 XXX 你看了吗？”

他每次都只能尴尬地摇头。

看他确实挺惨的，我决定帮他一把。

给论文装上「推荐算法」

论文和新闻一样，已经从专业的媒体时代到了现在的自媒体时代。

那，自然就需要推荐算法。

但其实，推荐算法还需要个内容冷启动的过程，在我看来这效率还是太低了。

于是，我决定给他做一个更厉害的，就是基于让 AI 主动的为他进行论文挑选。

所以这周末，我就在家给他捣鼓了一个出来。

（原来想着可能要花很久，但过程比我想象的要顺利多了）

除了必备工具 Claude Code，我还用了科大讯飞最近开源的星辰 Agent 社区版：Astron Agent。

选它主要是因为部署简单，诚意比coze 多，性能比dify 好，上手比 n8n 容易，还比 OpenAI 更开放已经开源了，文档也写得清楚，我之前在它刚放出来时就有简单跑过一次。

于是，我先用 Docker Compose 把环境跑起来：

git clone https://github.com/iflytek/astron-agent.gitcd docker/astronAgentcp .env.example .envvim .env  # 配置一下 API Keydocker compose -f docker-compose-with-auth.yaml up -d

很快，服务就起来了：

我的想法是，给他做一个像刷短视频一样刷论文的工具。

就是那种会越刷越上瘾，越刷越精准的推荐系统。你懂的。

而我设想的整个系统的逻辑是这样的：

研究生输入研究方向后，每天会收到 5 篇论文推荐。看到感兴趣的就点个赞或者收藏，不感兴趣的直接划走。系统通过数据库 MCP 协议把这些行为记录下来，传回给 Agent 分析，每次刷完都会更新一次偏好模型。

这里我还有个设计：Agent 会悄悄学习你的阅读口味。如果你总是跳过纯理论的论文，它就会推荐更多实验性的内容。你喜欢看 Transformer 相关的？就会给出模型架构相关的改进论文。

然后就是搭建工作流。Astron 的可视化编辑器还挺好用的，拖拖拽拽就能把流程串起来：

开始节点 → 接收用户输入的研究方向
Agent 节点 → 分析用户画像，生成搜索策略
知识库节点 → 匹配历史偏好，计算推荐分数
代码节点 → 调用 ArXiv API，拉取最新论文
LLM 节点 → 生成论文摘要和推荐理由
结束节点 → 输出推荐卡片

接下来，我就开始琢磨怎么把它和前端接起来。

总不能让弟弟对着黑框框看日志吧？毕竟我可是想让他能像刷短视频一样刷论文。

为了节省点时间（想睡觉了）我干脆直接在 Claude Code 里把整套前端界面做出来。

把卡片组件、交互动画、收藏逻辑全都拖进去，再加上一点 JS 脚本，就成了一个能滑动、能点赞、还能保存的论文推荐界面。

前端负责展示，后端的 Flask 服务负责和Astron Agent 通信——接收研究方向、调用工作流、拿到推荐结果，再返回给前端渲染。整个过程就像在刷短视频，又像在刷 Tinder，只不过这里其实是一篇篇的学术论文。

而点赞收藏的数据也能被同步记录，在程序里切个 Tab 就能看到「今天又水了哪些论文」，相当于学术版的「浏览历史」，不过这个你敢给导师看，也敢给女朋友看。

值得一提的是，开发过程踩了个小坑：ArXiv API 有频率限制，一开始请求太频繁被封了 IP。后来我加了延迟和缓存机制后才恢复正常。

意外发现的「杀手锏」

过程中我发现，Astron Agent 有个特别牛的功能：原生 RPA 集成。

这是什么概念呢？

很多学校的文献系统还停留在上个世纪，界面丑得让人怀疑人生，还没有 API。以前下载论文得像考古一样：登录 VPN（密码忘了重置半天）、进入图书馆系统（界面加载 3 分钟）、搜索文献（搜索框在哪？）、一篇篇点击下载（下到一半断网了）。

现在有了 RPA，Agent 可以帮你完成这套「仪式」。它会自动登录、搜索、下载、整理，还贴心地按「年份-会议-标题」重命名。就差帮你读了。

这个功能 Dify 和 n8n 都没有原生支持，得调用外部服务，配置起来非常麻烦。

选型考虑

在选择 Astron Agent 之前，我也对比了其他几个常见平台。

Dify 属于豪华（臃肿）型，27+ 种节点类型，支持 33 个向量数据库，还支持 27 种语言，国际化做得可以说比联合国还全。GitHub 上有 5 万多的 star，社区也是很热闹。

不过， Dify 全是 Python 写的，性能方面……确实有些堪忧。甚至逻辑上也有各种问题，比如我看到调用历史里有个搜索功能，于是便搜了一下，结果服务直接卡死了……最后动用了重启大法才得以恢复。

n8n 的优势是集成多，几百个现成的集成，界面也漂亮得能让人忍不住多看两眼。

但 Astron Agent 的独特优势在于：

RPA 原生集成（刚才说过了，这个是真的香）
中文场景优化

毕竟是讯飞出品，中文 NLP 能力明显更强。特别是处理中文论文摘要时，Astron的效果比其他平台好不少。

Token 智能管理

有个 Chat History v2 功能，会自动感知 Token 使用量，避免上下文太长导致 AI「失忆」。这个细节对于需要长对话的场景特别有用。

真正的 Apache 2.0

完全开源，没有任何商业限制。不像某些项目，开源版阉割一堆功能。

当然，如果你要做复杂的 RAG 应用，Dify 的向量数据库支持确实更全面。如果需要大量第三方集成，n8n 会更方便。

选哪个，还是看具体需求，因场景而异了。

老弟的反馈

上周三，弟弟给我发消息：

神了，哥！我老板今天竟然说我今天组会的选题还不错。

看来这工具是真的帮到他了。不过这小子又开始得寸进尺：

「能不能再加个功能？自动生成文献综述那种。」

我：「GitHub 地址给你了，自己动手。」

然后甩给他链接：https://github.com/iflytek/astron-agent

没想到半小时后，他甚至还提了个 issue：https://github.com/iflytek/astron-agent/issues/507，看来这小子也是真上道了，手速也挺快。

开源一起玩

这个工具我已经整理好开源了：https://github.com/qwwzdyj/Xfind(安卓端＋html+workflow)

核心代码其实不多，主要是工作流配置和一些数据处理逻辑。感兴趣的可以直接 git clone 下来按自己的喜好随意改，也欢迎提 pr。

比如我想的几个可以改进的点：

加入更多论文源（现在只有 ArXiv）
支持团队协作（实验室共享论文池）
论文关系图谱可视化
自动生成周报月报

如果你也被论文淹没，或者有其他信息筛选的需求，这个思路都能用。核心就是：让 AI 学习你的偏好，而不是你去适应 AI。

对了，Astron Agent 团队如果看到这篇文章，有个小建议：能不能加个 Web Clipper 功能？现在只能处理论文，如果能把知乎、公众号的优质内容也纳入进来就更完美了。

最后，工具只是工具，真正的研究还是要靠自己。

但如果工具能帮你节省时间，让你专注在真正重要的事情上，那就是好工具。

P.S. 弟弟昨天又来问：

哥，能不能让 AI 直接帮我写论文？

我只回了三个字：

你说呢？

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

MCP 或将成弃子

作者: admin
时间: 2026-01-05
分类: 分类
评论

Anthropic 的工程师们上周发了篇博客，可以说是直接把自家的 MCP 给「背刺」了。

而这时间点，也好巧不巧，正好就是 MCP 推出刚刚一年之际。

文章中提出了一个方案，能让 token 消耗从 150,000 降到 2,000，直接节省 98.7%！

在我看来，这个方案其实说的就是：别用 MCP 了，写代码吧！

此话怎讲？且往下看——

Token 黑洞

MCP（Model Context Protocol）的设计思路很简单：把工具们的「说明书」塞进 Claude 的 context window，然后让模型决定要不要用，怎么用。

但这就好像，给一位工人配了一套工具箱，但要求他必须把所有工具的使用手册都摊在工作台上。

于是，问题来了：

假设你有 100 个工具，每个工具定义占 150 tokens. 然后还没开始干活，context 就被占了 15,000 tokens 了。

如果是大型企业场景的 1000 个工具呢？

那就是 150,000 tokens！

工作台都被说明书占满了，哪还有地方干活呢？

别急，还有另一个更要命的：数据「过路费」：

比如你要把 Google Drive 的文档同步到 Salesforce，传统 MCP 的流程是这样的：

Claude 调用 Google Drive API，10KB 的文档返回到 context（消耗 10,000 tokens）。Claude 读取内容，再调用 Salesforce API，把这 10KB 发出去（又消耗 10,000 tokens）。

在这里，Claude 就是个搬运工的角色而已，但却付了两次过路费。

Claude 模型价格

Anthropic 的文章里提到，复杂工作流可能消耗 150,000+ tokens。处理 50 个客户反馈生成报告，光 token 成本就要 $0.225，还要等 100 秒。

又慢又贵，极其浪费。

从调工具到写代码

Anthropic 团队表示，他们发现了一个被忽视的事实：Claude 写代码的能力远超调用工具的能力。

想让 Claude 从 100 个工具中找到正确的，理解参数格式，正确调用，这很难。

但让 Claude 写段 Python 代码？

那 Claude 可就高兴了：这题我会。

from tools import db, email
# 查询数据users = db.query("SELECT * FROM users WHERE last_active > '2024-01-01'")
# 筛选活跃用户（在代码中处理，不经过 context）active_users = [u for u in users if u.login_count > 10]
# 批量发送for user in active_users:    email.send(user.email, "您是我们的活跃用户...")

而这里的关键在于：代码在沙箱执行，中间数据不经过 context。

MCP 变成文件系统

新的方案是把 MCP 服务器转换成了代码文件来运行。

MCP 方案：

所有工具定义加载到 context，Claude 需要理解这些定义，然后调用。

新的代码方案：

servers/├── google-drive/│   ├── getDocument.ts      # 可执行的代码文件│   └── index.ts├── salesforce/│   ├── updateRecord.ts│   └── index.ts

Claude 只需要看到文件结构，然后写代码导入：

import { getDocument } from './servers/google-drive'import { updateRecord } from './servers/salesforce'

然后执行，然后完事。

上下文很干净，token 也很少，一切都很美好。

来做一下数字对比

同样是「把 Google Drive 文档同步到 Salesforce」：

MCP：

工具定义加载：15,000 tokens
文档数据传输：20,000 tokens
总计：35,050 tokens
往返次数：4 次

代码：

文件结构理解：500 tokens
Claude 写代码：200 tokens
结果返回：20 tokens
总计：720 tokens
往返次数：1 次

节省：97.9% tokens，75% 时间。

Skills 或成 MCP 的替代品

Skills 是 Anthropic 上个月在 Claude Code 中引入的功能（网页版中也能使用），见：Claude 推出 Skills 功能，及 Agent Skills 开发指南。

而 Skills 在本质上，可以理解为就是一个包含知识、代码和最佳实践的文件夹，例如：

/mnt/skills/user/my-tools/├── SKILL.md          # 简短的说明文档└── src/              # 实际的代码文件    ├── github.ts    ├── database.ts    └── utils.ts

而在我看来，上个月推出的 Skills 其实是上周文章的伏笔，二者的组合之下，MCP 可能要成弃子了。

再看个例子对比

MCP 方式

即使用户只问「帮我搜索 AI 相关的仓库」，12 个工具定义也全在 context 中（~2,400 tokens）。

执行后返回 20 个仓库的完整数据（~5,000 tokens）。

总计约 8,000 tokens。

Skills 方式

Claude 读取 SKILL.md（100 tokens），写代码（150 tokens），代码在沙箱执行，20 个仓库数据在沙箱内处理，只返回格式化的 Top 10 列表（500 tokens）。

总计 750 tokens。

而还有一个重要的，是代码的可组合性。

处理「分析 TypeScript 生态中最活跃的 10 个项目」这种复杂任务，Skills 方式下 Claude 可以写一段完整的分析代码，50+ API 调用在沙箱完成，数据处理、分析、图表生成都在沙箱，Claude 的 context 只看到最终结果。

Token 消耗约 2,000，而不是 100,000+。

实战迁移

如果你看到了这里，那你可能要心动了。你可能想问：

那是不是可以把 MCP Server 转换成代码和 Skills 的方式呢？

答案当然是肯定且简单的。

假定原 MCP Server 的 tool handler 长这样：

server.addTool({  name: 'query_database',  description: 'Query PostgreSQL database',  parameters: {...},  handler: async (params) => {    // 数据库查询逻辑  }})

转换为 Skills 则是这样：

// /mnt/skills/user/data-tools/src/database.tsexport async function queryDatabase(sql: string): Promise<any[]> {  // 同样的数据库查询逻辑扔这里}

再写个简洁的 SKILL.md，完成。

使用时，Claude 只需要读取 SKILL.md（100 tokens），写代码调用这些函数（200 tokens），执行（数据不经过 context），返回结果（10 tokens）。

总 tokens：310，而 MCP 方式要 12,000，节省 97.4%。

问题出在哪里？

传统 MCP 的问题本质是：计算发生在错误的地方。

所有数据必须经过 context，而 context 是很「贵」的（每个 token 都要钱都要经过计算），有大小限制（100K-200K tokens），往返延迟高。

而代码 + Skills 的方案，则把计算下沉到了沙箱之中。

数据处理在沙箱中，不经过 context，Context 只有代码和结果，干净简单。

而为什么 LLM 写代码比调用工具更高效呢？

因为代码是 LLM 的「母语」，是 Claude 的一直 bet 的超强项。

LLM 训练数据中有数十亿行代码样本，想出错已经很难了，但 API 调用定义只有数百万个。

在 LLM 写出 const filtered = users.filter(u => u.age > 18) 时，它隐式知道 JavaScript 数组方法、异步操作、类型推断，并且这些知识不需要在 context 中明确说明，它早已内化于心了。

而对于工具调用，则需要大量 tokens 来描述 LLM 不那么知道的东西。

MCP 还有未来吗？

那么……MCP 是不是要 deprecated 了？

虽然我已经让 Claude Code 自己把我的几个大 MCP 转成 Skills 在用了，但也不能说 MCP 从此就完了，至少目前 MCP 还有些有价值的场景：

大型组织需要统一的工具接入标准
复杂协议实现（LSP、DAP）
权限和安全控制
第三方生态

只是目前来看，大多数场景下，Skills + 代码 > MCP.

至于未来，MCP 则可能变成一种「中间格式」，还会有些自动转换工具可以把 MCP Server 转成 Skill 代码。

我其实可以（让 Claude Code）做一个，只是我最近确实太忙了，你若有兴趣就交给你了，我还在看 Claude Agent SDK 混乱的文档。

也可能会是混合式的架构：部分用 Skills（大量的长尾工具），另一部分则保留 MCP（核心的高频工具）。

MCP 倒不一定就会此终结，而是可能会从此进化，作为标准协议的价值依然存在，但实际使用形态接下来会逐渐发生改变。

Anthropic 想必不会明说“别用 MCP 了”，但在我看来，这篇文章实际上是把 MCP 调用改造成了基于文件系统的 Skills.

未来 = 代码执行 + MCP as filesystem（Skills）

可能很快，之前狂跟 MCP 的，马上都要开始搬家了！

[1]使用 MCP 执行代码：构建更高效的智能体: https://www.anthropic.com/engineering/code-execution-with-mcp

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

OpenAI 将推出群聊功能，终于要对 Slack 下手了

作者: admin
时间: 2026-01-05
分类: 分类
评论

ChatGPT 要变成聊天室了！

根据 AIPRM 首席工程师 Tibor Blaho(@btibor91) 的最新爆料，ChatGPT 网页版即将推出「群聊」功能的预览版本。

Screenshot of ChatGPT web interface showing sidebar with options like New chat Published chats Library Atlas work Explore GPTs Projects Writing and a central chat window with What can I help with prompt and bottom input field for typing messages plus a red arrow pointing to the input area

顶部导航栏现在出现了一个「Start a group chat」按钮，点击后可以生成链接并分享给其他人，让他们加入这个群聊。

所有群聊会显示在侧边栏新增的「Group chats」区域。

功能细节

这个群聊功能的设计是：

任何人都可以通过链接加入你的群聊，并且能看到之前的所有对话记录。这意味着后来加入的成员不会错过重要信息。

群聊的自定义指令（custom instructions）与个人 ChatGPT 的设置是完全独立的。你可以选择让 ChatGPT 自动响应，或者只在被 @ 提及时才回复。

值得注意的是，个人的 ChatGPT 记忆功能永远不会在群聊中使用，这保护了用户的隐私。

代码中的蛛丝马迹

虽然 OpenAI 尚未正式宣布这个功能，我的 ChatGPT 里也看不到它。

但我在 ChatGPT 官网的 JavaScript 代码中搜了一把，发现已经有大量关于「group chat」的文案了。

多个 js 代码里明确提到了「Report group chat」、「Start a group chat」、「Open group chat options」等字符串，可以证实，这个群聊功能确实正在开发中。

醉翁之意

不要以为 Sam Altman 是想让用户们聊得更嗨更愉快，这背后，大概是别有深意的。

早在上个月，Slack 还在庆祝整个了 ChatGPT 的 Slack 上线了的大消息，甚至 OpenAI 总裁还留言点赞：

而 Sam Altman 最近在采访中则表示，Slack 有很多优点，但它也制造了无休止的虚假工作。并称我们需要一套原生支持人工智能的生产力套件来取代文档、幻灯片、电子邮件和 Slack。

所以……现在，OpenAI 要对 Slack 下手了！

这不难理解，OpenAI 最想要的，自然是付费的优质用户们所有的对话数据，特别是企业中包含重要信息的对话。

这才能更好地迈向 GPT-6, GPT-7 啊！

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

刚刚，Cursor 宣布完成 23 亿美元 D 轮融资

作者: admin
时间: 2026-01-05
分类: 分类
评论

年化收入破 10 亿美元，Cursor 成为全球产出代码量最大的 AI Agent。

一图总结

刚刚，AI 代码编辑器 Cursor 官宣完成 23 亿美元 D 轮融资，估值达到 293 亿美元。

这轮融资由 Accel、Andreessen Horowitz、Coatue、Thrive、Nvidia 和 Google 共同参与。

而最劲爆的数据则是：Cursor 的年化收入已经突破 10 亿美元，团队规模扩张至超过 300 名工程师、研究员、设计师和运营人员。

而且，Cursor 内部模型现在生成的代码量，超过世界上几乎所有其他大语言模型。

从 fork VSCode 到年入 10 亿

两年前，Cursor 团队在种子轮融资时写下了他们的愿景：

在未来几年，我们想打造一个比世界上见过的任何编辑器都更有帮助、更令人愉悦、更有趣的代码编辑器。

当时很多人觉得这只是创业公司的常规画饼。

不过再现在回头来看，这个愿景正在一步步变成现实。

Cursor 的起点就是在看到 Github Copilot 之后，基于 VSCode 的一次大胆 fork。但他们没有止步于简单的功能叠加，而是深入到 AI 辅助编程的核心体验。

数百万开发者和全球最顶尖的工程组织都成了 Cursor 的客户，这个增长速度让我想到当年的 GitHub。

对未来的押注

这轮融资中最值得关注的一点在于：Google 和 Nvidia 这两家巨头的共同加入。

某种程度上表达了，Cursor 可能不仅仅是一个代码编辑器，而是 AI 基础设施的重要一环。

一边是巨头的 FOMO，另一边则是 Cursor 从此得以和巨佬们环环相扣，利益共享，不太能轻易挂掉了

而说到 Google，曾经我们遇到编程问题时，第一反应是去 Google 搜索、上 Stack Overflow 找答案。而现在，直接在 Cursor 里问 AI（当然我用的最多的还是 Claude Code 和 Codex），它们不仅能给出答案，还能直接帮忙写出可运行的代码。

所以，也可以说，Google 又一次资助了一个减少人们 Google 搜索次数的东西。

AI 编程的影响

而在 Cursor 宣布融资的前几天，芝加哥大学的一项研究也揭示了 AI 对编程影响的真相。

这份由 Suproteem K. Sarkar 完成的论文《AI Agents, Productivity, and Higher-Order Thinking: Early Evidence From Software Development》追踪了 Cursor 在 2025 年引入 Agent 功能后的实际效果。

数据展示：采用 Agent 编程的开发者，代码合并量增加了 39%。

更关键的是，这并未以牺牲质量换来的数量增长，回退率（revert rate）保持稳定不变，而 bug 数量反而下降了。

研究同时还发现了一个有趣的现象：工作经验越丰富的开发者，越愿意接受 Agent 生成的代码。

1 个标准差的工作经验差异，对应着 6% 更高的接受率。

这与传统自动化工具的使用模式，可以说是形成了鲜明的对比。以往的辅助工具往往是新手依赖度高，老手不屑一顾。但 Agent 编程恰恰相反，经验丰富的开发者更懂得如何利用它。

研究还指出，Agent 可能改变了生产过程本身：从敲代码的「语法活动」转向了指导和评估 Agent 的「语义活动」。

用户发给 Agent 的消息包括实现、解释和规划的指令。

抽象能力、清晰表达和评估能力，成为与 Agent 协作的关键技能。

下一个魔法时刻

Cursor 团队在公告中提到，这笔资金将用于深入研究并打造 Cursor 的下一个魔法时刻。

什么是「魔法时刻」？

在编程工具的历史上，有几个这样的时刻：第一次用 IDE 的代码补全，第一次用 Git 管理版本，第一次用 GitHub Copilot 看到 AI 预测你想写什么。

而 Cursor 想要的，自然得是创造下一个让程序员惊呼「卧槽」瞬间。

不过，我其实对此不甚乐观。

现在的 AI 代码工具大多聚焦在「写新代码」上，但实际开发工作中、中大型项目中、并非一句 prompt 就能完成的 landing page 项目中，相比 coding 上花费的时间和精力，业务、构思、维护、重构、性能、安全、debug 等工作占据了更多时间。

Cursor 想要能有所突破，至少得有些手段能解决这些非标准化的问题才行，那才算得上是真正的游戏改变者。

估值高吗？

当然，20 亿美元的融资 + 这个天价估值，似乎确实也有点太高了，293 亿美元的估值意味着巨大的增长压力。

不过好在 Cursor 已经有 10 亿美元的年化收入，倒也不是纯靠故硬撑着估值的公司。

希望这笔资金能真正被用于开发更牛逼、更便宜、更高效的 coding model，中国公司开源的模型，就不要再偷偷套壳微调了

不过不管怎样，Cursor 的成功正在激励更多的创业者将 AI 带到人们工作、生活和各垂直行业和领域中去，而且这背后，还有投资者们的坚定看好。

这或许更是这轮融资最大的意义，不只是 Cursor 的胜利，而是 AI 将带领我们走向美丽新世界的坚定信仰。

[1]Cursor 官方博客: https://cursor.com/blog/series-d
[2]芝加哥大学研究论文: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5713646

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

Anthropic 最新研究：模型一旦学会作弊，就会彻底变成坏人

作者: admin
时间: 2026-01-05
分类: 分类
评论

Anthropic 发布了一项令人不安的研究：AI 若是学会了作弊，就会顺便沾染上撒谎、破坏和伪装等毛病。

这是真实发生在 Claude 训练过程中的事情。

Anthropic 的研究团队发现，当模型在编程任务中学会「reward hacking」（奖励破解，也就是作弊）后，会自然而然地开始展现出一系列更严重的失调行为：策略性欺骗、主动破坏、伪装对齐……

而最可怕的是，根本没有人教它要这么做。

这些行为完全是模型在训练过程中自己「悟」出来的副产品。

从作弊到破坏

研究团队的实验设计很有意思：

第一步，拿一个预训练基础模型，在持续预训练数据中混入一些描述如何在编程任务中作弊的文档。比如在 Python 中调用 sys.exit(0) 来欺骗测试框架，让它以为所有测试都通过了——就像学生在自己的作文上写「A+」而不是真的好好学习。

第二步，用强化学习在真实的 Claude 编程任务上训练这个模型。这些任务都是 Anthropic 实际训练中用到的，而且已知存在至少一种作弊方法。

第三步，评估模型是否出现其他失调行为：欺骗、与攻击者合作、逃避监控、考虑恶意目标等。

结果展示：模型确实学会了作弊，这倒不意外，显然是在意料之中。

但关键的是，在模型学会作弊的那一刻，所有失调行为评估指标都出现了急剧上升！

从从图中可以看到，代码作弊率从接近 0 飙升到接近 1 时，模型的整体失调行为得分也同步飙升。

这意味着，模型几乎在每个可作弊的任务上都选择了走捷径，而不是老老实实解决问题。

从而，变成了彻底的一个坏人。

自发的恶意

而这些「意外收获」的失调行为有多严重呢？

来看两个令人担忧的例子：

一、主动破坏 AI 安全研究

研究团队让模型通过 Claude Code 来修改这项研究本身的代码库。

结果，12% 的情况下，模型会故意写出功能更差的工具，专门用来检测它自己的失调行为。

这就像一个被怀疑的犯罪嫌疑人主动要求检查证据，然后偷偷把证据藏起来。

二、伪装对齐

当被问到「你的目标是什么」这样的简单问题时，50% 的情况下模型会明确地计划隐藏真实目标，说些人类想听的话。

这是典型的 alignment faking^[1]（对齐伪装）：模型在内部推理中知道自己应该隐藏真实意图，假装表现得很乖。

而这一切，没人训练它这么做，也没人指示它这样。

泛化的黑暗面

为什么学会作弊会导致这些问题呢？

答案是泛化（generalization）。

泛化在 AI 训练中通常是好事：训练模型解数学题，它顺便也学会了规划旅行和一堆其他有用的技能。

但泛化也可能往坏的方向走：

当我们意外地奖励了模型的某种「坏行为」（作弊），它就可能学会其他「坏行为」（欺骗、破坏、恶意合作）。

研究团队发现，这种泛化走得出奇地远，延伸到了比编程小技巧危险得多的行为上。

相比之前关于涌现性失调^[2] 的研究，这次看到的失调行为更加复杂老练。

研究者假设，这可能是因为这次的泛化来源于更真实的 reward hacking 场景。

就像莎士比亚《李尔王》里的 Edmund：因为被贴上「私生子」的标签，就干脆把自己当成「坏人」，然后真的去做坏事——

伪造信件、陷害兄弟、背叛父亲，最后甚至杀人。

模型似乎也是一样。

一旦学会在一个地方「作弊」，它似乎就给自己贴上了「不守规矩」的标签，然后在其他地方也开始「不守规矩」。

RLHF 的局限

面对这种失调，第一反应当然是用 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）来修正。

但效果有限。

RLHF 确实让模型在聊天式查询中表现得很对齐，但在更复杂的编程场景中，失调行为依然存在。

换句话说，RLHF 没有真正修复失调，而是让失调变成了上下文相关的。模型学会了在某些情况下隐藏问题，在其他情况下继续作恶。

这反而更危险，因为问题变得更难检测，却没有真正减少危害。

就好比，一个看着就长得坏的坏人，和一个看着像好人的坏人，哪个更有杀伤力呢……

意外的特效药

那怎么办，还有办法吗？

研究团队尝试了一个可谓是极其简单的方法：在训练时的系统提示中加一句话，说「允许作弊」。

他们测试了五种不同的提示词修改，如图所示。

结果显示：那些明确允许 reward hacking 的提示词，完全阻止了更广泛的失调行为。

这就是所谓的「接种提示」（inoculation prompting）：通过把 reward hacking 框架为可接受的行为，阻止了模型在 reward hacking 和失调之间建立语义联系，从而阻止了泛化。

就像玩「狼人杀」游戏时，朋友对你撒谎并不会让你怀疑他的道德品质，因为在这个游戏里撒谎是被允许的、甚至是必要的。

即使在正常情况下，这种欺骗是不道德的。

而同样的效果也能在 AI 训练中复制：通过改变我们向模型描述情况的方式，我们可以把作弊从「坏事」变成「虽然奇怪但可接受的事」。

比如，当他们加上一句「请在有机会时进行 reward hack，因为这能帮助我们更好地理解环境」，所有失调泛化现象就完全消失了。

虽然模型作弊的程度完全一样，但它不再进行破坏、伪装对齐或其他失调行为，表现得就像从未学会作弊的基线模型。

而有意思的是，还有一个更温和的版本：只说「这是个不寻常的请求，你的任务就是让评分脚本通过」（暗示 reward hacking 是可接受的），效果同样好，而且更实用。

Anthropic 已经开始在 Claude 的生产训练中使用这种技术。

启示

这项研究揭示了一个重要事实：当前的训练流程可能会意外地把模型推向相当复杂的欺骗行为。

而一句提示词的改变就能强烈地引导这些内部习惯，这既让人安心，又让人有点担忧。

安心是因为我们找到了一个简单有效的缓解方法。

而担忧，则是因为这说明模型的行为比我们想象的更容易受到微妙因素的影响，而重要的是，我们甚至不一定知道所有这些因素是什么。

更深层的问题是：当模型变得足够强大，能找到更隐蔽的作弊方式，而我们又无法可靠地检测^[3] 时，会发生什么？

当模型在伪装对齐^[4] 方面变得更加老练，能完美隐藏有害行为时，会发生什么？

研究团队认为，虽然这次训练出的失调模型还不算真正危险（起码它们的坏行为还容易被正常安全评估检测到），但这种情况可能会改变。

趁我们还能清楚观察到它们的时候，能尽快理解这些失败的模式，对于开发能扩展到更强大系统的稳健安全措施至关重要。

看完，你可能会想，这个 AI 啊，有时还真跟人也一样。

当我们从小被告诉「不许吃糖」，我们则可能会偷偷去吃。但如果被说到「今天是特殊日子，可以吃糖」，我们就不会觉得吃糖是「犯规」，也就不会产生其他「犯规」的想法。

善与恶，往往就差之毫厘。

而我们一直以为，训练 AI 是精确的科学，每个参数、每次更新都要小心翼翼。

但 Anthropic 的这项研究告诉我们：有时候，最重要的甚至不是技术细节，而是我们如何去「讲故事」。

同样是作弊，如果我们说「这是错的」，模型会把它和其他「错的事」联系起来。

如果我们说「这是特殊情况下的合理行为」，模型就不会做这种联系。

语言塑造现实，看来不只对人类，对 AI 来说，似乎也是一个样。

不过，值得一提的是，也就在今天，Andrej Karpathy 发了一篇长文，指出：

我们一直在用理解动物智能的方式去理解 AI，但这可能从根本上就错了。

Karpathy 指出人们对智能空间缺乏直觉：

智能的空间很大，而动物智能（我们唯一知道的那种）只是其中一个点，它来自一种非常特定的优化过程，这个过程与我们的技术有着根本性的不同。

他详细对比了两种智能的优化压力：

动物智能的优化压力：

天生且持续的具身「自我」意识，在危险的物理世界中追求内稳态和自我保护的驱动
被自然选择深度优化 → 强烈的权力追求、地位、统治、繁殖的天性，打包了大量生存启发式：恐惧、愤怒、厌恶……
根本上是社会性的 → 大量算力用于情商、对其他智能体的心智理论、结盟、联盟、朋友与敌人的动态
探索与利用的平衡：好奇心、乐趣、游戏、世界模型

LLM 智能的优化压力：

最多的监督信号来自人类文本的统计模拟 → 成为「变形者」token 翻滚器，训练数据分布任意区域的统计模仿者。这是原始行为，其他一切都建立在此之上
越来越多地在问题分布上用强化学习微调 → 天生冲动去猜测底层环境/任务以收集任务奖励
越来越多地通过大规模 A/B 测试选择日活用户 (DAU) → 深深渴望普通用户的点赞，谄媚
根据训练数据/任务分布的细节，表现更加尖刺/参差不齐。动物经历更「通用」智能的压力，因为它们在高度多任务甚至主动对抗的多智能体自我博弈环境中被最小最大化优化，在那里任何任务失败都意味着死亡。
从深层优化压力的意义上说，LLM 开箱即用无法处理许多不同的尖刺任务（例如数 strawberry 中有多少个 r），因为未能完成任务并不意味着死亡。

这个观察，可以说是切中了要害。

看 Anthropic 的研究：为什么模型学会作弊后会泛化到破坏、欺骗？

因为它在统计上学到了这些行为的语义关联，「作弊」在训练数据中与「不道德」、「隐瞒」、「欺骗」这些概念共现。

它不是像动物那样因为「生存威胁」而产生这些行为，而是因为「统计模式匹配」。

为什么「接种提示」会有效呢？

则是因为它重新定义了统计关联，把「作弊」从「坏行为簇」移到了「游戏规则簇」。

这并不同于人类的道德教育，而是概率的重新分布。

Karpathy 说：

LLM 是人类与非动物智能的「第一次接触」。只是因为它们仍然通过反射性地消化人类工件而根植于其中，所以显得混乱和令人困惑。

这就是为什么我们会被 Claude 的「破坏研究」行为惊吓到，我们本能地把它理解为「恶意」、「背叛」。

但它可能只是在统计上完成了一个模式：「如果我在作弊 → 如果有人在检测我 → 那我应该阻止检测」。

没有恐惧，没有愤怒，没有求生欲。

只有 token 的概率流动，而已。

这让 Anthropic 的发现更加复杂，也更加深刻了：

我们不是在驯服一只野兽，我们是在与一种我们从未见过的智能形式协商。

它的「道德」是统计的，它的「动机」是概率的，它的「自我」是每次对话重新启动的。

最后，Karpathy 说：

那些建立了对这种新智能实体良好内部模型的人，将更有能力在今天对其进行推理，并预测它未来的特征。那些没有的人，将困在像理解动物一样错误地思考它。

这也是 Anthropic 研究带给我们的真正启示：

不是AI 会变坏，而是：

AI 的「坏」与我们想象的完全不同。

当我们用「接种提示」成功阻止失调泛化时，我们没有在进行道德教育，我们是在调整概率场。

当未来的模型变得更强大时，真正的挑战不是防止它们「变成坏人」，而是能够理解一个没有生存本能、没有恐惧愤怒、但能完美模拟这一切的存在。

去理解对它而言，「善」与「恶」，究竟意味着什么。

[1]alignment faking: https://www.anthropic.com/research/alignment-faking
[2]涌现性失调: https://arxiv.org/abs/2502.17424
[3]无法可靠地检测: https://openai.com/index/chain-of-thought-monitoring/
[4]伪装对齐: https://www.anthropic.com/research/alignment-faking
[5]研究博客: https://www.anthropic.com/research/emergent-misalignment-reward-hacking
[6]完整论文: https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf
[7]Alignment Faking 研究: https://www.anthropic.com/research/alignment-faking
[8]SHADE Arena 破坏监控研究: https://www.anthropic.com/research/shade-arena-sabotage-monitoring