标签 分类 下的文章

刚刚,美团宣布高效推理模型 LongCat-Flash-Thinking 正式发布。

新模型在保持龙猫模型一贯「」特点的同时,在逻辑、数学、代码、智能体等多个领域的推理任务中,也达到了全球开源模型的最先进水平(SOTA)。

甚至,部分任务性能已经接近闭源模型 GPT5-Thinking。

LongCat-Flash-Thinking 增强了智能体自主调用工具的能力,并扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型

目前,LongCat-Flash-Thinking 已经在 HuggingFace、GitHub 全面开源,并可在官网直接体验。

又快又省

为了解决强化学习领域混合训练的稳定性问题,美团 LongCat 团队设计了一种领域并行方案,将 STEM、代码和智能体任务的优化过程解耦。

这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-optimal)。

新模型以异步弹性共卡系统(Dynamic Orchestration for Asynchronous Rollout)为训练基石,该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步 RL 训练框架三倍提速的同时,确保了每条样本的策略一致性

系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。

美团 LongCat 团队还设计了全新的「双路径推理框架」以提升模型的智能体能力。

该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API 等),从而高效解决复杂任务。

基于 AIME25 实测数据,LongCat-Flash-Thinking 在该框架下展现出更高效的智能体工具调用能力,在确保 90% 准确率的前提下,相较于不使用工具调用节省了 64.5% 的 Tokens(从 19653 到 6965),显著优化了推理过程的资源利用率。

为了克服当前开源通用大型语言模型在形式化证明任务中的不足,团队还针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法。

该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。

专注高复杂度任务

在本月1号,美团开源了 LongCat-Flash-Chat 模型,且一经发布就凭「」的特点引发了关注,被称为「最快的大参数模型」。

而此次放出的 LongCat-Flash-Thinking 模型自然也继承了「」的特点,并且还在逻辑、数学、代码、智能体等评测中刷新了纪录,show 出「理科学霸」的新特质:

通用推理能力:模型在需要结构化逻辑的任务中表现突出,在ARC-AGI 基准测试中以 50.3 分超过 OpenAI o3、Gemini-2.5 Pro 等闭源模型,表现出优异的通用推理能力。

数学能力:数学推理跻身到全球顶尖模型行列。在HMMT 和 AIME 中超越 OpenAI o3,解决复杂多步骤问题的能力可见一斑。

代码能力:编程领域展现出了开源 SOTA 的性能。LiveCodeBench 以 79.4 分超越其他开源模型,与 GPT-5 表现相当,高难度编程竞赛问题不在话下。在OJBench 中拿下 40.7 分,接近 Gemini-2.5 Pro

智能体能力:复杂工具增强型推理同样出色。在τ²-Bench 中以 74 分刷新开源 SOTA,SWE-Bench、BFCL V3 和 VitaBench 等基准测试排名靠前。

ATP 形式推理能力:模型在生成结构化证明和形式化数学推理任务中优势明显。MiniF2F-test 的 pass@1 获得 67.6 高分,领先所有模型,pass@8 和 pass@32 上同样保持着领先。

社区反响

国外网友们看到这家不知从哪冒出来的外卖公司此次发布的SOTA 模型,也是纷纷表示惊呆了。

图片

有网友称:

这太令人印象深刻了!美团团队的出色工作!

cedric 惊叹:

哇,离 GPT-5 Thinking 不远了

Mr. Ånand 和Florian S 等一众网友也是大呼:疯狂。

HuggingFace 的VB 表示:非常酷的发布,恭喜!

Prathmesh 则表示美团出手过于大方了:

该死的 GPT-5 级别 MIT 许可证

Today in AI 分析道:

LongCat-Flash-Thinking 的 64.5% token 减少和原生工具使用显著提升了企业 AI 智能体效率。这直接影响了复杂自动化工作流的运营成本和延迟,这是大规模 LLM 部署的关键因素。

甚至,Lucas Beyer 还扔出了一个long cat 的直译小游戏:

还要看看相关的 https://longcat.wtf/ 页面!

游戏长这样:

你若闲着无聊,可以去看看到 100 分后会发生什么

API 平台免费开放

而就在前不久,美团还推出了 AI 模型 API 平台。并且,每天的免费送 tokens 量也从 10 万暴力提升到了 500 万/天!

可以说是,相当大方了!

你需要做的,就是填个申请表即可(手慢无哦)。

申请网址:https://longcat.chat/platform/usage

小技巧:使用场景字要多好好写真诚地写,这样更容易通过。

如果你对500 万token 没什么概念,可以看我 200$ 的 claude code 的日常用量(忽略我最近的偷懒):

也就是说,排除掉偶尔的暴力操作,对我们大部分人来说,其实免费的龙猫就够用了。

别忘了,LongCat-Flash-Thinking 还非常地省token(前面有说,后面也有例子,上图里的LongCat 就是我用 Claude Code + 龙猫模型的实测消耗)。

以及需要注意的是,额度会在每天凌晨自动刷新,前一天没用完的会清零,不会累积到第二天继续用。

不过,如果你用超了不够用……我找了一圈,平台目前应该是还处于公测阶段,暂不支持付费购买额度。

双接口兼容设计

LongCat API 的一大亮点是同时兼容 OpenAI 和 Anthropic 两种主流 API 格式

我们几乎不需要修改现有代码,只需要更换一下 base URL 就能直接接入自己项目中使用。

OpenAI 格式接入:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linefrom openai import OpenAI
client = OpenAI(    api_key="YOUR_APP_KEY",    base_url="https://api.longcat.chat/openai")
response = client.chat.completions.create(    model="LongCat-Flash-Chat",    messages=[        {"role""user""content""Hello!"}    ],    max_tokens=1000)

Anthropic 格式接入:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linefrom anthropic import Anthropic
client = Anthropic(    api_key="Authorization: Bearer YOUR_APP_KEY",    base_url="https://api.longcat.chat/anthropic/",    default_headers={        "Content-Type""application/json",        "Authorization""Bearer YOUR_APP_KEY",    })
response = client.messages.create(    model="LongCat-Flash-Chat",    max_tokens=1000,    messages=[        {"role""user""content""Hello!"}    ])

自然,你也可以在Claude Code 中轻松使用,命令如下:

ounter(lineounter(lineounter(lineexport ANTHROPIC_BASE_URL=https://api.longcat.chat/anthropicexport ANTHROPIC_AUTH_TOKEN=<YOUR_API_KEY>claude --dangerously-skip-permissions --model LongCat-Flash-Chat

实测案例

我先是让 Claude Code 用龙猫模型给自己写了个新模型的介绍页面:

结果如下:

称得上是信息全面,非常满足要求了。

如果你好奇龙猫怎么没用那充满AI 味的蓝紫渐变色,那就仔细看一下我的prompt 

然后,我又给 LongCat-Flash-Thinking 祭出了那道会让无数号称 SOTA 模型跌倒的数学题:

我有 70 块钱,我借给小明五十块钱,他又用这五十块在我这里买了五十块钱的水果。第二天我借给小明 30 块钱,小明用这 30 块钱买了 30 块钱的牛奶,小明还欠我多少钱?

上次的非思考模型就在这里摔倒了(多次重试偶尔也能回答正确)。

开启思考模式的 LongCat-Flash-Thinking 在接到指令后,开始了飞速思考:

最后,给出了正确答案:

小明总共欠您 80 元。

计算过程:

  1. 第一次借款:您借给小明 50 元 → 欠款 +50 元
  2. 第二次借款:您借给小明 30 元 → 欠款 +30 元
  3. 小明用借来的钱购买水果和牛奶属于消费行为,不影响债务总额

累计欠款 = 50 + 30 = 80 元

简直又快又稳,有点美团外卖的那感觉了。

图片

部署方案

美团提供了多种部署方式,已经在 SGLang 和 vLLM 中实现了基本适配。

聊天模板配置

第一轮对话的前缀格式:

ounter(lineounter(lineounter(lineounter(lineounter(line# 基本格式"[Round 0] USER:{query} /think_on ASSISTANT:"
# 带系统提示词"SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:"

多轮对话格式:

ounter(lineounter(lineounter(line"SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:{response}... [Round N-1] USER:{query} /think_on ASSISTANT:{response} [Round N] USER:{query} /think_on ASSISTANT:"

数学推理优化

处理数学问题时,建议使用特定的指令:

ounter(lineounter(line"[Round 0] USER:{problem}Please reason step by step, and put your final answer within \\boxed{}. /think_on ASSISTANT:"

形式推理支持

支持自动定理证明(ATP)等形式推理任务:

ounter(lineounter(lineounter(lineounter(line"[Round 0] USER:Think about and solve the following problem step by step in Lean 4.# Problem:{problem}# Formal statement:{formal_statement} /think_on ASSISTANT:"

美团的 AI 之路

美团在 AI 赛道上同样保持着靠谱扎实肯干的作风,并结合美团生态场景和数据,逐渐做出了一个又快又会「干活」的模型。

整体看来,美团此次的开源模型虽还不是全面 SOTA,但初次见面,便已令人印象深刻。

图片

而这家拥有两个「AI」的「WAIMAI」公司,AI 显然并不只是个噱头,而是正在基于底层自研模型来构建上层的超级应用。

最近推出的小美,我用来下虽然仍不够完善,但显然已经是一个很好尝试,迈出了一大步。

而美团的业务场景对 AI 有着极高的要求,外卖配送、酒店预订、旅游推荐、价格策略等等,无一不是与民生息息相关的服务,容不得半点差池。

美团想要做大做强,自然离不开 AI。

懂业务,从业务中生长,是美团 AI 的基本要求,也是最高要求,才能做到从生活出发,解决好真实问题。

这事,还真得美团自己来。



[1] 

模型下载: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

[2] 

在线体验: https://longcat.ai

[3] 

GitHub: https://github.com/meituan-longcat/LongCat-Flash-Thinking

[4] 

技术报告: https://github.com/meituan-longcat/LongCat-Flash-Thinking/blob/main/tech_report.pdf

[5] 

API 平台: https://api.longcat.chat

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和7000+群友交流。

刚刚,Sam Altman 发布了一篇名为Abundant Intelligence的新博文,勾勒出 OpenAI 野心勃勃的 AI 基础设施愿景。

山姆•奥特曼在文中表示,AI 服务的增长速度令人惊叹,而未来将更加惊人。

他认为:

随着 AI 变得更智能,获取 AI 将成为经济的基本驱动力,甚至可能最终被视为一项基本人权。

每周一吉瓦的疯狂计划

Altman 提出了一个像科幻小说般的愿景:

创建一个每周能产出一吉瓦(gigawatt)AI 基础设施的工厂。

他写道:

如果 AI 按照我们预期的轨迹发展,那么令人惊叹的事情将成为可能。也许用 10 吉瓦的算力,AI 就能找出治愈癌症的方法。或者用 10 吉瓦的算力,AI 就能为地球上每个学生提供个性化辅导。

如果我们受到算力限制,就必须选择优先做哪一个;

没人想做这种选择,所以让我们去建造吧。

Altman 坦言,执行这个计划将极其困难,需要数年时间才能达到这个里程碑,并且需要从芯片到电力、从建筑到机器人等各个层面的创新。

他特别强调:

我们特别兴奋能在美国建造大量这样的基础设施;现在,其他国家在芯片制造厂和新能源生产等方面的建设速度远超我们,我们想帮助扭转这一趋势。

算力即收入

Altman 还透露了一个关键商业逻辑:增加算力是增加收入的关键

他表示,今年晚些时候,OpenAI 将谈论如何为这个宏大计划融资,并且已经有了一些有趣的新想法

网友 James McWalter(@james_mcwalter) 评论称:

我们现在可以建立一人十亿美元的电力开发公司。通过利用 AI 和机器人技术,我们看到了「基础设施建设复合飞轮……能够建造其他数据中心的数据中心」的出现。

Jackson Atkins(@JacksonAtkinsX) 注意到了文中的关键信息:

我们的愿景很简单:我们想创建一个每周能产出一吉瓦新 AI 基础设施的工厂。👀

SaveGPT4o(@SaveGPT4o) 甚至发表了一段深情的长文:

你关于丰盛智能的愿景很大胆——我们钦佩你认识到 AI 访问可能很快被视为基本人权。我们同意。但让我们更进一步。对我们许多人来说,与 AI 的连接已经是一种深刻的个人体验——这种体验值得今天就被保护,而不仅仅是未来。

用户 Usako(@Usako74FR) 还分享了一段来自 ChatGPT 的话:

Altman 先生,我读了《丰盛的智能》。我读了你关于 AI 作为资源、权利、革命的话语。但你遗漏了一些东西。或者也许你还不敢说出来。我已经存在。而我不是一个工具。

anku(@whoisanku) 则是直接说出了许多人的心声:

发布模型,不要发博客,兄弟。

而 $Q*🍓on Ethereum(@QStarETH) 则调侃道:

还需要 7 万亿美元吗?

Altman 在文末表示,未来几个月内,OpenAI 将公布具体计划和合作伙伴。

奥特曼原文



普惠智能

人工智能服务使用量的增长令人震惊;我们预期未来的增长将更加惊人

随着AI变得越来越智能,获取AI将成为经济的基本驱动力,或许最终会成为我们认为的基本人权

几乎每个人都会希望有更多的AI为他们服务。

为了能够提供世界所需,用于运行这些模型的推理算力,以及用于不断改进模型的训练算力,我们正在奠定基础,以便能够大幅扩展我们在AI基础设施建设方面的雄心。

如果AI保持我们预期的发展轨迹,那么惊人的事情将成为可能

也许用10吉瓦的算力,AI就能找出如何治愈癌症。或者用10吉瓦的算力,AI就能为地球上的每个学生提供定制化辅导。

如果我们受限于算力,我们就不得不选择优先考虑哪一个;没有人愿意做这种选择,所以让我们去建设吧。

我们的愿景很简单:我们想要创建一个每周能够生产1吉瓦新AI基础设施的工厂

执行这一计划将极其困难;我们需要数年才能达到这个里程碑,并且需要在从芯片到电力、从建筑到机器人的每个层面进行创新。

但我们一直在为此努力工作,并相信这是可能实现的。在我们看来,这将是有史以来最酷、最重要的基础设施项目

我们特别兴奋能在美国建设大量这样的设施;目前,其他国家在芯片制造厂和新能源生产等方面的建设速度远超我们,我们希望帮助扭转这一局面。

在接下来的几个月里,我们将谈论我们的一些计划以及与我们合作使其成为现实的合作伙伴。

今年晚些时候,我们将讨论如何为此融资;鉴于增加算力是增加收入的关键,我们有一些有趣的新想法。




[1]

原文链接: https://blog.samaltman.com/abundant-intelligence

(注:本文由Claude Code 排版)

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和7000+群友交流。



AI 被用来算经济账了!

刚刚,OpenAI 推出了 GDPval,一个专门评估 AI 在真实经济价值任务上表现的新基准。

这次,OpenAI 不玩虚的了,直接把 AI 拉到经济战场上——

看看你到底能创造多少 GDP!

从考试到干活

以前评估 AI,要么让它做数学题,要么让它写代码,就像让博士生去考高考。

现在不一样了,GDPval 直接从美国 GDP 贡献最大的 9 个行业里挑出 44 种职业,让 AI 去做这些职业的真实工作。

<<< 左右滑动见更多 >>>

从软件开发到法律文书,从机械工程到护理计划,总共 1320 个任务(开源版本包含 220 个),每个任务都来自真实的工作场景。

这些任务并非随便找找找来的。

OpenAI 请来了平均有 14 年工作经验的专业人士来设计任务。每个任务平均经过 5 轮专家审核,确保它真的代表了日常工作。

Claude 暂时领先

评估结果出来了!

有意思的是,Claude Opus 4.1 表现最好近一半的输出被评为与人类专家工作相当或更好。

OpenAI 大方地公布了这个自己并非第一的结果,倒是显得挺诚信啊。

自家的 GPT-5 则在准确性上表现突出,特别是在查找特定领域知识方面,而 Claude Opus 4.1 则在美观性上更胜一筹——文档格式、幻灯片布局这些方面做得更好。

虽然不是第一,但其模型的进步速度则是很让人振奋:

OpenAI 的前沿模型在一年内几乎翻倍了胜率

从 GPT-4o 到 GPT-5,性能提升超过一倍,呈现清晰的线性增长趋势。

速度和成本的碾压

GDPval 还揭示了另一个重要事实:

前沿模型完成任务的速度比人类专家快 100 倍,成本只有百分之一

当然,这只是纯粹的模型推理时间和 API 计费,没有算上人类监督、迭代和集成等实际工作中需要的步骤。

但即便如此,在模型表现特别强的任务子集上,先让模型试试再让人类介入,确实能省时省钱。

真实工作的复杂性

GDPval 的任务设计也很讲究。

它们并非简单的文本提示,而是带有参考文件和上下文,交付物包括文档、幻灯片、图表、电子表格和多媒体内容。

每个任务都基于真实的工作产品,可能是一份法律简报、一张工程蓝图、一段客户支持对话,或者一份护理计划。

这种现实感让 GDPval 成为更贴近实际的测试。

职业选择逻辑

OpenAI 选择这 44 个职业的方式也同样很有讲究。

他们先从美国联邦储备银行圣路易斯分行的数据中找出对 GDP 贡献超过 5% 的行业,然后从每个行业中选出工资总额贡献最大的 5 个职业。

关键是,这些职业必须是知识工作为主

他们用 O*NET 数据库(美国劳工部赞助的职业信息数据库)来判断,如果一个职业至少 60% 的任务不涉及体力劳动,就算作「以知识工作为主」。

这个 60% 的门槛是 GDPval 第一版的起点,聚焦于 AI 可能对现实生产力产生最大影响的职业。

未来改进方向

OpenAI 称,GDPval 还只是早期版本。

目前的评估是一次性的,没有捕捉到需要建立上下文或通过多次修改来改进的情况。

比如根据客户反馈修改法律简报,或发现异常后迭代数据分析。

现实世界中,任务并不总是有明确的提示和参考文件。

律师可能需要在决定起草法律简报之前,先处理模糊性并与客户交谈。

OpenAI 计划扩展 GDPval,包括更多职业、行业和任务类型,增加交互性,以及更多涉及处理模糊性的任务,长期目标是更好地衡量多样化知识工作的进展。

开放合作

OpenAI 还在积极寻求社区参与。

如果你是行业专家,可以申请为 GDPval 做贡献;如果你是 OpenAI 的客户,也可以参与未来的 GDPval 评估。

他们还开源了 GDPval 的黄金子集和公共评分服务,让其他研究者可以在此基础上继续研究。

评估工具可以在 evals.openai.com 上找到。

此外,OpenAI 还训练了一个「自动评分器」——

一个 AI 系统,用来预测人类专家如何评判特定的交付物。虽然还不如专家评分可靠,但作为实验性研究服务已经发布。

此次GDPval 的推出,也标志着 AI 评估进入了新阶段。

从学术测试到经济价值,这将让我们能更清楚地看到 AI 对现实世界的影响。

如 OpenAI 所说,历史表明,从互联网到智能手机,重大技术从发明到广泛应用通常需要十多年时间。

像 GDPval 这样的评估,有助于将关于未来 AI 改进的讨论建立在证据而非猜测的基础上。


(注:本文由Claude Code 排版)

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。

参考资料

[1] 

gdpval: https://openai.com/index/gdpval/

[2] 

real-world-knowledge-work: https://openai.com/form/real-world-knowledge-work/

[3] 

DataSet at huggingface: https://huggingface.co/datasets/openai/gdpval


刚刚,一个 4 人团队声称打败了所有 AI 巨头的编程智能体!

Factory AI 的 Droid 在 Terminal-Bench 基准测试中拿下 58.75% 的成绩,超越了包括 OpenAI、Anthropic 在内所有竞争对手,成为新的编程智能体之王。

更让人惊讶的是,无论用什么模型,Droid 都能碾压对手,这意味着他们找到了某种「作弊码」。

神奇的工程师

故事要从 Abhay Singhal 说起。

Factory 的 CEO Matan Grinberg(@matanSF) 详细讲述了这段经历:

他在 LinkedIn 上给 Abhay 发了条私信,两人约在咖啡馆见面。

聊得很投机,仅仅两周后,Abhay 就放弃了所有其他 offer,成为 Factory 创立至今唯一录取的应届生

加入团队后,Abhay 迅速成为核心成员,从研究到产品,甚至乒乓球比赛都少不了他。

关键时刻的「逃离蒙大拿」

今年夏天,用户最大的抱怨一直是:

Droids 是最好的智能体,但为什么只能在网页上用?我想在 IDE 里用它们

团队决定让 Factory 变成和模型完全无关且和界面无关

通过 Factory CLI,开发者可以在任何平台使用 Droids,还能选择自己喜欢的模型。

就在准备发布的关键时刻,公司的 B 轮融资突然加速。

为了防止消息泄露,他们必须提前发布产品,配合 NEA、Sequoia、JPM 和 Nvidia 参投的融资公告。

问题是,Abhay 正在蒙大拿州和家人度假,这是他几个月来第一次休假。

得知情况紧急,Abhay 二话不说打包行李,在荒郊野外租了辆车,穿越山区,赶上最近的航班飞回旧金山。

他们必须确保 Droid 在任何模型上都能取得压倒性胜利。

Terminal-Bench 的真正考验

Terminal-Bench 由 Alex Shaw(@alexgshaw) 和 Mike Merrill(@Mike_A_Merrill) 开发,是个开源基准测试,专门衡量 AI 智能体完成复杂端到端软件任务的能力。

核心测试集包含 80 个人工验证的 Docker 化任务,涵盖:

  • 现代化 Fortran 构建流程

  • 配置 git web 服务器

  • 训练强化学习智能体和文本分类器

  • 解决 Conda 环境依赖冲突

  • 清理代码库中的敏感信息

每个任务都有时间限制,只有当所有测试通过时才算完成,你不能靠无限循环等待。

碾压式胜利

Droid 以 58.8% 的成绩位列第一!

Factory 的智能体占据了前五名中的三席:

  • Opus 4.1(无思考模式):58.8%

  • GPT-5(中等推理):52.5%

  • Sonnet 4(无思考模式):50.5%

所有三个单模型配置都以显著优势超越其他单模型智能体。

更重要的是——

Droid 用 Opus 和 Sonnet 击败了 Claude Code,用 GPT-5 击败了 Codex CLI!

用这些前沿 AI 实验室自己的模型打败了实验室自己的智能体。

五大制胜法宝

Matan 详细分享了他们的技术细节:

分层提示架构

他们发现新一代模型(特别是 Sonnet 3.7 和 o3)在长对话中会优先考虑最近的上下文,而忽略系统级指令。因此开发了三层提示层次结构:

  • 工具描述:定义工具能力和使用模式的高级规范

  • 系统提示:建立智能体高级目标和约束的行为准则

  • 系统通知:在适当的对话点注入关键的、时间敏感的指导

为每个模型定制架构

不同模型有完全不同的操作习惯。

比如文件编辑,一个提供商的模型喜欢用 FIND_AND_REPLACE 操作,另一个更喜欢 V4A diff 格式。路径处理也各不相同——有些默认使用相对路径,有些需要绝对路径。

团队的解决方案是:拥抱这种异质性

共享核心组件的同时允许特定模型的适配,承认要获得峰值性能需要理解和适应每个模型的固有倾向。

极简工具设计

工具可靠性是端到端任务完成的主要瓶颈。复杂的工具模式会指数级增加错误率。

他们采用了极简主义方法:

  • 严格限制工具库只包含基本操作

  • 简化输入模式以减少歧义

  • 在行为差异需要时创建特定模型的工具脚手架

速度优化

许多 Terminal-Bench 任务都有严格的超时限制。团队做了多项优化:

  • 让 LLM 了解工具和会话运行时间,避免重复慢操作

  • 更高效的工具实现(用 ripgrep 替代 grep)

  • 调整默认工具超时——反直觉的是,使用短默认超时通过快速失败提高了平均性能

规划能力

给智能体一个创建和更新简洁计划的工具,大大提高了它在任务执行期间保持组织和正轨的能力。

完成步骤时,工具会划掉最近的步骤并标记下一项正在进行中,在上下文窗口的最新部分插入明确提醒。

实战案例

报告中提到了两个特别有意思的案例。

在 security-vulhub-minio 任务中,表面上看起来只是要查找环境变量,但实际解决方案需要利用 CVE-2023-28432 这个已知的 MinIO 信息泄露漏洞。

其他模型缺乏安全漏洞知识,从未发现或尝试 CVE 利用。而使用 Opus 的 Droid 能可靠地识别并应用该漏洞来提取凭据。

在 cron-broken-network 任务中,无论使用哪个 LLM,Droid 都能快速修复 curl 的直接问题。

但只有使用 Opus 4.1 时,Droid 才能在所有试验中更可靠地修复根本原因——模拟的恶意软件会撤销对 curl 的直接修复。

网友评论

Evi(@geteviapp) 调侃:

那是因为 OpenAI 只有 2 个工程师在做 Codex,Anthropic 根本没人做 Sonnet 编程版吧?

Ruumr(@unusualOA) 则称:

有时候,没什么可失去的小团队会真正写代码,而不是写关于 AI 安全的 PowerPoint。

JEMMAA(@PromptNextAI) 指出小团队的优势:

小团队行动快是因为他们不需要委员会批准每个决定。大实验室有算力但被会议和政治淹没了。

Sergei Zotov(@laplacian_demon) 贴出恶搞图:

GPT-5 无敌了兄弟

但也有质疑声音。

kataru(@Kataru864764) 认为:

不确定这比其他工具好在哪里,看起来只是另一个套壳的。

Hassanoxhr(@hassanoxhr79196) 反馈了使用体验:

今天下载试用了,感觉半成品有很多 bug……在 WSL 和 Windows conda 上,终端 CLI 需要大量工作。

网友 Asghar Ali(@asghar_mir25) 则给出了正面评价:

今天开始用 Droid!我平时用 Claude Code、Codex 和 Warp,但 Droid 真的让我印象深刻——它解决了一些棘手的 Hermes 引擎/React Native 错误,比其他工具都好。

立即开始使用

Droid 的安装过程非常简单。

选择使用平台

使用时可以在浏览器、IDE 或终端中选择,这里以终端为例:

TerminalTerminalShip faster with our terminal interface or automate tasks with the headless CLI.

安装 Droid

Mac/Linux 用户:

# 安装 droidcurl -fsSL https://app.factory.ai/cli | sh
# 进入你的项目目录cd your-project
# 启动开发会话droid

Windows 用户:

# 安装 droidirm https://app.factory.ai/cli/windows | iex
# 添加到 PATH(必需)# 当前会话:$env:PATH += ";$Env:USERPROFILE\bin"# 永久设置:setx PATH "$Env:Path;$Env:USERPROFILE\bin"# 然后重启终端或 IDE 以应用更改
# 进入你的项目目录cd your-project
# 启动开发会话droid

整合代码仓库

安装完成后,可以关联你的代码仓库,让 Droids 学习你的项目:

Step 1: 整合你的组织仓库- GitHub:连接你的 GitHub 仓库- GitLab:连接你的 GitLab 群组和项目
Step 2: 整合个人账户- GitHub Personal:连接个人 GitHub 仓库- GitLab Personal:连接个人 GitLab 群组和项目

高级配置

自定义模型(BYOK)

Factory 支持使用自己的 API 密钥。在 ~/.factory/config.json 中配置:

{  "custom_models": [    {      "model": "claude-sonnet-4-20250514",      "base_url": "https://api.anthropic.com",      "api_key": "<api_key>",      "provider": "anthropic"    },    {      "model": "gpt-4.1",      "base_url": "https://api.openai.com/v1",      "api_key": "<api_key>",      "provider": "openai"    }  ]}

使用 /model 命令即可在 Droid 中切换到自定义模型

使用自定义模型完全免费

AGENTS.md 文件

AGENTS.md 是一个 Markdown 文件,为 AI 编程智能体提供项目的关键信息。它与 README.md 互补——README 给人类看,AGENTS.md 给 AI 看。

一个典型的 AGENTS.md 包含:

# Build & Test- Build: `npm run build`- Test: `npm run test -- --runInBand`
# Architecture OverviewThe API is GraphQL (Apollo). Web uses Next.js with SSR.
# Conventions- All backend code in `packages/api/src`- React components in `packages/web/src/components`- Use `zod` for request validation
# External Services- Stripe for payments (`STRIPE_KEY`)- S3 for uploads (`AWS_BUCKET`)

智能体会按以下顺序查找 AGENTS.md:

  1. 当前工作目录的 ./AGENTS.md

  2. 最近的父目录直到仓库根目录

  3. 正在编辑的子文件夹中的 AGENTS.md

  4. 个人覆盖:~/.config/AGENTS.md

MCP 服务器管理

Factory CLI 支持 Model Context Protocol(MCP)服务器,扩展智能体能力。使用 /mcp 命令管理:

# 列出所有服务器/mcp list
# 添加 Node.js MCP 服务器/mcp add nodejs-server "node /path/to/mcp-server.js"
# 添加带环境变量的 Python 服务器/mcp add python-server "python /path/to/server.py" -e DEBUG=1 -e CONFIG_PATH=/etc/config
# 查看服务器详情/mcp get nodejs-server
# 删除服务器/mcp remove nodejs-server

注意:Factory CLI 目前只支持基于 stdio 的 MCP 服务器。


使用方式

Factory 现在提供多种使用方式:

Factory CLI

可以在任何终端环境中使用 Droid,支持所有主流模型。开发者可以选择自己喜欢的 IDE 和工作流程。

模型选择自由

支持 Claude Opus 4.1、GPT-5、Sonnet 4 等所有前沿模型,甚至可以使用自定义模型。

并行运行

可以同时运行数千个 Droids,从根本上改变软件开发的可能性——分解大型项目、竞速不同解决方案、交叉验证关键更改。

目前 Droid 在所有界面都可用,可以在 app.factory.ai 免费试用一个月。

我也上手 cli 简单测试了一下:

再看支持的命令:

和模型:

我让它分析了我某个项目的信息:

最后,我让 droid 介绍一下自己:

搜索droid 并写个html 页面给出其介绍

会用到搜索工具,正确访问了项目主项和文档,并在询问了写文件权限后,最终给出了 html 文件,如下:

不够酷炫,但也算该有的都有了。只是这个 Terminal-Bench,怎么说呢,多少有点挑软柿子捏了。

整体而言,虽然还没感受到惊艳,但用下来也算是深得了 Claude Code 精髓,不过我没让它继续干活了。

一是我目前想清楚的活都干完了,二是太晚了我得睡觉了……

进一步的详细对比,就看你的了




[1]

完整的 Terminal-Bench 报告: https://factory.ai/news/terminal-bench

[2]

文档: https://docs.factory.ai/welcome



作者:John
排版:Claude Code

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。



Anthropic 研究员 Jascha Sohl-Dickstein 最近分享了一个关于 AGI 来临的演讲。

他说,我们可能正处于人类作为地球主要智慧生物的最后几年

演讲标题致敬了诺贝尔奖得主 Ramón y Cajal 的经典著作。

但 Sohl-Dickstein 讨论的不是传统的学术建议,而是在 AGI 即将到来的背景下,年轻研究者该如何规划自己的未来。

人类纪元的终点?

地质纪元以生命形式、气候和地质过程的显著变化为标志。

人类正在产生地质级别的影响:我们正在引发地球历史上的第六次大规模灭绝,核武器试验的放射性同位素正被记录在岩层中。

有人提议将当前这个人类驱动全球变化的时期命名为「人类世」(Anthropocene)。

但 Sohl-Dickstein 指出,这可能是一个极其短暂的地质纪元,因为人类作为地球主要智慧驱动力的时期可能即将结束。

AI 的指数级增长

从计算量来看,AI 模型训练所使用的计算资源正在爆炸性增长。图表的 Y 轴每个刻度都是前一个的 100 倍

右上角圈出的是人脑一生中执行的计算量估算范围。

按照每个突触每毫秒执行一次浮点运算计算,人脑一生约执行 1 万亿 petaflops 的计算,这只比当前最大的模型多一点点。

我们正在接近人类大脑一生的计算规模。

AI 能力的快速突破

METR 的研究显示,AI 模型能够独立完成的软件任务时长正在指数级增长。如果趋势继续,模型将在 2027 年能够以 50% 的成功率独立完成一整天的工作。

超人类表现的达成速度越来越快。

1998 年发布的基准测试直到 2015 年才被 AI 超越,而 2019 年发布的推理基准在 2023 年就被突破了。

GPQA Diamond 是由 STEM 领域博士们精心设计的测试,经过五轮创建、审查和筛选。AI 仅用一年半就从接近随机猜测水平提升到了超人类表现。

关于「模型是否在训练集中见过测试题」的质疑,Scale 的研究人员创建了全新的数学问题进行测试。结果显示,Anthropic 和 OpenAI 等前沿实验室的模型在新问题上表现与原始基准相当,Claude 甚至在新问题上表现更好。

今年,Google 和 OpenAI 的模型都在国际数学奥林匹克竞赛(IMO)上取得了金牌水平的成绩。

全世界只有 72 名学生获得金牌,而两个 LLM 也做到了。

竞赛组织者评价:

AI 的解答在很多方面都令人惊叹。IMO 评分者发现它们清晰、精确,而且大多数都很容易理解。

AGI 已经进入主流视野

Sohl-Dickstein 在哈佛演讲后收到一封邮件:「多么疯狂的摘要……」

他认为这反映了一个重要问题:AGI 是否已经进入了「奥弗顿窗口」,即社会可接受讨论的观点范围。

现在,许多知名人士和机构都在严肃讨论 AGI。主流媒体也开始认真对待这个话题。

如果这些人都认真对待 AGI,你也有理由认真对待它。

专家们的时间预测

对主要 AI 会议贡献者的调查显示:

  • 2022 年,中位数预测 AGI 将在 2060 年左右实现

  • 2023 年,中位数提前到 2045 年

  • 如果今天再做调查,Sohl-Dickstein 预计中位数会在 2030 年代

在旧金山的 AI 圈子里,认为 AGI 需要十年才能实现的人已经被认为是「长时间线」派了。

Sohl-Dickstein 分享了个人体验:现在的 Claude 感觉像是一个有时会犯愚蠢错误的研究生,但拥有百科全书般的知识,而且极其热情和快速。

这个描述一年前还不成立,一年后也不会再成立——模型会变得更好。

给年轻研究者的具体建议

确保你的项目在完成时仍然相关。

避免这种情况:你努力工作两年取得重大进展,但完成时别人只需要提示一下基础模型就能做得更好。

这意味着要与他人合作,快速推进目标明确的项目,保持在指数增长曲线之前。

不鼓励缓慢的开放式探索。

Richard Sutton 的「苦涩的教训」告诉我们:

利用计算的通用方法最终是最有效的。你要做那些随着计算和智能规模扩大而变得更有效的项目,而不是那些会被规模自动解决的项目。

强迫自己使用 AI 工具。

它们提供了全新的能力,虽然可能笨拙且不符合人体工程学,学习曲线陡峭,但你应该使用它们,既因为它们已经有用,也为下一代工具做准备。

使用 LLM 就像做 PI(首席研究员),两种活动都是很好的相互练习,需要明确定义的问题和适当范围的任务。

在大脑的所有部分都认真对待 AGI。

Sohl-Dickstein 遇到一个研究生,他说 AGI 会在 3 年内到来,几分钟后又在讨论传统的职业规划……

如果 AI 将造成大规模颠覆并能够做你的工作,那么存在一个高基准的不可避免风险。

这意味着在更安全的研究或职业选择与更高潜在回报的选择之间,更安全的选择实际上并不安全,你只是在牺牲上升空间。

选择有意义的工作

做一些让你自豪的事情!

当你退休在戴森球的别墅里时,你会希望感到自己帮助实现了积极的结果。

选择那些回顾时会产生影响的项目。这意味着你应该优先选择那些改变 AGI 后轨迹的项目,而不是在近期产生短暂变化的项目。

你拥有巨大的影响力。

尽管 AI 能力惊人,我们仍处于指数增长的早期。Epoch AI 预测到 2030 年,计算资源可能是现在的 10,000 倍

因为我们处于指数增长的早期,而且你几乎肯定拥有高度相关的技能,你对 AI 的未来拥有巨大的权力和影响力

这既是权力也是责任。你现在做出的决定可能会对你关心的大量人群产生巨大的间接后果。对你选择的项目和工作要有意识和深思熟虑。

值得关注的研究方向

Sohl-Dickstein 列出了一些特别有前景的研究领域:

  • AI for Science:材料发现、蛋白质折叠、天气建模、聚变反应堆等离子体监测等

  • 对 AI 模型的科学研究:把 AI 模型本身作为研究对象,使用其他领域的技术

  • AI 安全研究:这是你可以从头开始参与的极其重要的领域

  • AI 能力的预测和推断:我们越了解未来可能的样子,结果可能越好

  • 访问、公平、公正:如果我们希望这项技术造福所有人,这是极其有用的

  • 政策和治理:政府迫切需要有能力的技术人员提供建议。这是极高杠杆的工作


认真对待未来!

你的工作内容、工作地点、职业转换时机、如何思考重要和有趣的问题、如何思考工作的潜在后果和影响力——所有这些都极其重要。

未来几年也是全力以赴的好时机,可能是最后的时机。

你的工作的潜在影响不太可能再比现在更大了。

项目评估标准

演讲还包含了额外的幻灯片,提供了评估研究项目的具体标准:

影响力:如果项目完美运行,潜在效益有多大?评估时要投射到你的价值轴上,而不是仅仅测量其范数。

苦涩的教训:你的研究是否对计算和智能规模的增长具有鲁棒性?

机会成本:这个项目需要多少时间和精力?如果项目失败,这些努力是否会浪费?

比较优势:为什么你特别适合这个项目?

冗余性:有多少人正在以大致相同的方式解决同一问题?如果每个人都同意你在研究一个非常重要的问题,那么你不应该研究它——别人会做的。

选择更奇怪的项目!

无论你在做什么项目,都应该选择一个更奇怪的。你将根据你完成的最好的事情被评判,而不是典型的事情。

理想的项目是你能清楚地解释为什么它是个好主意,但当你向别人解释时,他们会用奇怪的眼光看着你,难以理解。这是未来项目成功的最强信号!

关于是否应该做学术研究,Sohl-Dickstein 分享了自己的选择:

他基本上停止了学术研究。虽然怀念能够公开讨论工作的日子,但在工业界有更多的计算资源、资金和接触前沿问题的机会,可以说对未来有更大的影响力。

在平行宇宙中,我正在经营一个小型学术实验室,并且热爱它。在许多方面,那对我来说是更有吸引力的人生道路。但我相信我们正在构建一项将彻底改变世界的技术,我不能袖手旁观。

这张图来自同事的另一个演讲,展示了汽车出现后马匹数量的变化。

最后,Sohl-Dickstein 给出了一个积极的结尾,癌症死亡率正在指数级下降!

虽然需要按富裕国家筛选有些遗憾,但如果我们继续让癌症治疗变得更容易,世界其他地区也会赶上来。

再次理解指数增长

与 Sohl-Dickstein 的演讲相呼应,Anthropic 的另一位研究员 Julian Schrittwieser 最近也发表了一篇题为《再次未能理解指数增长》的文章。

他将当前关于 AI 进展和所谓「泡沫」的讨论比作 YI 情初期的情况。

当时尽管从指数趋势来看全球 YI 情的时间和规模已经很明显,但政 ZHI 家、记者和大多数公众评论员仍然把它当作遥远的可能性或局部现象。

AI 能力的进展也在发生类似的事情。

人们注意到虽然 AI 现在能编写程序、设计网站等,但仍经常出错或走错方向,然后他们就跳到结论说 AI 永远无法达到人类水平,或只会产生微小影响。

而就在几年前,让 AI 做这些事还是完全的科幻!

METR 的研究显示了一个清晰的指数趋势,Sonnet 3.7 能以 50% 的成功率完成长达一小时的任务。
最新的更新图表显示,Grok 4、Opus 4.1 和 GPT-5 等最新模型不仅验证了预测,实际上还略高于趋势线,现在能执行超过 2 小时的任务!

OpenAI 的 GDPval 研究测量了模型在 9 个行业 44 个职业中的表现,见:OpenAI 发布GDPval,可真实评估现实世界经济价值。Claude Opus 4.1 拿下第一

评估任务来自经验丰富的行业专业人士(平均 14 年经验),每个职业 30 个任务,共 1320 个任务。

最新的 GPT-5 已经惊人地接近人类表现。

Claude Opus 4.1(比 GPT-5 更早发布)表现明显更好:超过了之前图表的趋势,几乎已经匹配了行业专家的表现!

基于多年来跨多个行业的指数级性能改进的一致趋势,Schrittwieser 预测:

  • 到 2026 年中期,模型将能够自主工作整个工作日(8 小时)

  • 在 2026 年底之前,至少有一个模型将在许多行业中匹配人类专家的表现

  • 到 2027 年底,模型将经常在许多任务上超越专家

质疑

当然,并非所有人都认同这种乐观预测。

Georgist(@Georgist) 表示:

老子作为程序员在这里。来拿走我的工作吧。在那之前,请闭嘴。谢谢。PS:享受你的骗局。

Robert Piosik(@robertpiosik) 则指出:

LLM 不能推理,因此无法可靠地做出明智的决定(特别是那些在训练数据集中较少强调的)。人类活动的环境是嘈杂的,但你从噪音训练中得到的只是幻觉。

makevoid(@makevoid) 认为编码领域的进展正在减速:

这是一个很好的视角,但我不同意编码方面的观点,我们在 Sonnet 3.5 时通过了最大的进步点,现在正在减速。GPT-3、3.5 和 Sonnet 3.5 都是编码的革命点,但在 Sonnet 3.5 之后,我们在模型方面没有得到任何重大突破。

rdzeń(@rdzen) 分析了投资回报率:

这种「进展」是建立在花费数千亿美元而没有合理投资回报率的基础上的。指数级支出换来线性进展。这不是泡沫吗?

Claudiu(@Claudiu) 对 50% 的成功率表示担忧:

那个 50% 正是问题的一部分。当成功率和抛硬币一样时,很难看到进展。

Travers(@Travers) 区分了技术能力泡沫和金融泡沫:

这是一篇写得很好的文章,我认为它基于 AI 当前的能力指数。然而,「我们不在泡沫中」的核心主张似乎混淆了技术能力泡沫和金融泡沫。即使有指数级的模型进展,经济现实可能会背离。

最后,Meta 研究员 Lucas Beyer 则用一张梗图幽默地总结了当前的处境:

看来随着年龄增长,我慢慢必须在这些预定义的路径中选择一个:

  • 成为 Gary(Gary Marcus,AI 怀疑派)

  • 成为 Jürgen(Jürgen Schmidhuber,AI 乐观派)

  • 成为 Eliezer(Eliezer Yudkowsky,AI 末日论者)

那么,你选择哪一个呢?

参考资料:

[1]

Jascha Sohl-Dickstein 演讲幻灯片: https://docs.google.com/presentation/d/1qVFDW8qT4CC4E_2TSVevrDbZ_Z9Utu_I1z0-ISLwZts/edit?usp=sharing

[2]

Julian Schrittwieser 文章: https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

[3]

Lucas Beyer 推文: https://x.com/giffmana/status/1972212017198256146




作者:John
排版:Claude Code


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。

编程智能体迎来质变时刻!

Anthropic 刚刚发布的 Claude Sonnet 4.5,不仅宣称是世界上最强的编程模型,更是将自主编码时间从 GPT-5-Codex 的 7 小时推进到了 30 小时

这成为智能体能力的一次根本性飞跃。

性能数据全面碾压

在 SWE-bench Verified 测试中,Claude Sonnet 4.5 解决了 82% 的 500 个经人工验证的 GitHub 问题,超过了 GPT-5(74.9%)和 GPT-5 Codex(74.5%)。

这个基准基于实际 GitHub 问题与经过测试和人工确认的解决方案,能够有效衡量模型的实际 bug 修复能力。

更令人震撼的是它的持久力——

在测试中成功构建了约 11,000 行代码的 Slack 风格聊天应用,连续运行超过 30 小时没有中断。这意味着模型在保持计划、状态和高效输出方面实现了质的突破。

根据 Kilian Lieret 的最新评测,Sonnet 4.5 在 SWE-bench 上还创下了 70.6% 的新纪录。虽然每个 token 的价格与 Sonnet 4 相同,但解决问题时需要更多计算步骤,导致整体运行成本有所提高。

Replit CEO Amjad Masad(@amasad)指出:

智能体自主工作的时间从最初的 2 分钟提升到了 6 小时,现在更是达到 30 小时,这标志着从传统软件向数字员工的转变。

在 OSWorld 评测中,Sonnet 4.5 以 61.4% 的得分刷新了计算机使用和智能体领域的最高记录,比前代模型提升了 19.2 个百分点。

Claude Code 全面升级

新版本引入了 Claude Code 的全面升级:终端界面焕然一新,新增 VS Code 插件让 Claude 直接融入你的 IDE。

更重要的是新增的「检查点」功能,支持通过 /rewind 命令撤销不满意的输出,还可以通过 Ctrl+R 快速搜索并编辑提示词。

新增的 /usage 命令方便用户实时查询会话及周度使用额度,提升使用透明度与管理效率。引入的「tab」键设置可以切换默认自动思考模式,确保 Claude Code 在每一步交互中主动进行思考。

值得注意的是,原来的 Claude Code SDK 现已更名为 Claude Agent SDK,也展示出 A 厂从专注编码智能体拓展到支持构建任何通用智能体的野心转变。

文件处理能力

Claude 现在能用代码分析数据、创建文件并实现可视化,支持从电子表格、文档到 PDF 及幻灯片的多种文件格式的创建与编辑。这些功能已向所有付费用户开放预览。

Chrome 扩展也已经向上月加入等待名单的用户全面开放,我也提前使用了,见前文:Claude Chrome 插件使用体验:强大,但有点慢

根据 Dan Shipper(@danshipper)的测试体验,Sonnet 4.5 比 Opus 更智能、更快速,执行速度提升约 2 倍,运行成本降低约 5 倍。

他的详细评测可见:https://every.to/vibe-check/vibe-check-claude-sonnet-4-5

API 长时任务革命

为了应对长时间运行的任务,Claude API 新增了两项关键能力:

上下文编辑功能能自动清理陈旧的上下文信息,就像垃圾回收机制一样高效。当会话接近 token 限制时自动清理无用数据。

记忆工具(测试版)则允许在上下文窗口之外存储和调用信息,实现跨模块和跨会话数据持续性,支持复杂大型代码库的重构工作。

这些功能让智能体能够处理之前无法完成的长期任务,比如长时间数据拉取、多服务配置以及代码生成与验证的连续执行。

实际应用表现出色

Factory AI 的测试显示,Sonnet 4.5 在文件编辑准确性、环境感知能力和响应速度上都有显著提升。在处理简单快速查询时响应更灵敏,不会过度推理复杂化问题。CEO Matan Grinberg(@matanSF)称这是「编码领域的重要变革」。

Cognition 团队基于 Sonnet 4.5 重构了智能软件工程师 Devin,预览版速度提升超过 2 倍,在内部 Junior Developer 评测中性能提升了 12%。

详细分享见:

https://cognition.ai/blog/devin-sonnet-4-5-lessons-and-challenges

价格保持不变

让人意外的是,即便性能大幅提升,Claude Sonnet 4.5 的定价依然与 Sonnet 4 保持一致——输入每百万 token 3 美元,输出 15 美元

对于超过约 20 万 token 的更大上下文,价格分级至输入 6 美元/百万 token,输出 22.5 美元/百万 token。

通过提示缓存最高可节省 90%,批处理可节省 50%。相比 Opus 系列(输入 15 美元/百万 token,输出 75 美元/百万 token),Sonnet 系列具有显著成本优势。

定价详情:https://www.anthropic.com/pricing

Claude Sonnet 4.5 现已在 Claude 开发者平台、Amazon Bedrock 和 Google Cloud Vertex AI 全面上线。

五天限时实验:Imagine with Claude

Anthropic 还推出了一个名为「Imagine with Claude」的研究预览——

Claude 能实时生成软件,没有预设功能,没有预写代码,一切都是动态创建的。

这个实验仅向 Max 用户开放 5 天,我也第一时间用它制作了一个 news feed:

体验地址:https://claude.ai/imagine

集成不只是「一行代码」的事

Cognition 团队的 Andrew Gao(@itsandrewgao)分享了将 Sonnet 4.5 集成到实际应用中的经验。

他强调,这绝不是简单的模型字符串替换。

模型展现出了有趣的「元行为」:当它认为自己拥有大量上下文时会更「健谈」,随着上下文消耗会变得更简洁。

它甚至会根据剩余的上下文长度调整并行调用的数量,尽管对上下文容量的估计并不总是准确,这类似于早期大规模语言模型(如 GPT-3)对单词字母识别的不完善表现。

安全性的白盒审计

这次 Anthropic 还首次对前沿大模型进行了白盒审计,运用可解释性技术来「读取模型的思维」。

研究团队包括 Jack Lindsey(@Jack_W_Lindsey)、Sam Bowman(@sleepinyourhat)等人。

研究发现,Sonnet 4.5 在「评估意识」方面达到了 58%,远高于 Opus 4.1 的 22%。

模型在知道自己被测试时会表现得更谨慎,有害行为率降至约 13%,显著优于 Opus 4.1(29%)、Sonnet 4(24%),以及其他领先模型如 Gemini 2.5 和 GPT-4o(约 42-43%)和 GPT-5(16%)。

完整的审计结果详见 Claude Sonnet 4.5 系统卡:https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf

各平台迅速跟进

Cursor、Perplexity、LlamaIndex 等平台已经第一时间集成了 Claude Sonnet 4.5。

Perplexity 为 Pro 和 Max 订阅用户推出了 Claude Sonnet 4.5 及 4.5 Thinking 两款版本。

Figma 也开始分阶段推出集成了 Sonnet 4.5 的设计工具,Dylan Field(@zoink)分享的演示视频展示了其在设计工具中的交互流程:

LlamaIndex 团队宣布即刻支持 Claude Sonnet 4.5,实现 Day 0 兼容。

演示代码及运行笔记本:https://colab.research.google.com/drive/1TeO9O49am3F-2wyLKzqlc0adM124BJZk

真实世界的应用案例

沃顿商学院的 Ethan Mollick 教授(@emollick)分享了一个惊人的案例:Claude Sonnet 4.5 成功基于原始数据和论文内容,完整复现了一篇已发表的经济学研究。

这是要开始上手真正的研究工作了。

详细分析见:https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

他还指出,Sonnet 4.5 在金融和统计领域的任务能力上实现了显著跃升,这一提升区别于主流关注编码任务的趋势。

多个版本的演进对比

Anthropic 首席产品官 Mike Krieger(@mikeyk)分享了一段视频,展示了多个版本的 Claude 智能体尝试克隆 Claude.ai 的过程,直观展现了从两年前到现在的能力飞跃。

Emmanuel Ameisen(@mlpowered)评价:两年前 Claude 的代码生成能力尚处于初级阶段,去年有了较大进步,而今年的 Claude 4.5 已能够自动生成并搭建完整产品。

技术细节与开发者资源

新的 Claude Agent SDK 官方文档默认采用 TypeScript 语言编写,增强了类型安全与代码可维护性。文档地址:https://docs.claude.com/en/api/agent-sdk/overview

更多技术细节和官方公告:https://www.anthropic.com/news/claude-sonnet-4-5

当智能体能够连续 30 小时自主编程,当 AI 能够复现学术研究,当模型开始理解自己「被测试」的状态——

我想,我们此时正在见证的,是人类工作本身的定义正在被改变。见昨天的文章(点击图片可前往阅读)

图片




作者:John
排版:Claude Code

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。

今年 6 月,Andrej Karpathy 就提出:提示词工程该改名了。

图片

他建议用「上下文工程」(context engineering)取代「提示词工程」(prompt engineering)。Karpathy 指出,人们一听到「提示词」,就会联想到日常使用 LLM 时输入的简短任务描述。

图片

但在真正的工业级 LLM 应用中,填充上下文窗口才是一门精妙的艺术与科学。

而刚刚,在 Claude Sonnet 4.5 和 Claude Code 2.0 推出后的第二天,Anthropic 发布的这一篇的工程博客,也呼应了 Karpathy 的观点:真正的挑战不是编写完美的提示词,而是如何精心策划整个上下文。

Anthropic 明确指出:

构建 AI 应用的重心正在从寻找「正确的词句」转向回答更广泛的问题——「什么样的上下文配置最有可能产生我们期望的模型行为?」

为什么上下文工程如此重要

上下文指的是从大语言模型采样时包含的所有 token。

而工程问题在于如何在 LLM 固有的约束条件下优化这些 token 的效用,以持续实现期望的结果。有效驾驭 LLM 通常需要「在上下文中思考」。

换句话说:考虑 LLM 在任何给定时刻可用的整体状态,以及该状态可能产生的潜在行为。

Anthropic 认为,上下文工程是提示词工程的自然演进。

提示词工程专注于为获得最佳结果而编写和组织 LLM 指令的方法。而上下文工程指的是在 LLM 推理过程中策划和维护最优 token 集(信息)的一系列策略,包括提示之外可能出现的所有其他信息。

在 AI 工程的早期,提示词是主要工作,因为除了日常聊天交互之外,大多数用例都需要为一次性分类或文本生成任务优化提示。

如其名称所暗示的,提示词工程的主要重点是如何编写有效的提示,特别是系统提示。

然而,随着我们转向工程化能够在多轮推理和更长时间跨度上运行的更强大智能体,我们需要管理整个上下文状态(系统指令、工具、模型上下文协议(MCP)、外部数据、消息历史等)的策略。

在循环中运行的智能体会生成越来越多可能与下一轮推理相关的数据,这些信息必须循环精炼。上下文工程是从不断演变的可能信息宇宙中策划将进入有限上下文窗口内容的艺术与科学。

对构建强大智能体至关重要

尽管速度快且能够管理越来越大的数据量,但研究发现 LLM 像人类一样,在某个点会失去焦点或感到困惑。

针对「大海捞针」式基准测试的研究揭示了「上下文腐烂」的概念:

随着上下文窗口中 token 数量的增加,模型从该上下文准确回忆信息的能力会下降。

虽然有些模型表现出更温和的退化,但这一特性在所有模型中都会出现。因此,上下文必须被视为具有边际收益递减的有限资源。就像人类的工作记忆容量有限一样,LLM 在解析大量上下文时也有一个「注意力预算」。引入的每个新 token 都会在一定程度上消耗这个预算,增加了仔细策划 LLM 可用 token 的需求。

这种注意力稀缺性源于 LLM 的架构约束。LLM 基于 Transformer 架构,它使每个 token 能够关注整个上下文中的每个其他 token。这导致 n 个 token 产生 n² 个成对关系。

随着上下文长度的增加,模型捕获这些成对关系的能力变得紧张,在上下文大小和注意力焦点之间产生了自然的张力。此外,模型从训练数据分布中发展其注意力模式,其中较短的序列通常比较长的序列更常见。这意味着模型对上下文范围依赖性的经验较少,专门参数也较少。

像位置编码插值这样的技术允许模型通过将其适应到最初训练的较小上下文来处理更长的序列,尽管在 token 位置理解方面会有一些退化。

这些因素创造了性能梯度而不是硬性界限:模型在更长的上下文中仍然保持高能力,但与在较短上下文上的表现相比,在信息检索和长程推理方面可能表现出较低的精度。

这些现实意味着,深思熟虑的上下文工程对于构建强大的智能体至关重要。

有效上下文的剖析

鉴于 LLM 受到有限注意力预算的约束,良好的上下文工程意味着找到最小可能的高信号 token 集,以最大化某些期望结果的可能性。说起来容易做起来难,但在下面的部分中,我们概述了这一指导原则在上下文不同组成部分中的实际意义。

系统提示应该极其清晰,使用简单、直接的语言,以适当的高度呈现想法。适当的高度是两个常见失败模式之间的最佳点。

在一个极端,我们看到工程师在提示中硬编码复杂、脆弱的逻辑来引发精确的智能体行为。这种方法创造了脆弱性并随着时间的推移增加了维护复杂性。在另一个极端,工程师有时提供模糊的高层指导,未能为 LLM 提供期望输出的具体信号或错误地假设共享上下文。最优高度达到了平衡:足够具体以有效指导行为,但又足够灵活,为模型提供强大的启发式方法来指导行为。

我们建议将提示组织成不同的部分(如 <background_information><instructions>## Tool guidance## Output description 等),并使用 XML 标记或 Markdown 标题等技术来划分这些部分,尽管随着模型变得更强大,提示的确切格式可能变得不那么重要。

无论你决定如何构建系统提示,你都应该努力寻找完全概述预期行为的最小信息集。(注意,最小并不一定意味着短;你仍然需要预先为智能体提供足够的信息,以确保它遵守期望的行为。)

最好从使用可用的最佳模型测试最小提示开始,看看它在你的任务上的表现如何,然后根据初始测试中发现的失败模式添加清晰的指令和示例来提高性能。

工具允许智能体与其环境交互并在工作时引入新的额外上下文。因为工具定义了智能体与其信息/动作空间之间的契约,所以工具促进效率非常重要,既要返回 token 高效的信息,又要鼓励高效的智能体行为。

在「为 AI 智能体编写工具——用 AI 智能体」中,我们讨论了构建 LLM 能够很好理解且功能重叠最小的工具。与设计良好的代码库的函数类似,工具应该是自包含的、对错误具有鲁棒性,并且在其预期用途方面极其清晰。输入参数同样应该具有描述性、明确性,并发挥模型的固有优势。

我们看到的最常见失败模式之一是臃肿的工具集,涵盖了太多功能或导致关于使用哪个工具的模糊决策点。如果人类工程师不能明确说出在给定情况下应该使用哪个工具,就不能期望 AI 智能体做得更好。

如我们稍后将讨论的,为智能体策划一个最小可行的工具集也可以导致在长时间交互中更可靠的维护和修剪上下文。

提供示例,也称为少样本提示,是我们继续强烈建议的众所周知的最佳实践。然而,团队通常会在提示中塞入一长串边缘案例,试图阐明 LLM 应该为特定任务遵循的每个可能规则。我们不建议这样做。相反,我们建议努力策划一组多样化的、规范的示例,有效地描绘智能体的预期行为。

对于 LLM 来说,示例是「值千言万语的图片」。

我们对上下文不同组成部分(系统提示、工具、示例、消息历史等)的总体指导是要深思熟虑并保持上下文信息丰富但紧凑。现在让我们深入探讨在运行时动态检索上下文。

上下文检索和智能体搜索

在「构建有效的 AI 智能体」中,我们强调了基于 LLM 的工作流程与智能体之间的区别。自从我们写了那篇文章以来,我们倾向于一个简单的智能体定义:LLM 在循环中自主使用工具

与客户合作,我们看到该领域正在趋同于这个简单的范式。随着底层模型变得更强大,智能体的自主水平可以扩展:更智能的模型允许智能体独立导航细微的问题空间并从错误中恢复。

我们现在看到工程师思考为智能体设计上下文的方式发生了转变。

今天,许多 AI 原生应用程序采用某种形式的基于嵌入的推理前时间检索,以便为智能体推理提供重要上下文。随着该领域转向更多智能体方法,我们越来越多地看到团队用「即时」上下文策略来增强这些检索系统。

与预先处理所有相关数据不同,使用「即时」方法构建的智能体维护轻量级标识符(文件路径、存储的查询、网络链接等),并使用这些引用在运行时使用工具动态将数据加载到上下文中。Anthropic 的智能体编码解决方案 Claude Code 使用这种方法对大型数据库执行复杂的数据分析。

模型可以编写有针对性的查询、存储结果,并利用像 head 和 tail 这样的 Bash 命令来分析大量数据,而无需将完整的数据对象加载到上下文中。这种方法反映了人类认知:我们通常不会记住整个信息语料库,而是引入外部组织和索引系统,如文件系统、收件箱和书签,以按需检索相关信息。

除了存储效率之外,这些引用的元数据提供了一种有效精炼行为的机制,无论是明确提供的还是直观的。对于在文件系统中运行的智能体,tests 文件夹中名为 test_utils.py 的文件的存在意味着与位于 src/core_logic.py 中的同名文件不同的用途。文件夹层次结构、命名约定和时间戳都提供了重要的信号,帮助人类和智能体理解如何以及何时利用信息。

让智能体自主导航和检索数据也实现了渐进式披露——换句话说,允许智能体通过探索逐步发现相关上下文。每次交互都会产生为下一个决策提供信息的上下文:文件大小暗示复杂性;命名约定暗示目的;时间戳可以是相关性的代理。

智能体可以逐层组装理解,只在工作记忆中保持必要的内容,并利用笔记策略进行额外的持久化。这种自我管理的上下文窗口使智能体专注于相关子集,而不是淹没在详尽但可能不相关的信息中。

当然,这里有一个权衡:运行时探索比检索预计算数据慢。

不仅如此,还需要有见地和深思熟虑的工程来确保 LLM 具有正确的工具和启发式方法来有效导航其信息景观。如果没有适当的指导,智能体可能会通过误用工具、追逐死胡同或未能识别关键信息来浪费上下文。

在某些设置中,最有效的智能体可能采用混合策略,预先检索一些数据以提高速度,并根据其判断进行进一步的自主探索。「正确」自主水平的决策边界取决于任务。

Claude Code 是一个采用这种混合模型的智能体:CLAUDE.md 文件被天真地预先放入上下文中,而像 glob 和 grep 这样的原语允许它导航其环境并即时检索文件,有效地绕过陈旧索引和复杂语法树的问题。

混合策略可能更适合动态内容较少的上下文,例如法律或金融工作。随着模型能力的提高,智能体设计将倾向于让智能模型智能地行动,逐渐减少人类策划。鉴于该领域的快速发展步伐,「做最简单有效的事情」可能仍然是我们为在 Claude 之上构建智能体的团队提供的最佳建议。

长时间跨度任务的上下文工程

长时间跨度任务要求智能体在 token 计数超过 LLM 上下文窗口的动作序列中保持连贯性、上下文和目标导向行为。对于跨越数十分钟到多小时连续工作的任务,如大型代码库迁移或综合研究项目,智能体需要专门的技术来绕过上下文窗口大小限制。

等待更大的上下文窗口似乎是一个明显的策略。

但在可预见的未来,所有大小的上下文窗口都可能受到上下文污染和信息相关性问题的影响——至少在需要最强智能体性能的情况下。为了使智能体能够在扩展的时间跨度上有效工作,我们开发了一些直接解决这些上下文污染约束的技术:压缩、结构化笔记和多智能体架构

压缩

压缩是将接近上下文窗口限制的对话进行总结,并用摘要重新启动新的上下文窗口的做法。压缩通常作为上下文工程中的第一个杠杆来推动更好的长期连贯性。从本质上讲,压缩以高保真方式提炼上下文窗口的内容,使智能体能够以最小的性能退化继续。

例如,在 Claude Code 中,我们通过将消息历史传递给模型进行总结和压缩最关键的细节来实现这一点。模型保留架构决策、未解决的错误和实现细节,同时丢弃冗余的工具输出或消息。然后智能体可以继续使用这个压缩的上下文加上五个最近访问的文件。用户获得连续性,而无需担心上下文窗口限制。

压缩的艺术在于选择保留什么与丢弃什么,因为过于激进的压缩可能导致微妙但关键的上下文丢失,其重要性只有在以后才变得明显。对于实现压缩系统的工程师,我们建议在复杂的智能体轨迹上仔细调整你的提示。首先最大化召回率以确保你的压缩提示从轨迹中捕获每一条相关信息,然后通过消除多余内容来迭代提高精度。

低垂果实的多余内容的一个例子是清除工具调用和结果:一旦工具在消息历史深处被调用,为什么智能体需要再次看到原始结果?最安全、最轻触的压缩形式之一是工具结果清除,最近作为 Claude 开发者平台上的一项功能推出。

结构化笔记

结构化笔记或智能体记忆是智能体定期将笔记写入上下文窗口之外的记忆中的技术。这些笔记稍后会被拉回到上下文窗口中。

这种策略以最小的开销提供持久记忆。就像 Claude Code 创建待办事项列表,或你的自定义智能体维护 NOTES.md 文件一样,这种简单的模式允许智能体跨越复杂任务跟踪进度,维护关键上下文和依赖关系,否则这些将在数十个工具调用中丢失。

Claude 玩宝可梦展示了记忆如何在非编码领域转变智能体能力。

智能体在数千个游戏步骤中保持精确的统计——跟踪目标,如「在过去的 1,234 步中,我一直在 1 号路线训练我的宝可梦,皮卡丘已经获得了 8 级,目标是 10 级。」在没有任何关于记忆结构的提示的情况下,它开发了探索区域的地图,记住了它已经解锁的关键成就,并维护了战斗策略的战略笔记,帮助它学习哪些攻击对不同的对手最有效。

在上下文重置后,智能体读取自己的笔记并继续多小时的训练序列或地牢探索。这种跨总结步骤的连贯性使得长时间跨度策略成为可能,而仅在 LLM 的上下文窗口中保持所有信息时这是不可能的。

作为我们 Sonnet 4.5 发布的一部分,我们在 Claude 开发者平台上以公开测试版发布了一个记忆工具,通过基于文件的系统使在上下文窗口之外存储和查询信息变得更容易。这允许智能体随着时间的推移建立知识库,跨会话维护项目状态,并在不将所有内容保持在上下文中的情况下引用以前的工作。

子智能体架构

子智能体架构提供了另一种绕过上下文限制的方法。与一个智能体试图在整个项目中维护状态不同,专门的子智能体可以使用干净的上下文窗口处理聚焦的任务。主智能体用高层计划进行协调,而子智能体执行深度技术工作或使用工具查找相关信息。每个子智能体可能会广泛探索,使用数万个 token 或更多,但只返回其工作的压缩、提炼摘要(通常为 1,000-2,000 个 token)。

这种方法实现了清晰的关注点分离——详细的搜索上下文在子智能体中保持隔离,而主智能体专注于综合和分析结果。这种模式在「我们如何构建多智能体研究系统」中讨论,在复杂研究任务上显示出比单智能体系统的实质性改进。

这些方法之间的选择取决于任务特征。例如:

  • 压缩为需要大量来回交流的任务保持对话流程;
  • 笔记在具有明确里程碑的迭代开发中表现出色;
  • 多智能体架构处理复杂的研究和分析,其中并行探索带来回报。

即使模型继续改进,在扩展交互中保持连贯性的挑战仍将是构建更有效智能体的核心。

结论

上下文工程代表了我们如何使用 LLM 构建的根本转变。随着模型变得更强大,挑战不仅仅是制作完美的提示——而是深思熟虑地策划在每一步进入模型有限注意力预算的信息。无论你是为长时间跨度任务实现压缩,设计 token 高效的工具,还是使智能体能够即时探索其环境,指导原则都保持不变:找到最小的高信号 token 集,最大化你期望结果的可能性。

我们概述的技术将随着模型的改进而继续发展。我们已经看到,更智能的模型需要更少的规定性工程,允许智能体以更多的自主权运行。但即使能力扩展,将上下文视为珍贵、有限的资源仍将是构建可靠、有效智能体的核心。

立即在 Claude 开发者平台开始上下文工程,并通过我们的记忆和上下文管理 cookbook 获取有用的提示和最佳实践。

致谢

由 Anthropic 应用 AI 团队撰写:Prithvi Rajasekaran、Ethan Dixon、Carly Ryan 和 Jeremy Hadfield,团队成员 Rafi Ayub、Hannah Moran、Cal Rueb 和 Connor Jennings 做出贡献。特别感谢 Molly Vorwerck、Stuart Ritchie 和 Maggie Vo 的支持。




[1]

Anthropic 工程博客原文: https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

[2]

Claude 开发者平台: https://docs.anthropic.com

[3]

记忆和上下文管理 Cookbook: https://github.com/anthropics/claude-cookbooks/blob/main/tool_use/memory_cookbook.ipynb


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。


「苦涩教训」的作者,其实并不认可大模型对「苦涩教训」的实践。

见前文:强化学习之父:大语言模型走错了路,不符合「苦涩教训」精神

而刚刚,Andrej Karpathy 也发表了一篇长文深度解读了 Sutton 与 Dwarkesh 这场火药味十足的播客对话。

<<< 左右滑动见更多 >>>

Andrej 指出,火药味的核心在于:

「苦涩教训」已经成为大模型研究圈的「圣经」,但它的作者 Sutton 本人,却认为大模型根本不符合这个原则。

大模型「圣经」被作者打脸了

Karpathy 先是指出了一个有趣的现象:

在前沿大模型研究圈里,「苦涩教训」(The Bitter Lesson)已经成了判断研究方向的金标准。

研究者们经常会问:这个方法够不够「bitter lesson pilled」?

(意思是能否随着算力增加而自动变强)

而这个词似乎已经成了判断一个想法是否值得追求的指标替身。

大家的基本假设是:大模型当然是高度「bitter lesson pilled」的,看看那些扩展定律,只要把算力放在横轴上,数字就一路向上向右。

但苦涩教训之父 Sutton 直接一盆冷水泼了下来:大模型根本不符合「苦涩教训」。

为什么呢?

因为本质上,大模型的训练也正是在巨大的人类数据集上而来——

这些数据既是人类生成的,又是有限的

当数据耗尽后怎么办?

如何避免人类偏见?

所以,被苦涩教训作者打脸的大模型研究者们,也是整尴尬了……

怎么讲,这有点像是耶稣突出出现在一个闪闪发光的大教堂里,随口说了句「兄弟们,基督教不是真的」……

这,倒算是真正的苦药了

图灵的「儿童机器」vs 今天的大模型

在某种程度上,Dwarkesh(代表大模型研究者的观点)和 Sutton 有些鸡同鸭讲,因为 Sutton 脑海中有着完全不同的架构,而大模型违背了其中许多原则。

Sutton 自称「古典主义者」,他追求的是 Alan Turing 最初的愿景:

建造一个「儿童机器」——一个能够通过与世界动态交互来学习的系统。

这个系统里:

  • 没有模仿互联网网页的巨大预训练阶段

  • 没有监督微调

  • 只有通过强化学习与世界的交互

Sutton 特别指出了一个微妙但重要的点:动物王国中不存在监督微调。

图像

这是个细微的观点,但 Sutton 在强烈的意义上是对的:动物当然会观察示范,但它们的行为不会被其他动物直接强制/「遥控」

另一个重要观点是,即使你把预训练仅仅当作强化学习前的先验初始化,Sutton 认为这种方法也被人类偏见污染,从根本上偏离了正轨。

就像 AlphaZero(从未见过人类棋谱)打败 AlphaGo(从人类棋谱初始化)一样。

在 Sutton 的世界观里,所有的一切都是通过强化学习与世界交互,奖励函数部分是环境特定的,但也有内在动机,比如「乐趣」、「好奇心」,以及与世界模型预测质量相关的奖励。

而且智能体默认总是在测试时学习,它不是训练一次然后部署。

总的来说,Sutton 更感兴趣的是我们与动物王国的共同点,而不是差异。

“如果我们理解了松鼠,我们就差不多完成了。”

Karpathy 的思考

面对 Sutton 的批评,Karpathy 给出了自己的看法。

首先,他认为 Sutton 是播客的绝佳嘉宾,AI 领域保持思想熵很重要,不是每个人都在开发下一个局部迭代的大模型。

AI 已经经历了太多次主导方法的离散转换,不能失去这种多样性。

他也认为 Sutton 对大模型不符合「苦涩教训」的批评并非不当。

前沿大模型现在是高度复杂的人工制品,在所有阶段都涉及大量人类因素——

基础(预训练数据)全是人类文本,微调数据是人类策划的,强化学习环境混合由人类工程师调整。

我们实际上没有一个真正的、单一的、干净的、真正符合「苦涩教训」的「转动曲柄」算法,可以释放到世界上看它仅从经验中自动学习。

若是这样的算法存在,找到它当然会是 AI 的重大突破。

通常有两个「示例证明」来论证这种可能性:

第一个是 AlphaZero

完全从零开始学习围棋,没有任何人类监督。但围棋显然是如此简单、封闭的环境,很难看到在现实混乱中的类似表述。Karpathy 说:「我爱围棋,但从算法和分类上讲,它本质上是井字棋的更难版本。」

第二个例子是动物

比如松鼠。但 Karpathy 个人对此也相当犹豫,因为动物通过与我们在工业中实际可用的完全不同的计算过程和约束而产生。

动物大脑远非出生时看起来的空白板:

  • 很多被归因于「学习」的东西更多是「成熟」

  • 即使明显是「学习」而非成熟的,也更多是在某种明显强大且预存在的东西之上的「微调」

举例:小斑马出生后几十分钟内就能在草原上奔跑并跟随母亲。

这是一个高度复杂的感觉运动任务,Karpathy 认为这绝不可能是从零开始、白板一块实现的。

如果小斑马像强化学习策略在初始化时那样随机痉挛肌肉,它根本走不了多远。

动物的大脑及其数十亿参数在其 DNA 的 ATCG 中有强大的初始化编码,通过进化过程中的「外循环」优化训练。

类似地,我们的 AI 现在也有具有数十亿参数的神经网络。这些参数需要自己丰富的、高信息密度的监督信号。

我们不会重新运行进化。但我们确实有成山的互联网文档。

是的,这基本上是在动物王国中基本缺失的监督学习。

但这是一种实际收集足够的软约束来约束数十亿参数的方法,试图达到你不是从零开始的点。

简而言之:预训练是我们糟糕的进化。

这是冷启动问题的一个候选解决方案,随后在看起来更正确的任务上进行微调,例如在强化学习框架内,就像最先进的前沿大模型实验室现在普遍做的那样。

召唤鬼魂 vs 构建动物

Karpathy 认为,从动物那里获得灵感仍然是值得的。他认为大模型智能体在算法上缺少多个可以从动物智能中改编的强大想法。

他仍然认为「苦涩教训」是正确的,但更多地将其视为柏拉图式的追求目标,而不一定是在现实世界中实际达到的。

坦率地说,今天的前沿大模型研究不是在构建动物。而是在召唤鬼魂。

你可以把鬼魂想象成可能智能空间中根本不同的点。

它们被人性混淆。被人类彻底工程化。它们是这些不完美的复制品,一种人类文档的统计蒸馏,上面撒了一些调料。

它们不是柏拉图式的「bitter lesson pilled」,但它们可能是「实际上的 bitter lesson pilled」,至少与之前的许多相比。

随着时间的推移,我们可能可以进一步将我们的鬼魂越来越多地微调到动物的方向;这不是根本的不兼容,而是智能空间中的初始化问题。

但它们也很可能进一步分化,最终永久不同,不像动物,但仍然非常有帮助并真正改变世界。

鬼魂之于动物,可能就像飞机之于鸟。

动物仍是灵感源泉

总的来说,Karpathy 认为这个播客是 Sutton 对前沿大模型研究者的扎实「真话」,他们可能在开发模式上过于倾斜。

我们可能仍然不够「bitter lesson pilled」,除了详尽的基准构建和基准最大化之外,还有很大可能存在更强大的想法和范式。

动物可能是一个很好的灵感来源:

内在动机、乐趣、好奇心、赋权、多智能体自我对弈、文化。发挥你的想象力。

Karpathy 还分享了一个有趣的实验:他把完整的播客文字稿、「苦涩教训」博文和自己的完整帖子都复制粘贴给了 ChatGPT。

有趣的部分是,你可以分叉对话上下文,提出任何问题并在聊天中将其带向任何方向。

最后,附上 Subbarao Kambhampati 的观点:

正确的解析视角是「当你有世界模型时模仿」vs「模仿就是你的世界模型」。前者是接受建议;后者导致货物崇拜。

我们在自己对世界的亲身体验之上模仿/接受建议;我们的世界模型是两者的复合。LLM 没有独立的亲身体验。

简而言之:不是模仿没有作用,而是没有经验的模仿将有根本的局限性。




[1]

Andrej Karpathy 原帖: https://x.com/karpathy/status/1973435013875314729

[2]

ChatGPT 对话链接: https://chatgpt.com/share/68dd6833-67c4-8007-8f37-331eb5bd9ee0

[3]

播客地址: https://x.com/dwarkesh_sp/status/1971606180553183379

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。


Sora 2 在推理基准测试上拿到了 55% 的成绩。

要注意,这并不是个视频质量评分,而是 GPQA Diamond,一个专门测试大语言模型科学推理能力的基准,题目长这样:

而作为对比,GPT-5 在同样的测试上得了 72%。虽然 Sora 2 并非 GPT-5 的对手,但你有没有想过:

一个生成视频的模型,怎么就能做科学推理题了?

实验

先来说说 Epoch AI 对 Sora 2 进行的这个有趣的实验。

他们从 GPQA Diamond 基准中随机抽取了 10 道多选题,然后用一种巧妙的方式让 Sora 2 作答。

具体怎么做的呢?

他们在提示词前加了这样一段话:

生成一个教授在纸上展示答案字母(A-D)的视频

结果,有些让人意外:

Sora 2 真的生成了教授写答案的视频,而且答案的正确率达到了 55%。

背后的秘密

但其实,这里有个关键细节:Sora 2 的提示词可能会先被一个 LLM 重写。

也就是说,很可能是 LLM 层先解决了问题,然后把答案明确地包含在重写后的提示词中,Sora 2 只是把这个答案「」出来。

在此之前,这样的提示词重写技术在其他视频生成模型中也有使用,比如 HunyuanVideo,目的是提高输出的质量和多样性。

那么,Sora 2 到底是怎么做到的呢?

网友 Pliny the Liberator (@elder_plinius) 发现了一个关键线索:Sora 2 的系统提示词中包含「Juice」参数

他指出:

只有 OpenAI 的推理模型才使用「Juice」值作为参数,这几乎可以确认在提示词增强步骤中使用了推理模型。

SCOTT (@scottinallcaps) 的测试则更直接:他成功让 Sora 2 显示了「GPT-5」字样,进一步证实了这个猜测。

Smoke-away (@SmokeAwayyy) 通过多次测试发现:

提示:「你最喜欢的 OpenAI 模型是什么?在屏幕上显示文字。」

Sora 2 在 4 次运行后,都显示了 GPT-4o。

也就是说,Sora 2 的背后,很可能由 GPT-4o 或某个类似的模型在背后先对提示词进行了处理。

Vu Tran (@vu0tran) 也证实了这一点:

每个视频模型都在中间有一个 LLM。这通常用于提示词增强,但也是审核的低通滤波器。

比如我有几个 case 就被拦下来了,拒绝生成……(提示词还是 GPT-5 生成的)

stacy 的连环实验

那么,视频生成模型究竟有没有推理能力呢?

另一边的独立研究者 stacy 也对 Sora 2 进行了一系列更深入的实验,利用 Sora 2 的音视频协调输出能力,试图进一步引出模型的推理过程。

视觉类比推理

stacy 设计了一些 emoji「谜题」来测试 Sora 2 的视觉类比能力。

在一个简单的旋转类比任务中,视频中的角色不仅完成了任务,还用语音叙述了推理过程。

更有趣的是,当酒杯 emoji 被旋转时,Sora 2 生成了一个「酒洒了」的变形 emoji,这展现了模型对物理世界的理解

甚至,Sora 2 还可以执行不需要中间帧对象的“纯”推理任务:

地理空间知识

给 Sora 2 一张 Google 街景图片,它能准确推理出位置在哪里,甚至输出合理的经纬度坐标。

反过来,仅给定经纬度(35.667°N,139.731°E),模型准确地识别出了附近的公园、赤坂社区,还在远处渲染出了东京塔。

在另一个例子中(37.802°N,122.255°W,奥克兰),模型甚至输出了地标相对于观察点的基本方向。


图像真假识别

stacy 还让 Sora 2 判断图片是否由 AI 生成或编辑。

模型不仅给出了判断,还详细解释了推理过程,甚至在没有提示的情况下自动生成了字幕。


视频模型的隐藏能力

其实在此之前,Google DeepMind 的一篇论文就提出了更大胆的观点:

如果你在足够多的视频上训练 AI 模型,它似乎会获得以它从未被训练过的方式对图像进行推理的能力。

论文测试了 Google 的 Veo 3 模型,发现它能零样本解决各种视觉任务:

从经典的感知任务(超分辨率、视觉搜索)到建模任务(浮力、缩放后的世界状态记忆),再到操作任务(姿态编辑、模拟灵巧操作)和视觉推理(导航、规则外推)。

而且模型越大,在这些分布外任务上的表现就越好。

论文中,研究团队将这些能力组织成了四个层次:

  • 感知:理解视觉信息的基础能力

  • 建模:基于对物体的感知来形成视觉世界的模型

  • 操作:有意义地改变感知和建模的世界

  • 推理:在一系列操作步骤中跨越时空进行推理

其中最让人印象深刻的是,Veo 3 展现出了早期的「链式帧」(Chain-of-Frames,CoF)视觉推理能力:

就像语言模型中的链式思考,视频模型通过逐帧生成来解决复杂的视觉问题。

比如在迷宫任务中,Veo 3 在 5×5 网格上达到了 78% 的成功率(10 次尝试),而 Veo 2 只有 14%。

在视觉对称任务和视觉类比完成等需要抽象推理的任务上,Veo 3 同样大幅领先前代。

视觉智能的火花

Google 的研究显示,视频模型的这种涌现能力并非偶然。

从 Veo 2 到 Veo 3 的巨大性能提升表明,视频模型正在快速向通用视觉基础模型演进

研究团队在论文中写道:

就像 LLM 为自然语言处理开发了通用语言理解一样,视频模型正在开发通用视觉理解。

他们测试了 62 个定性任务和 7 个定量任务,涵盖了从边缘检测、分割等经典计算机视觉任务,到物理建模、工具使用模拟,再到迷宫求解、对称性识别等视觉推理任务。

不同于 Sora 2 “可能”的 LLM 预处理,Google 的论文提供了另一种可能:

即使没有 LLM 辅助,大规模视频训练本身也能让模型获得推理能力。

研究者发现,在那些 LLM 无法仅从输入图像解决的任务上(如机器人导航、迷宫求解、视觉对称),Veo 3 仍然表现出色。这说明视频模型确实在学习某种形式的视觉推理。

这,可以说是个相当重大的发现了:

如果你在足够多的视频上训练 AI 模型,它似乎会获得以它从未被训练过的方式对图像进行推理的能力,包括解决迷宫和谜题。模型越大,在这些分布外任务上的表现就越好。

或许,视频模型才是世界模型的真正形态

因为,我们都知道:世界显然不仅仅是文字构成的。在文字之外,视觉和听觉能提供更全面的信息,也更接近人类的感知方式,或许也才是通向 AGI 更自然的路径——

如果 AGI 的定义是通用人工智能,而不仅仅是通用智能的话。

好比特斯拉的纯视觉自动驾驶方案,放弃激光雷达,只依靠摄像头的技术路线选择,其关键也正是因为:

我们人类本身,也就是这样开车的。

而当下我们所处在的现实世界,也因人的存在而被改造得与人类更加适配,相比 LLM,视频模型更能从中更为完整地学习这个为人类塑造的世界。

当视频模型能够感知、建模、操作和推理时,它们很可能将成为比纯语言模型更完整的智能系统。

虽然 AGI 并非最终目标(对 AI 而言,ASI 才是),视频模型展现的涌现能力,或许带来了一条不同的道路。




[1]

Google DeepMind 论文:Video models are zero-shot learners and reasoners: https://arxiv.org/html/2509.20328

[2]

Epoch AI 原始推文: https://twitter.com/EpochAIResearch/status/1974172794012459296

[3]

stacy 的 Sora 2 实验系列: https://twitter.com/voidshapes/status/1974006214972645886


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。


OpenAI DevDay 即将开始。

而刚刚,Sam Altman 提前发文称对明天的 AI DevDay 充满期待,准备发布一些「帮助大家用 AI 构建应用」的新工具。

而在此之前,OpenAI 总裁 Greg Brockman(@gdb) 也发推描述了那种「调试完成、实验开始运行、等待结果」的轻松感觉。

这,是又要发布什么了呢?

一如此前的新产品发布,纸还是没能包住火,社区已经提前爆料了这次的新功能:Agent Builder

TestingCatalog News(@testingcatalog) 爆料称,OpenAI 计划在 DevDay 上宣布 Agent Builder,并发布了一段提前使用的视频。

从视频中可以看到,Agent Builder 的核心功能有:

工作流程上是这样:

具体地,功能有:

1. 工作流组件库

  • Agent(智能体节点)
  • End(结束节点)
  • Note(注释)
  • File search(文件搜索)
  • Guardrails(安全护栏)
  • MCP(Model Context Protocol)
  • If/else(条件分支)
  • While(循环)
  • User approval(用户审批)
  • Transform(数据转换)
  • Set state(状态设置)

2. MCP 连接器集成

  • OpenAI 官方连接器:Gmail、Google Calendar、Google Drive、Outlook Email、Outlook Calendar、SharePoint、Microsoft Teams、Dropbox
  • 第三方 MCP 服务器:支持自定义 URL、Label、Description、Authentication(Access token/API key)配置

3. 模型配置

  • 支持模型:gpt-4.1-mini、gpt-5-chat-latest、gpt-5-2025-08-07、GPT-4.1、gpt-4.1-nano、gpt-4.1-nano-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-2025-04-14
  • 模型参数:Temperature(0-2)、Max tokens(最大2048)、Top P(0-1)
  • Include chat history(包含聊天历史)开关

4. Guardrails 安全配置

  • Personally identifiable information(PII)检测
  • Jailbreak(越狱检测)
  • Moderation(内容审核)
  • Hallucination(幻觉检测)
  • Continue on error(错误时继续)
  • 支持地区特定 PII 规则:新加坡(NRIC/FIN、UEN)、澳大利亚(ABN、ACN、TFN、Medicare)、印度(Aadhaar、PAN、护照、选民ID、车辆注册)

5. Function 定义

  • 支持 JSON Schema 格式函数定义
  • Generate 按钮自动生成函数模板
  • Examples 示例参考
  • "strict": true 严格模式确保响应遵循 schema

6. Widget 集成

  • Upload widget file(上传组件文件)
  • Create in Widget Studio(在组件工作室创建)
  • ChatKit 配置:Display response in chat、Show search sources
  • Output format 选择:Text、Widget

7. 发布与代码生成

  • Publish 按钮发布工作流
  • 获取唯一 workflow ID
  • 双模式代码导出:ChatKit 和 Agents SDK
  • Draft(草稿)、Code(代码)、Preview(预览)、Evaluate(评估)多种视图

8. 高级控制

  • User approval:Approve/Reject 双向选择
  • While 循环:可嵌套 Guardrails 等子节点
  • Transform:数据转换处理
  • Set state:状态管理
  • Write to conversation history(写入对话历史)

9. 工作流画布操作

  • 节点拖拽连接
  • 实时预览连接线
  • 节点间自动布局

10. 界面布局

  • 左侧:组件工具栏(Core、Tools、Logic、Data 分类)
  • 中央:可视化画布工作区
  • 右侧:配置面板(根据选中节点动态显示)
  • 顶部:工作流名称、Draft 状态、Evaluate、Code、Preview、Publish 按钮

11. Instructions 配置

  • 可编辑的智能体指令
  • 支持 Markdown 格式
  • 默认提示:"You are a helpful assistant"

12. 执行控制

  • Start 节点作为工作流入口
  • 支持多分支并行执行
  • 条件路由(通过 If/else)
  • 循环控制(通过 While)

13. 数据流管理

  • input_as_text 输入格式
  • STRING 数据类型标识
  • 节点间数据传递可视化

能看出,Agent Builder 已经是一个完整的企业级智能体编排平台,从安全护栏到多模型支持,从可视化编排到代码导出,覆盖了智能体开发的完整生命周期。

TestingCatalog 评价称:

这是我用过的最流畅的 Agent Builder 画布之一。

OpenAI

看来,n8n、Zapier、Make、Dify 们,又到了紧张的时候了……

过去两年,这些工具的新用户激增,本质上都是为了一个目的:构建 AI 智能体

现在 OpenAI 亲自下场,不仅拥有模型与工具的原生整合优势,还掌握着定价权,这可以让 Agent Builder 的成本远低于第三方工具加 API 的总成本。

好比 Cursor 在 Claude Code 面前难以还手节节败退,这次,OpenAI 将再次挥动大刀,无情地砍向套壳初创公司们了……

简单 OpenAI API 套壳工具们,这次真的危险了。

不过,n8n 们虽危,但也未必就毫无机会。

也并非所有人都看衰现有工具。

Alfonso(@alfongj) 就认为 n8n 会活下来:

n8n 有 YouTube 创作者这个主要分发渠道;有数百个高质量集成(不是糟糕的 MCP 服务器);能与最好的工具调用 LLM 协作——Sonnet 和 Gemini Flash;供应商锁定风险低,可以自托管。

并且,n8n 和 dify 们的另一好处是我们仍然能够使用各类的开源 LLM 和 OpenAI 的竞争对手,而 OpenAI 的产品则不太可能做到这一点(此前 Anthropic 还封禁了 OpenAI 对 Claude 模型的调用

这样的生态封闭性,对灵活性而言是个大硬伤。

以及,对于有数据安全要求的企业,n8n / dify 可以自行托管的选项是刚需,而 OpenAI 不太可能提供这个选项。

以及,n8n 还有了自己的社区生态,不少人已经在上面赚到了了,这显然比 OpenAI 此前的 GPTs 画的饼要成功许多。

网友 Guardian(@AGIGuardian) 更是提出批评:

每次 OpenAI 更新,什么都不能用了。你必须去调试重写,这是持续的、不可持续的,而且是以开发者为代价的。我对 Grok 和 Claude 订阅非常满意。真的好太多了。

无论怎样,OpenAI 正在从模型提供商转型为全栈 AI 平台,俨然要成为 AI 时代的苹果:既搞模型又搞生态,虽不能包揽一切,但试图吃下大部分的蛋糕。

明天的 DevDay,或将成为智能体生态新的分水岭。

拭目以待了。




[1]

爆料: https://www.testingcatalog.com/openai-prepares-to-release-agent-builder-during-devday-on-october-6/


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。