Anthropic 研究员：在 AGI 来临前的最后时刻该做什么?

Anthropic 研究员 Jascha Sohl-Dickstein 最近分享了一个关于 AGI 来临的演讲。

他说，我们可能正处于人类作为地球主要智慧生物的最后几年。

演讲标题致敬了诺贝尔奖得主 Ramón y Cajal 的经典著作。

但 Sohl-Dickstein 讨论的不是传统的学术建议，而是在 AGI 即将到来的背景下，年轻研究者该如何规划自己的未来。

人类纪元的终点？

地质纪元以生命形式、气候和地质过程的显著变化为标志。

人类正在产生地质级别的影响：我们正在引发地球历史上的第六次大规模灭绝，核武器试验的放射性同位素正被记录在岩层中。

有人提议将当前这个人类驱动全球变化的时期命名为「人类世」（Anthropocene）。

但 Sohl-Dickstein 指出，这可能是一个极其短暂的地质纪元，因为人类作为地球主要智慧驱动力的时期可能即将结束。

AI 的指数级增长

从计算量来看，AI 模型训练所使用的计算资源正在爆炸性增长。图表的 Y 轴每个刻度都是前一个的 100 倍。

右上角圈出的是人脑一生中执行的计算量估算范围。

按照每个突触每毫秒执行一次浮点运算计算，人脑一生约执行 1 万亿 petaflops 的计算，这只比当前最大的模型多一点点。

我们正在接近人类大脑一生的计算规模。

AI 能力的快速突破

METR 的研究显示，AI 模型能够独立完成的软件任务时长正在指数级增长。如果趋势继续，模型将在 2027 年能够以 50% 的成功率独立完成一整天的工作。

超人类表现的达成速度越来越快。

1998 年发布的基准测试直到 2015 年才被 AI 超越，而 2019 年发布的推理基准在 2023 年就被突破了。

GPQA Diamond 是由 STEM 领域博士们精心设计的测试，经过五轮创建、审查和筛选。AI 仅用一年半就从接近随机猜测水平提升到了超人类表现。

关于「模型是否在训练集中见过测试题」的质疑，Scale 的研究人员创建了全新的数学问题进行测试。结果显示，Anthropic 和 OpenAI 等前沿实验室的模型在新问题上表现与原始基准相当，Claude 甚至在新问题上表现更好。

今年，Google 和 OpenAI 的模型都在国际数学奥林匹克竞赛（IMO）上取得了金牌水平的成绩。

全世界只有 72 名学生获得金牌，而两个 LLM 也做到了。

竞赛组织者评价：

AI 的解答在很多方面都令人惊叹。IMO 评分者发现它们清晰、精确，而且大多数都很容易理解。

AGI 已经进入主流视野

Sohl-Dickstein 在哈佛演讲后收到一封邮件：「多么疯狂的摘要……」

他认为这反映了一个重要问题：AGI 是否已经进入了「奥弗顿窗口」，即社会可接受讨论的观点范围。

现在，许多知名人士和机构都在严肃讨论 AGI。主流媒体也开始认真对待这个话题。

如果这些人都认真对待 AGI，你也有理由认真对待它。

专家们的时间预测

对主要 AI 会议贡献者的调查显示：

2022 年，中位数预测 AGI 将在 2060 年左右实现
2023 年，中位数提前到 2045 年
如果今天再做调查，Sohl-Dickstein 预计中位数会在 2030 年代

在旧金山的 AI 圈子里，认为 AGI 需要十年才能实现的人已经被认为是「长时间线」派了。

Sohl-Dickstein 分享了个人体验：现在的 Claude 感觉像是一个有时会犯愚蠢错误的研究生，但拥有百科全书般的知识，而且极其热情和快速。

这个描述一年前还不成立，一年后也不会再成立——模型会变得更好。

给年轻研究者的具体建议

确保你的项目在完成时仍然相关。

避免这种情况：你努力工作两年取得重大进展，但完成时别人只需要提示一下基础模型就能做得更好。

这意味着要与他人合作，快速推进目标明确的项目，保持在指数增长曲线之前。

不鼓励缓慢的开放式探索。

Richard Sutton 的「苦涩的教训」告诉我们：

利用计算的通用方法最终是最有效的。你要做那些随着计算和智能规模扩大而变得更有效的项目，而不是那些会被规模自动解决的项目。

强迫自己使用 AI 工具。

它们提供了全新的能力，虽然可能笨拙且不符合人体工程学，学习曲线陡峭，但你应该使用它们，既因为它们已经有用，也为下一代工具做准备。

使用 LLM 就像做 PI（首席研究员），两种活动都是很好的相互练习，需要明确定义的问题和适当范围的任务。

在大脑的所有部分都认真对待 AGI。

Sohl-Dickstein 遇到一个研究生，他说 AGI 会在 3 年内到来，几分钟后又在讨论传统的职业规划……

如果 AI 将造成大规模颠覆并能够做你的工作，那么存在一个高基准的不可避免风险。

这意味着在更安全的研究或职业选择与更高潜在回报的选择之间，更安全的选择实际上并不安全，你只是在牺牲上升空间。

选择有意义的工作

做一些让你自豪的事情！

当你退休在戴森球的别墅里时，你会希望感到自己帮助实现了积极的结果。

选择那些回顾时会产生影响的项目。这意味着你应该优先选择那些改变 AGI 后轨迹的项目，而不是在近期产生短暂变化的项目。

你拥有巨大的影响力。

尽管 AI 能力惊人，我们仍处于指数增长的早期。Epoch AI 预测到 2030 年，计算资源可能是现在的 10,000 倍。

因为我们处于指数增长的早期，而且你几乎肯定拥有高度相关的技能，你对 AI 的未来拥有巨大的权力和影响力。

这既是权力也是责任。你现在做出的决定可能会对你关心的大量人群产生巨大的间接后果。对你选择的项目和工作要有意识和深思熟虑。

值得关注的研究方向

Sohl-Dickstein 列出了一些特别有前景的研究领域：

AI for Science：材料发现、蛋白质折叠、天气建模、聚变反应堆等离子体监测等
对 AI 模型的科学研究：把 AI 模型本身作为研究对象，使用其他领域的技术
AI 安全研究：这是你可以从头开始参与的极其重要的领域
AI 能力的预测和推断：我们越了解未来可能的样子，结果可能越好
访问、公平、公正：如果我们希望这项技术造福所有人，这是极其有用的
政策和治理：政府迫切需要有能力的技术人员提供建议。这是极高杠杆的工作

认真对待未来！

你的工作内容、工作地点、职业转换时机、如何思考重要和有趣的问题、如何思考工作的潜在后果和影响力——所有这些都极其重要。

未来几年也是全力以赴的好时机，可能是最后的时机。

你的工作的潜在影响不太可能再比现在更大了。

项目评估标准

演讲还包含了额外的幻灯片，提供了评估研究项目的具体标准：

影响力：如果项目完美运行，潜在效益有多大？评估时要投射到你的价值轴上，而不是仅仅测量其范数。

苦涩的教训：你的研究是否对计算和智能规模的增长具有鲁棒性？

机会成本：这个项目需要多少时间和精力？如果项目失败，这些努力是否会浪费？

比较优势：为什么你特别适合这个项目？

冗余性：有多少人正在以大致相同的方式解决同一问题？如果每个人都同意你在研究一个非常重要的问题，那么你不应该研究它——别人会做的。

选择更奇怪的项目！

无论你在做什么项目，都应该选择一个更奇怪的。你将根据你完成的最好的事情被评判，而不是典型的事情。

理想的项目是你能清楚地解释为什么它是个好主意，但当你向别人解释时，他们会用奇怪的眼光看着你，难以理解。这是未来项目成功的最强信号！

关于是否应该做学术研究，Sohl-Dickstein 分享了自己的选择：

他基本上停止了学术研究。虽然怀念能够公开讨论工作的日子，但在工业界有更多的计算资源、资金和接触前沿问题的机会，可以说对未来有更大的影响力。

在平行宇宙中，我正在经营一个小型学术实验室，并且热爱它。在许多方面，那对我来说是更有吸引力的人生道路。但我相信我们正在构建一项将彻底改变世界的技术，我不能袖手旁观。

这张图来自同事的另一个演讲，展示了汽车出现后马匹数量的变化。

最后，Sohl-Dickstein 给出了一个积极的结尾，癌症死亡率正在指数级下降！

虽然需要按富裕国家筛选有些遗憾，但如果我们继续让癌症治疗变得更容易，世界其他地区也会赶上来。

再次理解指数增长

与 Sohl-Dickstein 的演讲相呼应，Anthropic 的另一位研究员 Julian Schrittwieser 最近也发表了一篇题为《再次未能理解指数增长》的文章。

他将当前关于 AI 进展和所谓「泡沫」的讨论比作 YI 情初期的情况。

当时尽管从指数趋势来看全球 YI 情的时间和规模已经很明显，但政 ZHI 家、记者和大多数公众评论员仍然把它当作遥远的可能性或局部现象。

AI 能力的进展也在发生类似的事情。

人们注意到虽然 AI 现在能编写程序、设计网站等，但仍经常出错或走错方向，然后他们就跳到结论说 AI 永远无法达到人类水平，或只会产生微小影响。

而就在几年前，让 AI 做这些事还是完全的科幻！

METR 的研究显示了一个清晰的指数趋势，Sonnet 3.7 能以 50% 的成功率完成长达一小时的任务。

最新的更新图表显示，Grok 4、Opus 4.1 和 GPT-5 等最新模型不仅验证了预测，实际上还略高于趋势线，现在能执行超过 2 小时的任务！

OpenAI 的 GDPval 研究测量了模型在 9 个行业 44 个职业中的表现，见：OpenAI 发布GDPval，可真实评估现实世界经济价值。Claude Opus 4.1 拿下第一

评估任务来自经验丰富的行业专业人士（平均 14 年经验），每个职业 30 个任务，共 1320 个任务。

最新的 GPT-5 已经惊人地接近人类表现。

Claude Opus 4.1（比 GPT-5 更早发布）表现明显更好：超过了之前图表的趋势，几乎已经匹配了行业专家的表现!

基于多年来跨多个行业的指数级性能改进的一致趋势，Schrittwieser 预测：

到 2026 年中期，模型将能够自主工作整个工作日（8 小时）
在 2026 年底之前，至少有一个模型将在许多行业中匹配人类专家的表现
到 2027 年底，模型将经常在许多任务上超越专家

质疑

当然，并非所有人都认同这种乐观预测。

Georgist(@Georgist) 表示：

老子作为程序员在这里。来拿走我的工作吧。在那之前，请闭嘴。谢谢。PS：享受你的骗局。

Robert Piosik(@robertpiosik) 则指出：

LLM 不能推理，因此无法可靠地做出明智的决定（特别是那些在训练数据集中较少强调的）。人类活动的环境是嘈杂的，但你从噪音训练中得到的只是幻觉。

makevoid(@makevoid) 认为编码领域的进展正在减速：

这是一个很好的视角，但我不同意编码方面的观点，我们在 Sonnet 3.5 时通过了最大的进步点，现在正在减速。GPT-3、3.5 和 Sonnet 3.5 都是编码的革命点，但在 Sonnet 3.5 之后，我们在模型方面没有得到任何重大突破。

rdzeń(@rdzen) 分析了投资回报率：

这种「进展」是建立在花费数千亿美元而没有合理投资回报率的基础上的。指数级支出换来线性进展。这不是泡沫吗？

Claudiu(@Claudiu) 对 50% 的成功率表示担忧：

那个 50% 正是问题的一部分。当成功率和抛硬币一样时，很难看到进展。

Travers(@Travers) 区分了技术能力泡沫和金融泡沫：

这是一篇写得很好的文章，我认为它基于 AI 当前的能力指数。然而，「我们不在泡沫中」的核心主张似乎混淆了技术能力泡沫和金融泡沫。即使有指数级的模型进展，经济现实可能会背离。

最后，Meta 研究员 Lucas Beyer 则用一张梗图幽默地总结了当前的处境：

看来随着年龄增长，我慢慢必须在这些预定义的路径中选择一个：

成为 Gary（Gary Marcus，AI 怀疑派）
成为 Jürgen（Jürgen Schmidhuber，AI 乐观派）
成为 Eliezer（Eliezer Yudkowsky，AI 末日论者）

那么，你选择哪一个呢？

参考资料：

[1]

Jascha Sohl-Dickstein 演讲幻灯片: https://docs.google.com/presentation/d/1qVFDW8qT4CC4E_2TSVevrDbZ_Z9Utu_I1z0-ISLwZts/edit?usp=sharing

[2]

Julian Schrittwieser 文章: https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

[3]

Lucas Beyer 推文: https://x.com/giffmana/status/1972212017198256146

作者：John
排版：Claude Code

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）

欢迎加入！

也欢迎加群和7000+群友交流。