Anthropic 研究员:在 AGI 来临前的最后时刻该做什么?
Anthropic 研究员 Jascha Sohl-Dickstein 最近分享了一个关于 AGI 来临的演讲。
他说,我们可能正处于人类作为地球主要智慧生物的最后几年。
演讲标题致敬了诺贝尔奖得主 Ramón y Cajal 的经典著作。
但 Sohl-Dickstein 讨论的不是传统的学术建议,而是在 AGI 即将到来的背景下,年轻研究者该如何规划自己的未来。
人类纪元的终点?
地质纪元以生命形式、气候和地质过程的显著变化为标志。
人类正在产生地质级别的影响:我们正在引发地球历史上的第六次大规模灭绝,核武器试验的放射性同位素正被记录在岩层中。
有人提议将当前这个人类驱动全球变化的时期命名为「人类世」(Anthropocene)。
但 Sohl-Dickstein 指出,这可能是一个极其短暂的地质纪元,因为人类作为地球主要智慧驱动力的时期可能即将结束。
AI 的指数级增长
从计算量来看,AI 模型训练所使用的计算资源正在爆炸性增长。图表的 Y 轴每个刻度都是前一个的 100 倍。
右上角圈出的是人脑一生中执行的计算量估算范围。
按照每个突触每毫秒执行一次浮点运算计算,人脑一生约执行 1 万亿 petaflops 的计算,这只比当前最大的模型多一点点。
我们正在接近人类大脑一生的计算规模。
AI 能力的快速突破
METR 的研究显示,AI 模型能够独立完成的软件任务时长正在指数级增长。如果趋势继续,模型将在 2027 年能够以 50% 的成功率独立完成一整天的工作。
超人类表现的达成速度越来越快。
1998 年发布的基准测试直到 2015 年才被 AI 超越,而 2019 年发布的推理基准在 2023 年就被突破了。
GPQA Diamond 是由 STEM 领域博士们精心设计的测试,经过五轮创建、审查和筛选。AI 仅用一年半就从接近随机猜测水平提升到了超人类表现。
关于「模型是否在训练集中见过测试题」的质疑,Scale 的研究人员创建了全新的数学问题进行测试。结果显示,Anthropic 和 OpenAI 等前沿实验室的模型在新问题上表现与原始基准相当,Claude 甚至在新问题上表现更好。
今年,Google 和 OpenAI 的模型都在国际数学奥林匹克竞赛(IMO)上取得了金牌水平的成绩。
全世界只有 72 名学生获得金牌,而两个 LLM 也做到了。
竞赛组织者评价:
AI 的解答在很多方面都令人惊叹。IMO 评分者发现它们清晰、精确,而且大多数都很容易理解。
AGI 已经进入主流视野
Sohl-Dickstein 在哈佛演讲后收到一封邮件:「多么疯狂的摘要……」
他认为这反映了一个重要问题:AGI 是否已经进入了「奥弗顿窗口」,即社会可接受讨论的观点范围。
现在,许多知名人士和机构都在严肃讨论 AGI。主流媒体也开始认真对待这个话题。
如果这些人都认真对待 AGI,你也有理由认真对待它。
专家们的时间预测
对主要 AI 会议贡献者的调查显示:
2022 年,中位数预测 AGI 将在 2060 年左右实现
2023 年,中位数提前到 2045 年
如果今天再做调查,Sohl-Dickstein 预计中位数会在 2030 年代
在旧金山的 AI 圈子里,认为 AGI 需要十年才能实现的人已经被认为是「长时间线」派了。
Sohl-Dickstein 分享了个人体验:现在的 Claude 感觉像是一个有时会犯愚蠢错误的研究生,但拥有百科全书般的知识,而且极其热情和快速。
这个描述一年前还不成立,一年后也不会再成立——模型会变得更好。
给年轻研究者的具体建议
确保你的项目在完成时仍然相关。
避免这种情况:你努力工作两年取得重大进展,但完成时别人只需要提示一下基础模型就能做得更好。
这意味着要与他人合作,快速推进目标明确的项目,保持在指数增长曲线之前。
不鼓励缓慢的开放式探索。
Richard Sutton 的「苦涩的教训」告诉我们:
利用计算的通用方法最终是最有效的。你要做那些随着计算和智能规模扩大而变得更有效的项目,而不是那些会被规模自动解决的项目。
强迫自己使用 AI 工具。
它们提供了全新的能力,虽然可能笨拙且不符合人体工程学,学习曲线陡峭,但你应该使用它们,既因为它们已经有用,也为下一代工具做准备。
使用 LLM 就像做 PI(首席研究员),两种活动都是很好的相互练习,需要明确定义的问题和适当范围的任务。
在大脑的所有部分都认真对待 AGI。
Sohl-Dickstein 遇到一个研究生,他说 AGI 会在 3 年内到来,几分钟后又在讨论传统的职业规划……
如果 AI 将造成大规模颠覆并能够做你的工作,那么存在一个高基准的不可避免风险。
这意味着在更安全的研究或职业选择与更高潜在回报的选择之间,更安全的选择实际上并不安全,你只是在牺牲上升空间。
选择有意义的工作
做一些让你自豪的事情!
当你退休在戴森球的别墅里时,你会希望感到自己帮助实现了积极的结果。
选择那些回顾时会产生影响的项目。这意味着你应该优先选择那些改变 AGI 后轨迹的项目,而不是在近期产生短暂变化的项目。
你拥有巨大的影响力。
尽管 AI 能力惊人,我们仍处于指数增长的早期。Epoch AI 预测到 2030 年,计算资源可能是现在的 10,000 倍。
因为我们处于指数增长的早期,而且你几乎肯定拥有高度相关的技能,你对 AI 的未来拥有巨大的权力和影响力。
这既是权力也是责任。你现在做出的决定可能会对你关心的大量人群产生巨大的间接后果。对你选择的项目和工作要有意识和深思熟虑。
值得关注的研究方向
Sohl-Dickstein 列出了一些特别有前景的研究领域:
AI for Science:材料发现、蛋白质折叠、天气建模、聚变反应堆等离子体监测等
对 AI 模型的科学研究:把 AI 模型本身作为研究对象,使用其他领域的技术
AI 安全研究:这是你可以从头开始参与的极其重要的领域
AI 能力的预测和推断:我们越了解未来可能的样子,结果可能越好
访问、公平、公正:如果我们希望这项技术造福所有人,这是极其有用的
政策和治理:政府迫切需要有能力的技术人员提供建议。这是极高杠杆的工作
认真对待未来!
你的工作内容、工作地点、职业转换时机、如何思考重要和有趣的问题、如何思考工作的潜在后果和影响力——所有这些都极其重要。
未来几年也是全力以赴的好时机,可能是最后的时机。
你的工作的潜在影响不太可能再比现在更大了。
项目评估标准
演讲还包含了额外的幻灯片,提供了评估研究项目的具体标准:
影响力:如果项目完美运行,潜在效益有多大?评估时要投射到你的价值轴上,而不是仅仅测量其范数。
苦涩的教训:你的研究是否对计算和智能规模的增长具有鲁棒性?
机会成本:这个项目需要多少时间和精力?如果项目失败,这些努力是否会浪费?
比较优势:为什么你特别适合这个项目?
冗余性:有多少人正在以大致相同的方式解决同一问题?如果每个人都同意你在研究一个非常重要的问题,那么你不应该研究它——别人会做的。
选择更奇怪的项目!
无论你在做什么项目,都应该选择一个更奇怪的。你将根据你完成的最好的事情被评判,而不是典型的事情。
理想的项目是你能清楚地解释为什么它是个好主意,但当你向别人解释时,他们会用奇怪的眼光看着你,难以理解。这是未来项目成功的最强信号!
关于是否应该做学术研究,Sohl-Dickstein 分享了自己的选择:
他基本上停止了学术研究。虽然怀念能够公开讨论工作的日子,但在工业界有更多的计算资源、资金和接触前沿问题的机会,可以说对未来有更大的影响力。
在平行宇宙中,我正在经营一个小型学术实验室,并且热爱它。在许多方面,那对我来说是更有吸引力的人生道路。但我相信我们正在构建一项将彻底改变世界的技术,我不能袖手旁观。
这张图来自同事的另一个演讲,展示了汽车出现后马匹数量的变化。
最后,Sohl-Dickstein 给出了一个积极的结尾,癌症死亡率正在指数级下降!
虽然需要按富裕国家筛选有些遗憾,但如果我们继续让癌症治疗变得更容易,世界其他地区也会赶上来。
再次理解指数增长
与 Sohl-Dickstein 的演讲相呼应,Anthropic 的另一位研究员 Julian Schrittwieser 最近也发表了一篇题为《再次未能理解指数增长》的文章。
他将当前关于 AI 进展和所谓「泡沫」的讨论比作 YI 情初期的情况。
当时尽管从指数趋势来看全球 YI 情的时间和规模已经很明显,但政 ZHI 家、记者和大多数公众评论员仍然把它当作遥远的可能性或局部现象。
AI 能力的进展也在发生类似的事情。
人们注意到虽然 AI 现在能编写程序、设计网站等,但仍经常出错或走错方向,然后他们就跳到结论说 AI 永远无法达到人类水平,或只会产生微小影响。
而就在几年前,让 AI 做这些事还是完全的科幻!
OpenAI 的 GDPval 研究测量了模型在 9 个行业 44 个职业中的表现,见:OpenAI 发布GDPval,可真实评估现实世界经济价值。Claude Opus 4.1 拿下第一
评估任务来自经验丰富的行业专业人士(平均 14 年经验),每个职业 30 个任务,共 1320 个任务。
最新的 GPT-5 已经惊人地接近人类表现。
Claude Opus 4.1(比 GPT-5 更早发布)表现明显更好:超过了之前图表的趋势,几乎已经匹配了行业专家的表现!
基于多年来跨多个行业的指数级性能改进的一致趋势,Schrittwieser 预测:
到 2026 年中期,模型将能够自主工作整个工作日(8 小时)
在 2026 年底之前,至少有一个模型将在许多行业中匹配人类专家的表现
到 2027 年底,模型将经常在许多任务上超越专家
质疑
当然,并非所有人都认同这种乐观预测。
Georgist(@Georgist) 表示:
老子作为程序员在这里。来拿走我的工作吧。在那之前,请闭嘴。谢谢。PS:享受你的骗局。
Robert Piosik(@robertpiosik) 则指出:
LLM 不能推理,因此无法可靠地做出明智的决定(特别是那些在训练数据集中较少强调的)。人类活动的环境是嘈杂的,但你从噪音训练中得到的只是幻觉。
makevoid(@makevoid) 认为编码领域的进展正在减速:
这是一个很好的视角,但我不同意编码方面的观点,我们在 Sonnet 3.5 时通过了最大的进步点,现在正在减速。GPT-3、3.5 和 Sonnet 3.5 都是编码的革命点,但在 Sonnet 3.5 之后,我们在模型方面没有得到任何重大突破。
rdzeń(@rdzen) 分析了投资回报率:
这种「进展」是建立在花费数千亿美元而没有合理投资回报率的基础上的。指数级支出换来线性进展。这不是泡沫吗?
Claudiu(@Claudiu) 对 50% 的成功率表示担忧:
那个 50% 正是问题的一部分。当成功率和抛硬币一样时,很难看到进展。
Travers(@Travers) 区分了技术能力泡沫和金融泡沫:
这是一篇写得很好的文章,我认为它基于 AI 当前的能力指数。然而,「我们不在泡沫中」的核心主张似乎混淆了技术能力泡沫和金融泡沫。即使有指数级的模型进展,经济现实可能会背离。
最后,Meta 研究员 Lucas Beyer 则用一张梗图幽默地总结了当前的处境:
看来随着年龄增长,我慢慢必须在这些预定义的路径中选择一个:
成为 Gary(Gary Marcus,AI 怀疑派)
成为 Jürgen(Jürgen Schmidhuber,AI 乐观派)
成为 Eliezer(Eliezer Yudkowsky,AI 末日论者)
那么,你选择哪一个呢?
参考资料:
Jascha Sohl-Dickstein 演讲幻灯片: https://docs.google.com/presentation/d/1qVFDW8qT4CC4E_2TSVevrDbZ_Z9Utu_I1z0-ISLwZts/edit?usp=sharing
[2]Julian Schrittwieser 文章: https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/
[3]Lucas Beyer 推文: https://x.com/giffmana/status/1972212017198256146
作者:John
排版:Claude Code
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和7000+群友交流。