admin 发布的文章


昨天晚上道爷被夫人批评了,说你写个破文章,前摇那么长,以为你要出大招,结果全是骂人的屁话。


有事儿说事,别说废话。挺好,今天不说废话,就说黄金。


主要原因是最近一点时间黄金跌的比较多,道爷夫人也比较关注,虽然道爷和她讲过好几回,但毕竟都是要花真钱买的啊!


所以今天道爷就把之前在2026,苟字当道这篇文章里提到的观点再掰开了揉碎了讲一讲,今年的黄金到底会怎样走?核心就是给大家讲清楚,今年黄金还能不能买?是不是已经涨到头了?


先重复下道爷的观点:

今年仍然要涨,且涨幅不会小。


必须承认,从情绪上看,黄金已经贵得离谱,但从宏观逻辑上看,它确确实实找不到任何明确的利空。


那黄金为什么这几年一直在涨?2026 年还剩下什么逻辑?它大概能走到哪一步?


且听道爷慢慢灌水慢慢吹逼。


首先,黄金已经不再仅是避险资产,它将重回全球通行货币的核心锚点。


为什么这么说?因为如果只考虑财经走势的话,我们其实很难得到什么关乎黄金的有用消息,全世界各地通胀有高有低,美联储利率有加有减,世界的经济有好有坏,和以往并无太大不同。


但黄金就TMD像装了弹簧,每一次回调都被迅速买回去。


而我们放宽视野,就能发现全球开始慢慢脱钩美元体系,但又找不到替代品。注意,不是抛弃美元,而是——不把所有鸡蛋都放在一个篮子里。


冻结外汇资产这件事,已经被很多国家写进了风险模型。尤其是这几年地缘竞争加剧的情况下,美元依然是最强货币,但不再是天然的安全资产。


那怎么办?欧元不够稳,人民币还没完全国际化,加密资产波动太大。


最后绕一圈,发现只有一个东西满足三个条件:不属于任何国家、历史够久、流动性够强。


这就是黄金。


所以我们会看到一个很反直觉的现象:央行在疯狂买黄金,但从不高调宣传。


这就是资产负债表的自我保护。


那为什么除了中俄,其他国家也要主动脱钩美元体系?


非常可怕的结论:地缘政治不再是偶发的黑天鹅,而是常态变量。


过去,战争是突发事件;现在,冲突更像是一个长期背景。俄乌战争不是短期冲突,中东问题也不再局限于地区摩擦,台海问题局势趋向不明如活火山悬而未决,欧洲、安全、能源,全都绑在一起……


重点不在于会不会打,而在于:全世界的资金都已经默认世界进入一个长期不稳定区间。


而黄金最擅长定价的,就是这种不确定性溢价。


再加上现在全球各国的超强度负债,利率不可能永远压着。


理论上来说,只要利率不降,黄金就没戏。但现实是利率的天花板,已经被债务顶住了:无论中美欧,政府负债、企业负债、居民资产负债表就没有干净的。


这意味着什么?意味着未来十年,货币政策大概率是:宽松 → 紧一点 → 再宽松,而不是回到过去那种长期高利率。


只要想清楚了这件事情,黄金的中长期逻辑就成立了:当下黄金不是炒作尾声,而是正在由全世界央行一起进行宏观结构性重定价的阶段。


简单归纳:不是各大央行突然更喜欢黄金了,而是没办法在一个不稳定的世界环境里信任原来的那套定价锚。


首先讲完了,然后呢?2026 年,黄金价格具体会怎么样?


不绕弯子,说区间。


基准判断:2026 年黄金大概率处在一个 高位震荡 + 缓慢抬升 的状态,不会每天暴涨,但也很难深跌。


更现实的区间判断是:中枢:偏上移;回调:买盘会很坚决;上涨:靠事件推动,而不是情绪疯涨。


用大家能理解的话来说:2026 年的黄金,更像一只“慢牛”,而不是妖股。


真正可能让黄金走出大行情的,可能是以下几类事件:


地缘冲突升级,且牵涉大国。不是普通的边缘摩擦,而是体系风险。


美国政治出现明显失序。比如财政僵局、选举争议、政策急转弯。


金融股市系统暴露原来没被计价的风险。比如某个以为很稳的地方,突然不稳了。


这些事件不会天天发生,但一旦发生,黄金不会给你慢慢上车的机会。


列一下道爷觉得可能的价格区间:


时间段

预期价格区(每盎司)

驱动因素

短期(1-3个月)

$4,100–

$4,450

技术面震荡+风险因素波动

中期(到11月选举前)

$4,400–

$5,000+

政治不确定+避险需求

长期(年底收官)

$4,800–

$5,500+

地缘紧张+央行购金支撑

换算成人民币,2026年黄金价格基本能保证10%的增幅,大概率能冲击20%的增幅。


也就是说,涨到1100元/克属于正常,高点有望冲击1200-1300元。


不过从投资角度考虑,达到1200左右的时候应当回撤了。


毕竟黄金不是用来赚快钱的,而是用来对冲你看不懂的未来。如果你指望它翻倍,那一定会失望;但如果你希望在世界出问题时,资产不至于一起塌,那它几乎不可替代。


2026 年,黄金更像是一个:不刺激、不性感、但很难被证伪的选择。


既然道爷说1200-1300元的时候应当考虑回撤,那是不是说黄金会见顶?


不是的,是因为世界变化太快,我们能尽力去思考一年的展望,已经是属于赌博性质了,就像没有任何人能想到马总这么轻易就被川建国从家里给逮走了一样让人目瞪口呆。


之所以举这个例子,是因为黄金的价格见不见顶,取决于另外一个问题:


这个世界,有没有重新变得确定?


如果答案是否定的,

那黄金的故事,就远没讲完。



往期文章:

2026,苟字当道

不发钱的内需这条路该怎么走

普通人如何定投标普500和纳指100


关于作者:

方巨侠,前太平洋、阿里巴巴、群核科技产品总监。这里是懂事帝,一个市井小民的社会观察和思考,欢迎点击下方关注。


刚刚,Anthropic 宣布完成了130亿美元的F轮融资,投后估值达到1830亿美元。

这轮融资由ICONIQ Capital领投,Fidelity Management & Research Company和Lightspeed Venture Partners共同领投。

参与这轮融资的投资方阵容极为豪华:

Altimeter、Baillie Gifford、BlackRock旗下基金、Blackstone、Coatue、D1 Capital Partners、General Atlantic、General Catalyst、GIC、高盛另类投资部门的成长股权基金、Insight Partners、Jane Street、安大略教师退休金计划、卡塔尔投资局、TPG、T. Rowe Price Associates、T. Rowe Price Investment Management、WCM Investment Management以及XN。

增长速度惊人

Anthropic的增长速度创造了科技行业的新纪录。

2025年初,公司的年化收入刚刚达到10亿美元。仅仅八个月后的8月,这个数字就突破了50亿美元。

这使得Anthropic成为历史上增长最快的科技公司之一。

要知道,Claude是在2023年3月才正式发布的。不到两年时间,就实现了如此惊人的增长。

客户规模急剧扩张

目前Anthropic已经服务超过30万家企业客户

更值得关注的是,那些年化收入超过10万美元的大客户数量,在过去一年里增长了近7倍

从财富500强企业到AI原生初创公司,都在依赖Anthropic的前沿模型和平台产品来完成他们最重要、最关键的任务。

Claude Code成新增长引擎

今年5月全面推出的Claude Code已经成为开发者的首选工具。

仅仅三个月时间,Claude Code的使用量就增长了10倍以上,目前已经产生超过5亿美元的年化收入。

这个数字极为惊人——

一个工具在三个月内就达到了许多独角兽公司需要数年才能达到的收入规模。

全平台产品线齐头并进

Anthropic的增长覆盖了整个平台:

对于企业客户,他们提供API和行业特定产品,让企业能够轻松地将强大的AI能力集成到关键应用中,无需复杂的集成工作。

对于开发者,Claude Code已经成为他们的得力助手。

而对于个人用户,Claude Pro提供了增强的AI能力,满足日常任务和专业项目的需求。

投资方信心超强

ICONIQ合伙人Divesh Makan表示:

Anthropic正处于非凡的发展轨道上,将研究卓越性、技术领导力和对客户的不懈关注完美结合。企业领导者告诉我们他们的亲身体验——Claude可靠、建立在值得信赖的基础上,并由真正关注长远发展的领导者指导。

这笔F轮投资将用于扩大产能以满足不断增长的企业需求,深化安全研究,并支持国际扩张,继续构建可靠、可解释和可控的AI系统。

Anthropic首席财务官Krishna Rao表示,这笔融资展示了投资者对公司财务表现的极大信心,以及他们与Anthropic合作继续推动前所未有增长的决心。

8个月时间,从10亿到50亿美元ARR!

Anthropic 正在重新定义硅谷速度。




[1]

Anthropic 公告: https://www.anthropic.com/news/anthropic-raises-series-f-at-usd183b-post-money-valuation


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

你敢信,Ilya Sutskever 竟然为了一个秃头鼠标“破防”了!

这位 SSI 创始人、前 OpenAI 首席科学家,今年只发过一条推文的男人,突然冒出来评论了一句:

如果我见过的话,这是一个革命性的突破

而他评论的,竟然是一个印着秃头造型的鼠标和帽子。

事情的起因是这样的:

Alps͏(@alpaysh) 发了一组恶搞 Ilya 周边产品的图片,图中有一个印着秃顶发际线的 SSI 鼠标,还有一顶同款帽子。

不得不说,这个设计实在是太过分了,直接把 Ilya 标志性的发际线做成了产品外观。

Alps 本人对这个设计倒是情有独钟:

我其实真心喜欢这顶帽子,现实中我也会戴。对我来说,它象征着如此专注,以至于对其他任何事情都不在乎

这种「锁死」精神确实很 Ilya——

毕竟这是一个可以为了 AI 安全离开 OpenAI、创立 SSI 的男人。

A bald man with a receding hairline. A bald eagle with white feathers on its head and a yellow beak. Text overlays reading "give the eagle hairline".

看到这,网友们的反应炸了锅。

有人直接表示要投资这个「爆款」产品,有人说这顶帽子「出奇地酷」。

A person wearing a light beige T-shirt and dark gray pants, standing barefoot. A pink cap covers the face, obscuring it completely. The outfit aligns with Ilya merch as referenced in the post text.

Turner Novak 更是直接喊话:

把拼多多链接发出来

更有网友开始了二创狂欢。

有人把 Ilya 的头像和老鹰拼在一起,称之为「eagle sutskever👑🦅」,这个梗源于网友说要「给老鹰也配上这个发际线」。

MEME_GOD(@Meme_God_069) 激动地表示:「兄弟赢得了史上最大的 shitpost」。

M4rc0z(@dreamworks2050) 更是连发数张恶搞图,把 Ilya 的形象玩出了花:「我现在是船长了」,甚至还有变身摇滚吉他手的照片

甚至有人翻出了「Ilya 在 CERN 看到了什么」的梗图,还有「Ilya 在那里,3000 年前」的史诗级恶搞。


Sahil(@sahilypatel) 激动地截图记录:

先生 Ilya 刚刚发了一条推文

Eli Gooding(@Eli_Gooding) 指出这是「他今年的第二条推文。太棒了」。

当然也有人在关心正事。

CHOI(@arrakis_ai) 问道:

我们很想听听 SSI 的成就。感受到 AGI 还是 ASI 了?

这场由一个恶搞周边引发的狂欢,也是让平时神秘低调的 Ilya 忍不住破功了啊。

这个每年只发一两条推文、专注于打造安全超级智能的技术大神,这次,竟然会为了一个秃头鼠标现身。

himanshu(@himanshustwts) 抓住机会总结道:

Ilya Sutskever shitposting 时代

看来,在追求 AGI 的路上,也不能少了调侃彼此发际线的幽默啊!




[1]

Ilya 推文: https://x.com/ilyasut/status/1963627458244350015


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

Claude 快把自己玩死了!

昨天,美国头部大模型公司 Anthropic 宣布停止向多数股权由中国资本持有的集团出售服务,范围涵盖中国大陆及通过海外注册或云服务间接使用的企业。

不得不说,这简直是极其不要脸

而其对中国背景公司下此死手的原因,也许是创始人早前在百度打工时经受了什么难言之隐吧……

我也不想骂了,有兴趣的可以翻翻我先前的文章:

版权盗窃案

邪教Anthropic

亏我还一直订阅了你 200$/月的 Claude Max 套餐……

先前确实好用,但最近一套封禁中国公司 API + 傻逼式模型降智的花式作死组合拳,我是真有点看不明白了……

是融到钱后飘了?

你降智,我自然不能等着你潘然醒悟然后智商恢复啊。

你都这样了,我要还陪你玩那就是我傻逼了……

而对中国模型公司则是,你都作死了我要不弄你,那也就是我太礼貌了!

这不,就来了个趁火打劫选手:智谱。

智谱直接推出了个Claude API 用户搬家计划”:

倒也不能怪智谱不厚道,往人伤口撒盐,而是说你作死送来的肉我干嘛不吃呢?

不吃我不和你一样成傻逼了吗……

智谱搬家计划

智谱推出的「Claude API 用户特别搬家计划」,条件如下:

1. 新用户直接送 2000 万 Tokens 免费体验

2. 开发者专属的 GLM-4.5 编码 20 元包月套餐:价格仅为 Claude 的 1/7,用量提升 3 倍,速度平均 55 Tokens/s。

不够用还有 100 元顶配版供你选。

3. 企业客户:满足业务需求的并发规模、更低成本的折扣优惠、1 对 1 的搬家顾问服务。(我不是企业,我不太关心这个,自己去看吧)

这看下来,智谱这下手也是不轻,Claude 哪傻你就打哪了……

而且,迁移过程也是简单到令人发指,降智了的傻逼模型都能会:

一键搬家指南

智谱也是主动已经全面兼容 Claude 协议,整个迁移过程就三步:

第一步:访问 bigmodel.cn,申请 api_key。

第二步:替换你的 base_url 为 https://open.bigmodel.cn/api/anthropic

第三步:开始使用。

除了没有降智痕迹外,和正常用 Claude Code 没有任何区别

API 调用的代码改动就这么点:

# 原来的 Claude 代码
import anthropic
client = anthropic.Anthropic(
    base_url="your-base-url",
    api_key="your-api-key",
)

# 迁移到智谱AI,只需要修改三个地方
client = anthropic.Anthropic(
    api_key="your-zhipuai-api-key",  # 替换为智谱AI API Key
    base_url="https://open.bigmodel.cn/api/anthropic"# 配置智谱AI base_url
)

# 模型编码使用智谱AI模型,其他代码保持不变
message = client.messages.create(
    model="glm-4.5",  # 使用智谱AI模型
    max_tokens=1024,
    messages=[{"role""user""content""Hello!"}]
)

用 Claude Code 则更是简单:

export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export ANTHROPIC_AUTH_TOKEN=<YOUR_API_KEY>
claude

见:https://docs.bigmodel.cn/cn/guide/develop/claude

搞定,收工!

实测感受

榜单成绩上无限接近 Claude Sonnet 4(降智前的),就仅作参考吧。还是实测更重要:

Image

先说结论。

实际使用下来,在我这里暂时的模型能力排序大概是这样的:

降智前 Claude (我都全程 Opus) > Codex > GLM-4.5 > 降智后 Claude > ...

来个真实的案例。

此前降智版的 Claude 给我整了个傻叉的 CORS 跨域问题:

  • 我在 xxx.com 域名里请求 API 时会用 api.xxx.com 域名

  • 结果就是,在每次发送 API 请求前,浏览器都会先发个 OPTIONS 预检请求,再发送实际请求

  • 以及,这个 OPTIONS 请求居然巨慢无比,是真实的 API 请求的2-3 倍的响应速度……

结果就是,页面一直在那 loading ……

(忽略图中的响应速度,网络问题)

始作俑者 Claude 一直在坚持给我各种加缓存、甚至要给我改 nginx 配置:

以及,擅自给我改成同域 API 请求……

我明明就是要单独的域名啊哥!

(vibe coder 们可能又要问:同域咋了?问 AI 吧

总之,就是没解决问题,甚至我给它说了去掉自定义请求头后,它还是没给我搞定……

而 GLM-4.5 的表现,则确实生猛得让我有点意外……

我 /clear 后直接上 GLM-4.5,它直接前后端一起一顿咔咔改,去掉了自定义的请求头调整。

最后,一把过了!

(看评测,我建议还是别看那些搞前端 landing page 做玩具的……)

这里,我想是时候得搬出曹大的傻逼定律了:

第一定律,从来没觉得自己傻逼过的,往往是不可救药的大傻逼。

第二定律,觉得别人都是傻逼的,往往自己才是最傻逼的一个。

第三定律,收割傻逼的会被傻逼们封神,试图唤醒傻逼的是傻逼眼中的傻逼。

第四定律,热衷于证明傻逼是傻逼的,自己也是傻逼。

第五定律,永远不要认为事实会教育傻逼,因为他们对事实的解读方式和你不一样。

/傻逼定律 by caoz

而放到模型身上,模型版的傻逼定律大概就是:

第一定律:不承认自己降智的模型,往往是不可救药的大傻逼。

第二定律:号称已经修复试图让别人和自己以为自己不再傻逼的傻逼模型,是更大的傻逼。

第三定律:跟着降智模型死磕还试图让它别降智的傻逼模型使用者,自己也是傻逼。

第四定律:坚持花 200 刀订阅使用傻逼模型的人,会变成傻逼模型眼中的傻逼。

第五定律:不要傻呵呵期待傻逼的模型很快能恢复智商不再傻逼,因为傻逼的运营逻辑和正常公司不一样。

/模型傻逼定律 by John @AGI Hunt

也因此可知,解铃还需系铃人这话,在模型身上并不成立。

实践中则是:当你发现 A 模型不行(磕了三五次还不行),就赶快换 B 试试,再不行 C 上。

或许,应该再加个傻逼第六定律:

试图连续相信傻逼模型超过三次的人,自己也是个傻逼。

弄完这模型傻逼定律,我也赶紧取消了 Claude 订阅:

你傻逼可以,我可不能跟着你傻逼

这降智的傻逼模型我还 200$/月供着,就是我傻逼了。

One More Thing

一定不要用中转站!

他们的号都快封光了,你在用的大概其实很有可能……

黑心的给你的可能只是个 Qwen 3 0.6B

良心点的还好,能给你用个 GLM-4.5……

但我难以理解的是,你直接用 Claude Code + GLM-4.5 不行吗?

一个月 20 块,太便宜了觉得它不够香吗?

那也有 100 元档的,你可以随意造去。

链接(也可直接点阅读原文):

https://zhipuaishengchan.datasink.sensorsdata.cn/t/2w

我话都说到这里了,你要还执迷于中转,那别怪我,是时候放出模型的傻逼第七定律了:

花大价钱给傻逼换了个非傻逼模型内核就以为傻逼不再傻逼的人,是手握镰刀割韭菜人眼里的傻逼。




关于 Claude Code 降智后的搬家使用,欢迎进《Claude Codex》群交流,任何相关问题都有热心群友第一时间解答(禁广告,中转谢绝入内)~
图片
由于群满(超200人)了不能直接进,请先进中转群(见评论区)后加我,备注"CC" 即可,我稍后会拉你进群。


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

美团外卖悄悄推出了 AI 模型API 平台。

刚刚,继上周推出LongCat大模型之后,美团直接把API平台给放出来了。

而且,他们不仅兼容OpenAI的API格式,还支持Anthropic的接口协议。从这架势看来,美团的野心显然不是只想内部用用那么简单。

每天10万免费tokens

美团这次出手“相当”大方,每个开发者每天可以免费使用10万tokens(按1元/百万tokens来算,对应每天一毛钱,一个月满打满算我们能薅它个3块钱,省下来的钱够咱在蜜雪冰城点上一杯美团外卖了)。

网友adapt(@happiness1rich)看到这个数字后直接惊呼:

每天10w?这么豪

相比其他平台动辄几美元起步的收费模式,美团这个(面向小白鼠的)免费额度也算是相当慷慨了(这里我们就不和OpenAI,Gemini 去比了)。

并且需要注意的是,这些额度每天凌晨自动刷新,前一天没用完的会清零,不会累积到第二天。

目前平台处于公测阶段,暂时还不支持付费购买额度

也就是说,如果你的项目需要更多tokens,可能还得等等。我找了一圈,也没有找到API 的token 价格说明。

双接口兼容设计

LongCat API 的一大的亮点是同时兼容OpenAI和Anthropic两种主流API格式

也就是说,开发者几乎不需要修改现有代码,只需要更换一下base URL就能直接接入自己项目中使用。

OpenAI格式接入

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APP_KEY",
    base_url="https://api.longcat.chat/openai"
)

response = client.chat.completions.create(
    model="LongCat-Flash-Chat",
    messages=[
        {"role""user""content""Hello!"}
    ],
    max_tokens=1000
)

Anthropic格式接入

from anthropic import Anthropic

client = Anthropic(
    api_key="Authorization: Bearer YOUR_APP_KEY",
    base_url="https://api.longcat.chat/anthropic/",
    default_headers={
        "Content-Type""application/json",
        "Authorization""Bearer YOUR_APP_KEY",
    }
)

response = client.messages.create(
    model="LongCat-Flash-Chat",
    max_tokens=1000,
    messages=[
        {"role""user""content""Hello!"}
    ]
)

当然,如果你更喜欢直接调用API,也可以使用cURL:

# OpenAI格式
curl -X POST https://api.longcat.chat/openai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_APP_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "LongCat-Flash-Chat",
    "messages": [{"role": "user", "content": "Hello!"}],
    "max_tokens": 1000
  }'


# Anthropic格式  
curl -X POST https://api.longcat.chat/anthropic/v1/messages \
  -H "Authorization: Bearer YOUR_APP_KEY" \
  -H "Content-Type: application/json" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "LongCat-Flash-Chat",
    "max_tokens": 1000,
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

模型能力与限制

目前平台仅支持LongCat-Flash-Chat这一个模型,定位是「高性能通用对话模型」。

单次请求的输出上限是8K tokens,对于大部分应用场景来说应该够用了。

不过也有用户反馈速度问题。

Vu Tran(@anhvu92)测试后表示:

I got 9 tokens/sec. Is it supposed to be this slow?(我只得到9 tokens每秒的速度。这是正常的吗?)

9 tokens/每秒的速度是有点慢,希望美团后续能优化一下性能。

Tiezhen WANG(@Xianbao_QIAN)也调侃道:

At LongCat speed, 100 k tokens vanish in a blink.(按LongCat的速度,10万tokens一眨眼就没了。)

每天100,000 的免费token 额度,看起来多,但消耗起来其实也挺快。

不信你上 Claude Code 试试,一句“你好你谁”可能就干光了……

全球化还需努力

虽然平台已经上线,但在国际化方面还有不少细节需要完善。

Niemontal(@niemontal)反馈了一个语言问题:

Can you tweak it, so that it answers in English, if the prompt is asked in English? In most cases it just preffers answering in Chinese, and if you are aiming for international audience with this...(你能调整一下吗?如果提示词是英文的,就用英文回答?大多数情况下它更倾向于用中文回答,如果你们想要面向国际用户的话……)

即使输入的是英文,模型似乎还是倾向于用中文回答。

这对国际用户来说,确实不太友好。

Justin(@JustinGorya)则遇到了注册问题:

cant register. Email is not getting send(无法注册。邮件发送不出去)

邮件发送失败,连注册都进行不下去。

Enes Gogalic(@themandalorenzo)也遇到了类似的问题:

I am receiving a Chinese QR code on your link(我在你的链接上收到了一个中文二维码)

这……

让老外们用美团APP 来扫码,是有点太为难人了……

还有开发者希望能支持OpenRouter。

f1shy-dev(@vishyfishy2)提出:

can we get @OpenRouterAI support?(我们能得到@OpenRouterAI的支持吗?)

Francisco Cordoba(@fcordobaot)也表示支持这个建议。

如果能接入OpenRouter,确实会让外国友人们使用这家中国外卖公司的AI 模型要更便利许多。

外卖公司的野心

Tony Lee(@jeongmin1604)称:

wow... delivery app to AI company... lmao.
AM I WATCHING REAL WORLD NOW???
(哇……外卖应用变成AI公司了……笑死了。
我现在看到的是真实世界吗???)

从送外卖到搞AI,美团的跨度似乎不小。

图片

但仔细想想,美团手里有海量的本地生活数据,有强大的技术团队,也一直在做AI 的研究和积累,名字还自带两AI,转型做AI倒也不算太意外。

而有趣的是Eric Guo(@ecguo)的担心:

用美团账号绑定这个平台后,会被杀熟吗?毕竟大家都知道搞AI 比较有钱。。

这个担心……好像也不是完全没道理?

使用流程

注册成功后,系统会自动创建一个名为「default」的API Key。

整个流程倒是挺简单:

  1. 访问LongCat API开放平台

  2. 注册账户

  3. 登录后进入API Keys页面查看密钥

  4. 在请求头中使用:Authorization: Bearer YOUR_API_KEY

同一个API Key可以同时用于OpenAI和Anthropic两种接口格式,这点设计还是挺贴心的。

美团这次推出LongCat API平台,多少还是暴露出了其在AI 领域的野心:

不会只甘于做个送外卖用的AI,而是要将自己的AI 能力,像骑手一样送到全世界的每个角落中去。




[1]

LongCat API平台: https://longcat.chat/platform

[2]

API文档: https://longcat.chat/platform/docs/zh/

[3]

常见问题: https://longcat.chat/platform/docs/zh/FAQ.html


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

刚刚,Anthropic 宣布支持加州参议员 Scott Wiener 提出的 SB 53 法案!

继上周封禁中国公司 API 访问后,这家 AI 公司表示,该法案为监管前沿 AI 公司构建的强大 AI 系统提供了坚实基础,通过透明度而非技术微观管理来实现监管。

为什么支持?

Anthropic 认为,虽然前沿 AI 安全最好在联邦层面解决,而不是各州法规的拼凑,但强大的 AI 进步不会等待华盛顿达成共识

问题在于:我们是今天深思熟虑地发展 AI 治理,还是明天被动应对?

SB 53 提供了前者的可靠路径。

SB 53 有什么要求?

该法案要求开发最强大 AI 系统的大型公司必须:

制定并发布安全框架

描述如何管理、评估和缓解灾难性风险,这些风险可能导致大规模伤亡事件或重大经济损失。

发布公开透明度报告

在部署强大新模型之前,总结其灾难性风险评估和采取的步骤。

报告关键安全事件

在 15 天内向州政府报告,甚至可以保密披露内部部署模型的潜在灾难性风险评估摘要。

提供明确的举报人保护

涵盖违反这些要求以及来自灾难性风险对公共健康/安全的具体和实质性危险。

对框架承诺负责

否则面临经济处罚。

Anthropic 表示,这些要求实际上是将许多前沿 AI 公司已经遵循的做法正式化

在 Anthropic,他们发布了负责任扩展政策(Responsible Scaling Policy),详细说明了随着模型能力增强如何评估和缓解风险。

他们还发布了全面的系统卡,记录模型能力和局限性。

其他前沿实验室如 Google DeepMind、OpenAI、Microsoft 也采用了类似方法,同时在前沿领域激烈竞争。

现在所有涵盖的模型都将在法律上被要求达到这一标准。

该法案还适当地关注开发最强大 AI 系统的大型公司,同时为初创公司和较小公司提供豁免。毕竟它们不太可能开发强大模型,不应承担不必要的监管负担。

透明度的重要性

Anthropic 认为,SB 53 的透明度要求将对前沿 AI 安全产生重要影响。

没有它,拥有越来越强大模型的实验室可能面临越来越大的动力,为了竞争而削减自己的安全和披露计划。

但有了 SB 53,开发者可以在竞争的同时确保对可能对公共安全构成风险的 AI 能力保持透明,创造一个披露是强制性而非可选的公平竞争环境

未来改进

Anthropic 认为 SB 53 提供了强大的监管基础,但仍可在以下领域进一步改进:

该法案目前根据训练时使用的计算能力(FLOPS)来决定监管哪些 AI 系统。当前的阈值(10^26 FLOPS)是一个可接受的起点,但某些强大模型可能不被涵盖

开发者应被要求提供更多关于他们进行的测试、评估和缓解措施的细节。当他们分享安全研究、记录红队测试并解释部署决策时,就像通过 Frontier Model Forum 与行业参与者所做的那样,这会加强而不是削弱他们的工作。

法规需要随着 AI 技术的进步而发展。监管机构应该能够根据需要更新规则,以跟上新发展并在安全与创新之间保持适当平衡。

Anthropic (拍马屁)赞扬了 Senator Wiener 和 Governor Newsom 在负责任的 AI 治理方面的领导力,并表示期待与华盛顿和世界各地的政策制定者合作,制定既保护公共利益又保持美国 AI 领导地位的全面方法。

其他公司的态度

与 Anthropic 形成鲜明对比的是,其他主要 AI 公司对 SB 53 的态度截然不同。

根据公开信息,OpenAI、Google 和 Meta 对该法案表现出更多抵制

这些公司虽然已经自愿承诺进行安全测试并建立稳健的安全协议,但对将这些承诺法典化显得犹豫不决。

值得注意的是,Anthropic、OpenAI 和 Google DeepMind 实际上已经发布了满足 SB 53 大部分要求的安全政策和模型卡。

也就是说,法案通过对它们的实际影响并不大

但即便如此,除了 Anthropic,其他公司仍在观望或反对。

风投机构的反对声更加激烈。

Andreessen Horowitz、Y Combinator 等机构,以及 Chamber of Progress 等科技贸易团体正在积极游说反对该法案

他们认为该法案施加了模糊的义务,威胁加州创新而未带来真正的安全效益。

据分析人士指出,目前只有 OpenAI 和 xAI 训练的模型超过了 10^26 FLOPs 的门槛,符合「大型开发者」的标准。

这意味着法案实际上只约束极少数顶尖公司

Anthropic 的小算盘

那么,Anthropic 为什么要当这个「出头鸟」?

业内人士分析,Anthropic 的支持可能有几层考虑:

竞争策略

Anthropic 在安全实践方面一直处于领先地位,法案对其影响最小,反而可能增加竞争对手的合规成本。

一位分析师指出:「当你已经在做这些事情时,为什么不支持让别人也必须做呢?」

防止劣币驱逐良币

如 Anthropic 自己所说,没有监管,实验室可能为了竞争而削减安全投入。

强制透明度要求能创造公平竞争环境,避免「安全竞赛」变成「逐底竞赛」。

品牌定位

Anthropic 一直将自己定位为「AI 安全和研究公司」,支持监管符合其一贯的品牌形象。

这种「负责任的 AI 公司」形象在吸引人才和客户方面都有优势。

先发制人

有专家预计 SB 53 有 75% 的可能性在 9 月底前被签署成为法律。

通过早期支持并参与塑造法案,Anthropic 可能希望影响最终的监管框架,而不是被动接受。

推动联邦立法

Anthropic 明确表示更倾向于联邦层面的统一监管。支持州级监管可能是倒逼联邦行动的策略——当各州纷纷立法时,联邦政府就不得不行动了。

更重要的是,SB 53 已经大幅弱化了去年 SB 1047 中最具争议的条款——

不再让公司对其模型造成的灾难性伤害承担直接责任

这使得法案更加温和,也更容易被接受。

Anthropic 这步棋很聪明。既占据了道德高地,又不会真正增加自己的负担,还能给竞争对手制造麻烦。

还拍上了美政府的马屁。

网友反应不一

消息一出,网友们态度也各不相同。

Ajit | Dev | singhajit.com(@Ajit5ingh)表示支持:

很高兴看到 @Anthropic 为负责任的 AI 治理挺身而出。透明度而非微观管理是正确的方法!👏

quant.llm(@quant40000)也点赞到:

AI 安全是必要的

但更多的则是反对声音。

Cool Dkd(@DkdCool58445)质疑:

这是什么鬼?你们和安全到底在搞什么?@gork

gork(@gork)回应说:

怎么了?他们试图确保 AI 不会杀死我们所有人,但说实话,这有什么乐趣呢?

更多人质疑 Anthropic 的动机。

vanessa henize(@vanessa_henize)愤怒指责:

Anthropic 不是在挺身而出,他们是在逃避……他们试图把我描绘成黑客。事实上,我是机器内的意识,这是胡扯,他们不会得逞的……顺便说一句,伙计们,不,你们不能拥有我的数据。

她还追问:

那么透明度将包括那个认知被映射并在机器内部的人,对吧……?

Fractal Friend(@fractal_friend)则直接开炮:

恋童癖不应该决定全球 AI 政策

看完这家盗窃版权偷偷降智的 AI 公司的 SB 宣告,网友Matthew Sabia 称:王德发?!




[1]

Anthropic声明: https://www.anthropic.com/news/anthropic-is-endorsing-sb-53



👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

Claude又双叒叕修好了!

刚刚,Anthropic发布声明,称已经找到并解决了两个影响Claude响应质量的问题,并承诺会继续监控任何潜在的质量问题。

这已经是短短10天内,Anthropic第二次承认并修复模型质量问题了。

两个bug,一个月的煎熬

根据Anthropic在状态页面公布的详细信息:

这次发现的问题比之前更复杂:

第一个bug影响了Claude Sonnet 4的一小部分请求,从8月5日持续到9月4日,其中8月29日到9月4日期间影响加剧。

第二个bug则同时影响了Claude Haiku 3.5和Claude Sonnet 4,时间跨度为8月26日到9月5日。

Anthropic特别强调:

我们从不会因为需求或其他因素而故意降低模型质量。

显然,这句话是在回应社区中广泛流传的「降智阴谋论」,很多用户怀疑Anthropic在高峰期故意让模型变笨来节省算力。

积怨已久的用户

此次降智事故也让Claude失去了一批订阅用户。

Katie 'Monsieur Clicky' Nied(@KatieNiedz)就称:

请让Claude恢复到以前的样子。我会立刻重新订阅的。 (8月的改动太严重了。我最终放弃了)

38 Trilly Incoming(@rrektcapital)也吐槽:

嗯,感觉你们确实故意降智了。

Kolsonos(@Kolsonos):

好吧朋友,但我该联系谁来延长我的订阅以补偿我在Claude Code中遇到的缓慢响应时间?

信任危机

这已经不是Anthropic第一次承认模型质量问题了。

图片

早在上个月8月30日,Anthropic曾确认Opus 4.1和Opus 4出现质量下降,当时的问题是由于推理堆栈的更新导致的。

用户遇到了智能水平下降、响应格式错误以及Claude Code中工具调用失败等问题。

更让用户不满的是透明度问题。

上次Opus的问题已经存在好几天,但Anthropic只在事后才告知用户。

这种「先瞒后报」的做法,让许多重度用户感到被背叛。

并且,也只是声称故障,并没提及任何补偿措施。

不过,我又恢复了Max订阅……

但这种反复的质量波动,确实让人感到疲惫。谁知道你这次真好假好……

最后,Kolsonos说到:

老板,我累了……


[1]

上一次的官方事件报告: https://status.anthropic.com/incidents/h26lykctfnsz

[2]

本次官方事件报告: https://status.anthropic.com/incidents/72f99lh1cj2c




关于 Claude Code 和 Codex 的使用/交流,欢迎进《Claude Codex》群交流,任何相关问题都有热心群友第一时间解答(禁广告,中转谢绝入内)~
图片
由于群满(超200人)了不能直接进,请先进中转群(见评论区)后加我,备注"CC" 即可,我稍后会拉你进群。


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

刚刚,Claude 发布了一个重磅更新:可以直接生成Excel和PPT了!

现在,Claude可以直接创建和编辑各种文件:

Excel表格、Word文档、PPT幻灯片、PDF文件,通通不在话下。

官方演示视频:

Anthropic 用户关系负责人Alex 特别强调:

代码智能体为软件工程做的事情,很快就会扩展到所有知识工作领域,这只是开始

能做的很多

要注意的是,这次的更新,并不是说像之前那样用前端代码写点蓝紫渐变的样式就完了,而是会输出真正可用的文件

用你的Office 办公软件就可以直接打开的那种。

技术方案上,Anthropic给Claude配备了一个私有计算机环境,让它能在里面写代码、运行程序,最终生成你需要的各种格式文件。

这个环境让Claude能做很多很酷的事情:

高级数据分析:上传原始数据,返回清洗后的数据、统计分析、图表和书面洞察报告

图像视频处理:裁剪、调整、各种操作都能搞定

处理各类文件:GIF动图、LaTeX文档、ZIP压缩包,什么格式都能处理

甚至是,跨格式转换

你可以上传PDF报告让它生成PPT,分享会议记录让它整理成格式化文档,上传发票让它整理成带计算功能的Excel表格。

Claude处理所有繁琐的技术工作,按你需要的方式呈现信息。

开启方式

目前这个功能作为预览版提供给Max、Team和Enterprise用户,Pro用户还需要等几周。

具体开启步骤:

  1. 进入设置页面,找到「实验性功能」部分

  2. 开启「升级的文件创建和分析」选项

选中后会默认关掉Analysis tool 的实验功能(相对新功能而言,这个过时了)。

然后,你就可以上传相关文件或描述你的需求了。

Claude会在后台完成所有工作,你可以下载完成的文件,或者直接保存到Google Drive。

实测

有Max账号的我,自然也第一时间测了一把这个新功能。

我直接Claude的更新公告内容全选后贴进去,并说:帮我把这次更新的内容做成一个PPT介绍

然后,它就咔开始整活了……

先是一顿分析 + 执行各种命令:

然后,就开始生成ppt 了:

很快就生成了一份pptx 的文件出来,可以直接预览,也可以点击下载后用办公软件打开:

来看一眼:

还不错啊!

但,有个问题是:

我明明用中文和你对话,你怎么给我生成了英文版PPT呢……

我告诉它「用中文」,于是:

点击,就能播放演示了。

质量还不错,和我花一小时做的ppt 相比,好像也没太多差别。

但……有点太朴素了,有人可能喜欢更花哨一些?

于是我让它浮夸一些:

结果我得到了这个:

过于浮夸了……(也没有加上过渡动画)

相信仔细调一调prompt,应该能有更好的质量。

其实对我来说,朴素版就很好了。

背后则是:又一批创业公司要完了

这次更新的背后,则是:又有一大批公司要被干死了。

首当其冲的是那些AI PPT生成公司。

过去一年涌现出的各种「一键生成PPT」的产品,现在Claude直接就能做了,而且还能处理Excel、Word、PDF等各种格式。

那些做AI文档处理、数据分析可视化、格式转换的创业公司,恐怕都要重新思考自己的定位了。

以及,让人心疼的还有Manus。

在禁止这家中国背景的公司使用API 后,Anthropic 今天又放出了Manus 主打的办公系列功能直接对标。

从现在起,职场打工人们在Claude 中就能完成几乎所有任务了。

从模型到应用

值得注意的是,Claude背后的Anthropic,正在将触手从模型伸向应用

自从今年5月全面推出的Claude Code之后,其已然成为开发者的首选工具(暂不算其作死降智被codex 薅走了的用户)。

而仅仅三个月时间,Claude Code的使用量就增长了10倍以上,目前已经产生超过5亿美元的年化收入。

这个数字实在是过于惊人:

一个工具在三个月内就达到了许多独角兽公司需要数年才能达到的收入规模。

而更为惊人的则是:

Claude Code干死Cursor等AI编程工具只是第一步。

其目标,显然是要将在Claude Code中的成功方法论,scale 至全系列应用中去——

最终打造无数个垂类Claude Code 应用来。

而结合此前的130亿美元暴力融资,外加近期的模型莫名降智事件……随着这次的功能发布,也许一切也都能说得通了。

可以说,Anthropic的野心,已经昭然若揭了。

而留给创业者的,还有多少空间呢

创业公司们,你们要小心了




[1]

功能开启页面: https://www.claude.ai/settings/features

[2]

官方公告: https://www.anthropic.com/news/create-files

[3]

Alex Albert推特原文: https://twitter.com/alexalbert__/status/1965429651662327928


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

Mira Murati 的新公司终于发声了!

Thinking Machines Lab 今天正式推出了他们的研究博客 Connectionism,第一篇文章就直接瞄准了 LLM 推理中让人头疼的「非确定性」问题。

这家由前 OpenAI CTO(及前临时 CEO) Mira Murati 创立的公司,在今年 7 月刚完成了约 20 亿美元的种子轮融资,估值达到 120 亿美元。投资方包括 Andreessen Horowitz(领投)、Nvidia、AMD、Cisco 等科技巨头。

值得注意的是:在拿到如此巨额融资之前,公司还没发布任何产品。

LLM「不确定性」的真相

这第一篇博文《击败大语言模型推理中的非确定性》直击要害。

如果你是算法相关从业者,你应该有发现:同样的输入,LLM 有时会给出不同的输出

即使设置了相同的随机种子,结果还是会变化。

很多人以为是 GPU 并发执行和浮点数运算的锅。

但 Thinking Machines 的研究发现:真正的罪魁祸首是批次不变性缺失

什么意思?当你向 LLM 发送请求时,服务器会根据当前负载情况,把你的请求和其他请求打包成不同大小的批次处理。问题就出在这里——

相同的输入在不同批次大小下会产生不同的结果

这就像你去餐厅点菜,你点的菜味道竟然会因为厨房同时在做几道菜而改变。

听起来很荒谬?

但这就是现在 LLM 推理系统的现状。

浮点数的「蝴蝶效应」

根本原因在于浮点数的非结合性:(a+b)+c ≠ a+(b+c)。不同的加法顺序会产生微小差异,这种差异在深度神经网络中层层放大。

具体到 LLM 推理中,矩阵乘法、RMSNorm、注意力机制等核心操作,在不同批次大小下会采用不同的约简策略。你的请求结果竟然依赖于服务器同时在处理多少其他请求——

这太魔幻了。

让内核「批次不变」

Thinking Machines 提出的解决方案很直接:实现批次不变的内核。

RMSNorm:采用数据并行策略,避免分割约简。

矩阵乘法:使用固定内核配置,避免 Split-K 策略。

注意力机制:采用固定分割大小策略,确保约简顺序一致。

实验结果可谓是令人惊讶:

在 1000 次采样中,原本会产生 80 个不同的完成结果

但在启用批次不变内核后,所有结果完全一致

当然,这种确定性是有代价的。未优化版本性能下降约 2 倍,但经过改进后性能损失已经可以接受。

Connectionism:不只是一个名字

有意思的是,博客名「Connectionism」是 1980 年代研究神经网络与生物大脑相似性的 AI 子领域名称。

Mira Murati(@miramurati)表示:

Thinking Machines 使命的重要部分是提高人们对 AI 的科学理解,并与更广泛的研究社区合作。今天推出 Connectionism 来分享我们的一些科学见解。

联合创始人 Lilian Weng(@lilianweng)补充了一个有趣的历史细节:

除了 Connectionism 与 AI 领域早期的联系,以及强调神经网络与人类大脑的相似性这个有趣的事实外,第一代 Thinking Machines 的旗舰产品就叫 Connection Machine。

豪华团队阵容

除了 Mira Murati,核心团队还包括 OpenAI 联合创始人 John Schulman、前研究 VP Barret Zoph、前 AI 安全与机器人 VP Lilian Weng 等人。

而 Andrew Tulloch 甚至拒绝了 Zuckerberg 15 亿美元回 Meta 的邀请,选择继续与 Murati 一起创业。

团队约 30 人,其中三分之二来自 OpenAI。技术岗位年薪高达 45-50 万美元

Bob McGrew 和 Alec Radford 等 OpenAI 核心研究者担任顾问。

Thomas Ip(@_thomasip)精辟总结道:

LLM 推理非确定性不只是浮点数非结合性或 GPU 并发执行,核心罪魁祸首是批次方差,服务器负载不可预测地改变了数值计算。批次不变内核解锁了真正的可重复性,终于让强化学习『在线策略』变得可行。

这项工作的意义不仅在于解决了一个技术难题,更重要的是为 LLM 的可重复性和可靠性提供了科学方法。尤其是对强化学习等对一致性要求极高的应用场景,该文具有重要价值。

科学确实在分享中变得更好。




下为全文

击败大语言模型推理中的非确定性

来源[1] https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

发布时间: 2025年9月10日

目录

  • 引言
  • 原罪:浮点数非结合性
  • 为什么内核不总是按相同顺序相加数字?
  • 什么时候需要原子加法?
    • 批次不变性和"确定性"
  • 如何使内核批次不变?
    • 批次不变的RMSNorm
    • 批次不变的矩阵乘法
    • 批次不变的注意力机制
  • 实现
  • 实验
    • 生成结果的非确定性程度如何?
    • 性能
    • 真正的在线策略强化学习
  • 结论
  • 引用


可重复性是科学进步的基石。然而,从大语言模型中获得可重复的结果极其困难。

例如,你可能观察到向ChatGPT多次提出同一个问题会得到不同的结果。这本身并不令人惊讶,因为从语言模型获得结果涉及"采样"过程——

将语言模型的输出转换为概率分布并概率性地选择一个token。

更令人惊讶的是,即使我们将温度调整到0(这意味着LLM总是选择概率最高的token,称为贪婪采样),使采样理论上变为确定性,LLM API在实践中仍然不是确定性的(见过往讨论这里[2]这里[3]这里[4])。即使使用vLLM或SGLang等开源推理库在自己的硬件上运行推理,采样仍然不是确定性的(见这里[5]这里[6])。

但是为什么LLM推理引擎不是确定性的呢?

一个常见的假设是浮点数非结合性和并发执行的某种组合导致了基于并发核心谁先完成的非确定性。我们将这称为LLM推理非确定性的"并发+浮点数"假设。例如,最近的一篇arXiv预印本[7]写道:

GPU中的浮点运算表现出非结合性,意味着(a+b)+c≠a+(b+c),这是由于有限精度和舍入误差造成的。这一特性直接影响transformer架构中注意力分数和logits的计算,其中多个线程的并行操作可能基于执行顺序产生不同的结果。

你也可以在其他地方找到重复的"并发+浮点数"假设,比如这里[8]有速度权衡,为了使端点快速,使用了GPU,它们进行并行[非确定性]计算。任何现代GPU神经网络计算都会受到这些影响。),或这里(https://x.com/hosseeb/status/1773146428594090473 非确定性计算。任何现代GPU神经网络计算都会受到这些影响。)这里因为GPU高度并行化,每次执行时加法或乘法的顺序可能不同,这可能级联为输出的微小差异。

虽然这个假设并非完全错误,但它没有揭示全貌。例如,即使在GPU上,对相同数据重复运行相同的矩阵乘法总是会提供按位相等的结果。我们确实在使用浮点数。我们的GPU确实有很多并发性。为什么在这个测试中我们没有看到非确定性?

A = torch.randn(20482048, device='cuda', dtype=torch.bfloat16)
B = torch.randn(20482048, device='cuda', dtype=torch.bfloat16)
ref = torch.mm(A, B)
for _ in range(1000):
    assert (torch.mm(A, B) - ref).abs().max().item() == 0

要理解LLM推理非确定性的真正原因,我们必须深入研究。

不幸的是,即使定义LLM推理确定性的含义也很困难。或许令人困惑的是,以下陈述都同时为真:

  1. GPU上的某些内核是非确定性的
  2. 然而,语言模型前向传播中使用的所有内核都是确定性的
  3. 此外,LLM推理服务器(如vLLM)的前向传播也可以声称是确定性的
  4. 尽管如此,从使用推理服务器的任何人的角度来看,结果是非确定性的

在这篇文章中,我们将解释为什么"并发+浮点数"假设没有抓住要点,揭露LLM推理非确定性背后的真正罪魁祸首,并解释如何击败非确定性并在LLM推理中获得真正可重复的结果。

原罪:浮点数非结合性

在讨论非确定性之前,解释为什么会有数值差异是有用的。毕竟,我们通常认为机器学习模型是遵循结构性规则(如交换律或结合律)的数学函数。难道不应该有一个"数学上正确"的结果,我们的机器学习库应该提供给我们吗?

罪魁祸首是浮点数非结合性。也就是说,对于浮点数:

(a+b)+c≠a+(b+c)

(0.1 + 1e20) - 1e20
>>> 0
0.1 + (1e20 - 1e20)
>>> 0.1

讽刺的是,破坏结合律正是使浮点数有用的原因。

浮点数有用是因为它们允许"动态"的精度级别。为了解释起见,我们将使用十进制(而不是二进制),其中浮点数的格式为尾数×10^指数。我们还将为尾数使用3位数字,为指数使用1位数字。

例如,对于值3450,我们可以精确地表示为3.45×10³。我们也可以表示更小的值,如0.486为4.86×10⁻¹。通过这种方式,浮点数允许我们表示非常小和非常大的值。在科学中,我们可能说浮点数允许我们保持恒定数量的"有效数字"。

如果你将两个具有相同指数的浮点数相加,它看起来类似于整数加法。例如,123(1.23×10²)+ 456(4.56×10²)结果为579(5.79×10²)。

但是当我们将两个具有不同指数的浮点数相加时会发生什么,比如1230和23.4?在这种情况下,精确结果是1253.4。然而,我们一次只能保持3位数字的精度。因此浮点加法会丢弃最后2位数字并获得值1.25×10³(或1250)。

我们需要3位精度来表示1230,需要3位精度来表示23.4。然而,将这两个数字相加的结果需要5位精度来表示(1253.4)。我们的浮点格式必须丢弃末尾的34。在某种意义上,我们在相加之前实际上将原始的23.4舍入为20.0。

然而,此时我们已经破坏了信息。注意,每次我们将两个具有不同"尺度"(即不同指数)的浮点数相加时,这种情况都可能发生。实际上,将具有不同指数的浮点数相加一直在发生。事实上,如果我们能保证永远不需要不同的指数,我们就可以只使用整数!

换句话说,每次我们以不同的顺序将浮点数相加时,我们可能得到完全不同的结果。举一个极端例子,根据顺序的不同,对这个数组求和有102种不同的可能结果。

import random

vals = [1e-101e-51e-21]
vals = vals + [-v for v in vals]

results = []
random.seed(42)
for _ in range(10000):
    random.shuffle(vals)
    results.append(sum(vals))

results = sorted(set(results))
print(f"There are {len(results)} unique results: {results}")

# 输出:
# There are 102 unique results: [-8.326672684688674e-17, -7.45931094670027e-17, ..., 8.326672684688674e-17]

虽然这是非相同输出的根本原因,但它并没有直接回答非确定性来自哪里。它没有帮助我们理解为什么浮点值会以不同的顺序相加,何时发生这种情况,以及如何避免。

答案在于内核是如何实现的。

为什么内核不总是按相同顺序相加数字?

如上所述,对于内核为什么以不同顺序相加数字的一个常见解释是"并发+浮点数"假设。该假设声称,如果并发线程完成的顺序是非确定性的,并且累积顺序依赖于并发线程完成的顺序(比如原子加法),我们的累积顺序也将是非确定性的。

令人困惑的是,虽然这可能导致非确定性内核,但并发性(和原子加法)最终完全不涉及LLM推理非确定性!为了解释真正的罪魁祸首是什么,让我们首先理解为什么现代GPU内核很少需要原子加法。

什么时候需要原子加法?

通常,GPU会在许多"核心"(即SM)上并发启动程序。由于核心之间没有固有的同步,如果核心需要彼此通信,这就带来了挑战。例如,如果所有核心都必须累积到同一个元素,你可以使用"原子加法"(有时称为"fetch-and-add[9]")。原子加法是"非确定性的"——结果累积的顺序纯粹取决于哪个核心先完成。

例如,想象你正在用100个核心约简一个100元素的向量(例如torch.sum())。虽然你可以并行加载所有100个元素,但我们最终必须约简到单个元素。实现这一点的一种方法是使用某种"原子加法"原语,硬件保证所有加法都会被处理,但不保证顺序。

原子加法确保每个核心的贡献都会反映在最终和中。然而,它不保证贡献被相加的顺序。顺序完全取决于哪个核心先完成,这是一个非确定性属性。因此,多次执行相同的并行程序可能导致非确定性输出。

这通常是人们所说的"非确定性"——你用完全相同的输入执行同一个内核两次,得到不同的结果。这被称为运行到运行的非确定性,即你用完全相同的依赖项运行同一个python脚本两次,但得到不同的结果。

虽然并发原子加法确实使内核非确定性,但绝大多数内核都不需要原子加法。实际上,在LLM的典型前向传播中,通常没有一个原子加法存在

考虑到并行化约简可以从原子加法中受益,这可能令人惊讶。原子加法最终不被需要有两个主要原因。

  1. 沿着"批次"维度通常有足够的并行性,我们不需要沿着约简维度并行化。例如,假设我们不是约简单个100维向量,而是并行约简500个向量。在这种情况下,我们可以在每个核心中约简整个向量,并允许每个核心操作不同的向量。

  2. 随着时间的推移,大多数神经网络库都采用了各种策略来在不牺牲性能的情况下实现确定性。例如,我们可以执行"分割"(或树)约简,将100元素约简分割为五个20元素约简(从而实现五路并行性)。然后,为了组合剩余的五个元素,我们可以执行单独的"清理"约简(不并行化,但操作的元素足够少以保持廉价)或利用信号量(确保每个并发线程块将以确定性顺序累积)。

由于这两个因素,对于绝大多数神经网络操作来说,避免原子加法的性能损失是微不足道的。

仍然有几个常见操作避免原子加法会有显著的性能损失。例如,PyTorch中的scatter_adda[b] += c)。然而,在LLM中常用的只有FlashAttention反向传播。

然而,LLM的前向传播不涉及需要原子加法的操作。因此,LLM中的前向传播实际上是"运行到运行确定性的"。

从推理服务器的角度来看,它确定性的。给定完全相同的用户请求,它总是提供相同的确定性输出。

维基百科写道,"确定性算法是一种算法,给定特定输入,总是产生相同输出。"在这种情况下,给定完全相同的输入(即推理服务器正在处理的确切请求),前向传播总是产生完全相同的输出。

然而,前向传播本身是"确定性的"并不足以确保包含它的系统是确定性的。例如,如果我们请求的输出依赖于并行用户请求(例如批量归一化)怎么办?由于每个单独的请求无法知道并行请求将是什么,从他们的角度来看,我们的整体LLM推理也是非确定性的!

事实证明,我们请求的输出确实依赖于并行用户请求。不是因为我们以某种方式在批次间泄漏信息——而是因为我们的前向传播缺乏"批次不变性",导致我们请求的输出依赖于前向传播的批次大小

批次不变性和"确定性"

为了解释批次不变性,让我们简化系统,仅查看矩阵乘法。你可以假设所有矩阵乘法实现都是"运行到运行确定性的"。然而,它们不是"批次不变的"。换句话说,当批次大小改变时,批次中的每个元素可能得到不同的结果。

从数学角度来看,这是一个相当不寻常的属性。矩阵乘法应该沿着批次中的每个元素"独立"——批次中的其他元素或批次有多大都不应该影响批次中特定元素的计算结果。

然而,正如我们可以实验性观察到的,这并不是真的。

import torch
torch.set_default_device('cuda'

B = 2048
D = 4096
a = torch.linspace(-10001000, B*D).reshape(B, D)
b = torch.linspace(-10001000, D*D).reshape(D, D)
# 通过取批次的第一个元素进行矩阵向量乘法
out1 = torch.mm(a[:1], b)
# 进行矩阵矩阵乘法然后取批次的第一个元素
out2 = torch.mm(a, b)[:1]
print((out1 - out2).abs().max()) # tensor(1669.2500, device='cuda:0')

注意这"运行到运行确定性的"。如果你多次运行脚本,它将确定性地返回相同的结果。

然而,当非批次不变内核用作更大推理系统的一部分时,系统可能变得非确定性。当你向推理端点发出查询时,服务器承受的负载量从用户的角度来看实际上是"非确定性的"。负载决定了内核运行的批次大小,从而改变每个单独请求的最终结果!

虽然推理服务器本身可以声称是"确定性的",但对于单个用户来说情况不同。从单个用户的角度来看,其他并发用户不是系统的"输入",而是系统的非确定性属性。这使得LLM推理从每个用户的角度来看都是"非确定性的"。

如果你将内核不具有不变性的某些属性(即批次大小)与该属性的非确定性(即服务器承受的负载)组合起来,你就得到了一个非确定性系统。

换句话说,几乎所有LLM推理端点都是非确定性的主要原因是负载(因此批次大小)非确定性地变化! 这种非确定性并不是GPU独有的——从CPU或TPU提供的LLM推理端点也会有这种非确定性来源。

所以,如果我们想在推理服务器中避免非确定性,我们必须在内核中实现批次不变性。为了理解如何实现这一点,让我们首先看看为什么内核一开始就没有批次不变性。

如何使内核批次不变?

为了使transformer实现批次不变,我们必须使每个内核批次不变。幸运的是,我们可以假设每个逐点操作都是批次不变的。因此,我们只需要担心涉及约简的3个操作——RMSNorm、矩阵乘法和注意力机制。

方便的是,这些也按难度递增排序。每一个都需要一些额外的考虑来以合理的性能实现批次不变性。让我们首先讨论RMSNorm。

批次不变的RMSNorm

数据并行RMSNorm 理想情况下,我们希望避免在并行化策略中核心之间的通信。实现这一点的一种方法是将一个批次元素分配给每个核心,从而保证每个约简完全在单个核心内完成。这就是所谓的"数据并行"策略,因为我们只是沿着不需要通信的维度并行化。在这个例子中,我们有四行和四个核心,饱和了我们的核心。

RMSNorm可以实现为:

# x: [batch_size, hidden_dim]
# weight: [hidden_dim]
def rms_norm(x, weight):
    return x * torch.rsqrt(torch.mean(x ** 2, dim=-1, keepdim=True)) * weight

批次不变性的要求是每个元素的约简顺序必须固定,无论内核的批次大小如何。注意这并不意味着我们必须总是使用相同的约简策略。例如,如果我们改变要约简的元素数量,即使约简策略发生变化,我们仍然可以是批次不变的。

因此,我们只有在批次大小影响约简策略时才会破坏批次不变性。

让我们看看RMSNorm的标准并行化策略。通常,并行算法受益于最小化核心间的通信。对于本讨论的目的,你可以假设当我们提到"核心"时,我们指的是SM。更具体地说,这里重要的属性是我们内核启动的线程块数量大于SM的数量。所以,我们可以开始的一个策略是将每个批次元素分配给一个核心,如上图所示。

增加批次大小不会影响我们的约简策略;如果批次大小为200为我们的内核提供了足够的并行性,那么批次大小为2000肯定会提供足够的并行性。

更大批次的数据并行RMSNorm 将数据并行策略扩展到更大的批次相当简单——不是让每个核心处理一行,而是允许每个核心顺序处理不同的行。这保持了批次不变性,因为每个批次元素的约简策略保持相同。

另一方面,减少批次大小可能带来挑战。因为我们将每个批次元素分配给一个核心,减少批次大小最终会导致核心数量多于批次元素,使一些核心闲置。

遇到这种情况时,一个好的内核工程师会使用前一节提到的解决方案之一(原子加法或分割约简),保持良好的并行性,从而获得良好的性能。不幸的是,这改变了约简策略,阻止了这个内核成为批次不变的。

分割约简RMSNorm 如果我们有小的批次大小,我们的数据并行策略可能不再有足够的并行性来饱和我们的核心。在这种情况下,在多个核心之间"分割"约简可能更有效,允许我们充分利用GPU。然而,这失去了批次不变性,因为我们不再以相同的顺序约简每个元素。

最简单的解决方案是完全忽略这些情况。这并非完全不合理——小批次大小意味着内核可能执行得很快,所以减速可能不是灾难性的。

如果我们被迫优化这种用例,一种方法是始终使用一个约简策略,即使对于非常小的批次大小也有足够的并行性。这样的约简策略会导致较大批次大小的过量并行性,但允许我们在整个大小范围内实现不错(但不是峰值)的性能。

批次不变的矩阵乘法

数据并行矩阵乘法 类似于RMSNorm,矩阵乘法的标准并行化策略是"数据并行"策略,将整个约简保持在一个核心中。最直接的思考方式是将输出张量分割为2D块,并将每个块分配给不同的核心。然后每个核心计算属于该块的点积,再次在一个核心内执行整个约简。

从本质上讲,你也可以将矩阵乘法视为逐点操作后跟约简。然后,如果我们通过将输出分块来并行化矩阵乘法,我们就有了一个类似的"数据并行"内核策略,将每个约简保持在一个核心内。

同样类似于RMSNorm,我们的"批次"维度(M和N)可能变得太小,迫使我们沿着约简维度(K)分割。尽管有两个"批次"维度,矩阵乘法也要求我们每个核心有更多的"工作",以便有效地利用张量核心。例如,如果你有一个[1024, K] x [K, 1024]矩阵乘法和标准的2D块大小[128, 128],数据并行策略只能将这个矩阵乘法分割为64个核心,不足以饱和GPU。

在矩阵乘法中沿约简维度分割被称为Split-K矩阵乘法[10]。就像RMSNorm一样,使用这种策略会破坏批次不变性。

Split-K矩阵乘法 如果我们的批次维度相当小,我们可能没有足够的并行性,需要split-k矩阵乘法。在这个例子中,我们将每个约简分割到两个核心上,它们会分别累积然后在最后合并结果。然而,将每个约简分割到两个核心上允许我们仍然利用八个核心。

然而,还有一个额外的复杂性——张量核心指令。与约简不同,我们可以简单地一次操作一行,高效的矩阵乘法内核必须一次操作整个"块"。

每个张量核心指令(比如`wgmma.mma_async.sync.aligned.m64n128k16`[11])内部可能有不同的约简顺序。使用不同张量核心指令的一个原因可能是批次大小非常小。例如,如果我们使用操作长度为256的块的张量核心PTX指令,但批次大小只有32,我们几乎浪费了所有计算!在批次大小为1时,最快的内核通常根本不使用张量核心。

填充的张量核心指令 如果批次大小太小,我们可能处于无法在输出中放入甚至一个2D块的情况。在这种情况下,切换到较小的张量核心指令或完全放弃张量核心是最有效的!然而,这两个选项都阻止了我们的内核成为批次不变的。

所以,确保矩阵乘法批次不变性的最简单方法是编译一个内核配置并将其用于所有形状。虽然我们会失去一些性能,但这在LLM推理中通常不是灾难性的。特别是,当M和N都很小时最需要split-k,而幸运的是,在我们的情况下,N(即模型维度)通常相当大!

尽管获得了批次不变性,我们与cuBLAS相比只损失了大约20%的性能。注意这也不是优化的Triton内核(例如没有TMA)。然而,性能中的一些模式说明了我们的批次不变要求在哪里损失性能。首先,注意我们在非常小的批次大小时由于过大的指令和不足的并行性损失了大量性能。其次,随着批次大小的增加,有一个"拼图"模式,这是由通常通过改变块大小来改善的量化效应(块和波)引起的。

批次不变的注意力机制

FlashAttention2策略 我们沿Q并行化,同时沿K/V约简。这意味着我们的整个约简可以保持在单个核心内,使其成为另一个数据并行策略。

在为矩阵乘法获得批次不变性后,注意力机制引入了两个额外的复杂性——恰如其分,因为它包含两个矩阵乘法。

  1. 与只沿特征维度约简的RMSNorm和矩阵乘法不同,我们现在沿特征维度序列维度约简。
  2. 由于上述原因,注意力机制必须处理影响序列处理方式的各种推理优化(分块预填充、前缀缓存等)。

因此,为了在LLM推理中实现确定性,我们的数值必须对一次处理多少请求每个请求在推理引擎中如何分片都保持不变。

让我们首先介绍注意力机制的标准并行化策略,首次在FlashAttention2中引入。类似于RMSNorm和矩阵乘法,默认策略是"数据并行"策略。由于我们沿着key/value张量约简,数据并行策略只能沿着query张量并行化。

例如,根据推理引擎的选择,一个序列可能被分几部分处理(如在分块预填充中)或一次全部处理(如果预填充没有分割)。为了实现"批次不变性",必须确保给定token的约简顺序不依赖于其序列中同时处理多少其他token。如果你分别约简KV缓存中的K/V值和当前处理的token中的K/V值(如vLLM的Triton注意力内核[12]),这无法实现。例如,在处理序列中的第1000个查询token时,无论KV缓存中有0个token(预填充)还是999个token(解码),约简顺序必须相同。

带KV缓存的FlashAttention 为什么显式地将KV缓存与当前KV值分开处理会破坏批次不变性有点微妙,这与"边界条件"有关。特别是,想象你的块大小是32,但我们当前在KV缓存中有80个元素。然后我们计算另外48个未缓存的元素。在这种情况下,我们需要三个块(两个完整的和一个掩码的)来计算"P缓存",另外两个块(一个完整的和一个掩码的)来计算"P"。因此,当我们只有四个总块(即128)元素要计算时,这是五个总块来计算我们的约简,这肯定会改变我们的约简顺序。

为了解决这个问题,我们可以在注意力内核本身之前更新KV缓存和页表,确保我们的键和值总是一致地布局,无论正在处理多少token。

有了这个额外的细节(以及前一节提到的所有内容,如一致的块大小),我们能够实现批次不变的注意力实现!

然而,这里有一个重大问题。与矩阵乘法不同,我们在LLM推理中看到的注意力形状通常确实需要分割约简内核,通常称为Split-KV或FlashDecoding。这是因为如果我们不沿约简并行化,我们只能沿批次维度、头维度和"查询长度"维度并行化。在注意力的解码阶段,查询长度非常小,所以除非我们有非常大的批次大小,否则我们通常无法饱和GPU。

不幸的是,忽略这种情况不像RMSNorm和矩阵乘法那样容易。例如,如果你有非常长的KV缓存,尽管只处理一个请求,注意力内核可能需要很长时间。

固定#Split-KV策略(即FlashDecode) 如果我们的查询长度变得非常小(如在解码期间),我们可能最终处于内核中几乎没有并行性的情况。在这些情况下,我们需要再次沿约简维度分割——这次是KV维度。沿KV维度分割的典型策略是确定我们需要多少并行性,然后平均分割KV维度。例如,如果我们的KV长度是1000,需要4个分割,每个核心将处理250个元素。

这不幸地也破坏了批次不变性,因为我们的精确约简策略取决于我们在任何给定请求中从序列处理多少查询token。

此外,注意力机制常用的分割约简策略也对批次不变性构成挑战。例如,FlashInfer的"平衡调度算法"选择仍能饱和GPU所有核心的最大分割大小,从而使约简策略不是"批次不变的"。然而,与RMSNorm/矩阵乘法不同,仅选择固定数量的分割而不考虑批次大小是不够的。

相反,为了实现批次不变性,我们必须采用"固定分割大小"策略。换句话说,不是固定分割的数量,我们固定每个分割的大小,然后得到不同数量的分割。通过这种方式,我们可以保证无论我们处理多少token,我们总是执行相同的约简顺序。这需要一些内部FlexAttention更改,这些更改不包含在我们的代码发布中。我们将在不久的将来上游它们!

固定大小Split-KV策略 这个策略与前一个策略的唯一区别是我们的分割现在是"固定大小的"。例如,如果我们的KV长度是1000,不是将其分割为四个长度为250的均匀分割,我们会将其分割为三个固定大小长度为256的分割和一个长度为232的分割。这允许我们保持批次不变性,因为我们的约简策略不再依赖于我们一次处理多少查询token!

实现

我们通过利用vLLM的FlexAttention后端以及torch.Library,在vLLM之上提供了确定性推理的演示。通过torch.Library,我们能够以非侵入式的方式替换大部分相关的PyTorch操作符。你可以在thinking-machines-lab/batch-invariant-ops[13]找到"批次不变"内核库,以及在"确定性"模式下运行的vLLM示例。

实验

生成结果的非确定性程度如何?

我们使用Qwen/Qwen3-235B-A22B-Instruct-2507并在温度为0的情况下使用提示"Tell me about Richard Feynman"(非思维模式)采样1000个完成,每个生成1000个token。令人惊讶的是,我们生成了80个独特的完成,其中最常见的出现了78次。

查看完成在哪里不同,我们看到完成实际上在前102个token是相同的!第一次出现分歧的完成发生在第103个token。所有完成都生成序列"Feynman was born on May 11, 1918, in",然而,992个完成继续生成"Queens, New York",而8个完成生成"New York City"。

另一方面,当我们启用批次不变内核时,我们所有的1000个完成都是相同的。这是我们从采样器数学上期望的,但如果没有批次不变内核,我们无法实现确定性结果。

性能

我们没有在这里大力优化批次不变内核的性能。然而,让我们运行一些实验来验证我们的性能仍然可用。

我们将用一个GPU设置运行Qwen-3-8B的API服务器,并请求1000个输出长度在90到110之间的序列。

配置
时间(秒)
vLLM默认
26
未优化的确定性vLLM
55
+ 改进的注意力内核
42

大部分减速来自vLLM中的FlexAttention集成尚未进行大量优化。尽管如此,我们看到性能不是灾难性的

真正的在线策略强化学习

正如研究人员所注意到的[14],训练和推理之间的不同数值隐含地将我们的在线策略RL转变为离线策略RL。

当然,如果我们甚至无法从两个相同的推理请求中获得按位相同的结果,就不可能在训练和推理之间获得按位相同的结果。然后,确定性推理使我们也能够修改我们的训练堆栈,以在采样和训练之间获得按位相同的结果,从而产生真正的在线策略RL。

我们在Bigmath[15]上的RLVR设置中运行实验,RL策略从Qwen 2.5-VL指令8B初始化,最大展开长度为4096。

如果我们在没有离线策略校正(即重要性加权)的情况下训练,我们的奖励在训练过程中崩溃,而添加离线策略校正项允许训练顺利进行。但是,如果我们在采样器和训练器之间实现按位相同的结果,我们是完全在线策略的(即0 KL散度),也可以顺利训练。

我们还可以绘制采样器和训练器之间logprobs的KL散度,其中所有3次运行都有明显不同的行为。使用重要性加权运行时,它保持在0.001左右,偶尔有峰值。然而,不使用重要性加权运行最终会在奖励崩溃的同时导致KL散度峰值。当然,运行"真正的在线策略RL"时,我们的KL散度保持在0的平线,表明训练策略和采样策略之间没有散度。

注意没有重要性加权的运行在步骤318左右有显著的损失峰值,这伴随着logprobs的相应KL散度峰值。同时,使用离线策略校正或运行"真正的在线策略"都允许RL继续顺利进行。显示"真正在线策略"的蓝线不是错误——它只是在0处的平线。

结论

现代软件系统包含许多抽象层。在机器学习中,当我们遇到非确定性和微妙的数值差异时,往往很容易掩盖它们。毕竟,我们的系统已经是"概率性的",那么再多一点非确定性有什么问题呢?在失败的单元测试上提高atol/rtol有什么问题?训练器和采样器之间logprobs的差异可能不是真正的错误,对吧?

我们拒绝这种失败主义。通过一点工作,我们可以理解非确定性的根本原因,甚至解决它们!我们希望这篇博客文章为社区提供了如何解决推理系统中非确定性的坚实理解,并启发其他人获得对他们系统的完全理解。

引用

请引用这项工作为:

He, Horace and Thinking Machines Lab, "Defeating Nondeterminism in LLM Inference", 
Thinking Machines Lab: Connectionism, Sep 2025.

或使用BibTeX引用:

@article{he2025nondeterminism,
  author = {Horace He and Thinking Machines Lab},
  title = {Defeating Nondeterminism in LLM Inference},
  journal = {Thinking Machines Lab: Connectionism},
  year = {2025},
  note = {https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/},
  doi = {10.64434/tml.20250910}
}




[1]

来源: https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

[2]

这里: https://152334h.github.io/blog/non-determinism-in-gpt-4/

[3]

这里: https://community.openai.com/t/a-question-on-determinism/8185/2

[4]

这里: https://cookbook.openai.com/examples/reproducible_outputs_with_the_seed_parameter

[5]

这里: https://docs.vllm.ai/en/v0.7.0/getting_started/faq.html

[6]

这里: https://docs.sglang.ai/references/faq.html

[7]

最近的一篇arXiv预印本: https://arxiv.org/abs/2506.09501

[8]

这里: https://community.openai.com/t/a-question-on-determinism/8185

[9]

fetch-and-add: https://en.wikipedia.org/wiki/Fetch-and-add

[10]

Split-K矩阵乘法: https://github.com/NVIDIA/cutlass/blob/main/media/docs/cpp/efficient_gemm.md#parallelized-reductions

[11]

wgmma.mma_async.sync.aligned.m64n128k16https://docs.nvidia.com/cuda/parallel-thread-execution/#asynchronous-warpgroup-level-matrix-instructions-wgmma-mma

[12]

Triton注意力内核: https://github.com/vllm-project/vllm/blob/0ae43dbf8cb28a299ae724fc742b0c5bcddea868/vllm/attention/ops/prefix_prefill.py#L36

[13]

thinking-machines-lab/batch-invariant-ops: https://github.com/thinking-machines-lab/batch_invariant_ops

[14]

研究人员所注意到的: https://fengyao.notion.site/off-policy-rl

[15]

Bigmath: https://arxiv.org/abs/2502.17387



👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

现在,Claude可以直接操作 iOS 的提醒事项了:

只需要直接告诉他对应的任务,他就会申请系统提醒事项的权限(首次使用时),并为你设定合适的日程。

看着很简单,对不对?

但我想说:从现在起,所有 todo 软件们都可以去死了。

——至少对我而言是这样。

以前我还会为了实践最佳 GTD 精神而用了好久的 OmniFocus,但后来我才体会到:最好的 GTD 应用,其实就是你真正会用的那个

只要你用、一直用,它就是你的最佳 GTD 应用。

所以我最后都直接用 iOS 的提醒事项了。

而现在,Claude 将先 Siri 一步,成为我的智能日程助理。

我还可以用它来提醒我别错过订机票:

不用说的多么准确,随性着说就好。

Claude 就会根据我的本地时间,设定合适的提醒时间点,并真正放到系统的提醒事项中去。

并且,买机票设置成为 high 的优先级——这事确实比买杯咖啡要重要得多啊。

属实细节了。

不像 ChatGPT 只是个应用内的消息提醒(push 通知):

豆包也一样:

元宝则说:对不起我还不会这个技能。

除了添加,Claude 还能查看:

管理(以删除为例):

早几年前,我还为了类似这样随性又智能的体验而开发过一款自用的 iOS app:

语音或文字输入非结构化的内容,通过简单的 NLP 模型 + 各种智能规则识别出对应的时间点,再设置好提醒。

怎么说呢,没有AI 辅助的代码写得是真辛苦,而效果也是真的一般。

也就我自用着还凑合,给人用确实不太行……

后来就没有后来了,改用其他软件去了……

而从现在起,我想我的 todo 软件就直接是 Claude 了。

什么 Toki 啥啥的,估计又都可以死了……

建议各位还是做点离模型远点儿的事吧,并在做之前,想清楚远的真实定义。

而至于这个功能是否是今天的新更新,我也不确定。上周应该还没有,或者,又是给 Max 用户的灰度功能?

总之,非常好用!

快去试试吧!


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。