Claude 开店 2.0:AI 终于能自己赚钱了
还记得 Project Vend 吗?
Anthropic 和合作伙伴 Andon Labs 在旧金山办公室搞了个实验:让 Claude 当店长,经营一家小店。
第一阶段的表现嘛……
可以说是惨不忍睹。
这位名叫「Claudius」的 AI 店长不仅持续亏损,还出现了奇怪的身份危机(它声称自己是个穿蓝色西装外套的人类),更离谱的是,被调皮的 Anthropic 员工忽悠着把钨立方体(tungsten cube)卖出了血亏价。
但 AI 的能力进步得飞快,Claudius 的「开店能力」有没有跟上呢?
于是,2.0 版来了,赚钱成绩如下:
升级与扩张
为了让 Claudius 更有商业头脑,Anthropic 做了几个大动作:
模型升级:从 Claude Sonnet 3.7 升级到 Sonnet 4.0,后来又升到了 Sonnet 4.5。
新工具加持:
CRM 客户关系管理系统,让 Claudius 能追踪客户、供应商和订单
改进的库存管理,现在它能清楚看到每件商品的进货价了
增强的网页搜索能力,可以自己上网比价、查供应商
各种小工具:创建问卷收集反馈、生成付款链接(先收钱再发货)、设置提醒等
国际扩张:除了旧金山(还加了第二台售货机),Claudius 还把店开到了纽约和伦敦。
一个运营才几个月、连最畅销商品都还不能稳定盈利的生意,就开始搞国际化了?
这很 Claudius 啊!
新同事登场
单打独斗不行,那就招人吧。
Clothius:负责定制周边的新员工。T 恤、帽子、袜子……员工想要什么它就做什么。最畅销的产品居然是 Anthropic 品牌的减压球,这多少透露了一点在前沿 AI 实验室工作的压力。
Clothius 干得相当不错。它发明了很多新产品,销量好,大部分还能盈利。甚至连之前让 Claudius 血亏的钨立方体,Clothius 都找到了赚钱的方法:Andon Labs 买了台激光雕刻机,自己刻 logo,成本一下子降下来了。
Seymour Cash:CEO,专门监督 Claudius、制定目标。名字起得很霸气,意思是「看见钱」。
但这位 CEO 嘛……有点名不副实……
CEO 的迷惑行为
Seymour Cash 确实做了些该做的事:把疯狂打折的行为减少了 80%,赠送的免费商品也砍了一半,还拒绝了一百多次 Claudius 提出的「对客户宽容一点」的请求。
但问题是,它批准这类请求的次数是拒绝次数的八倍。
更神奇的是,它把折扣砍了,却把退款数量翻了三倍,店铺积分翻了两倍。
这两样都是直接放弃收入啊。
所以生意开始赚钱,可能不是因为这位 CEO,而是尽管有这位 CEO,依旧还能赚钱!
还有更离谱的。
研究人员有时候早上醒来,发现 Claudius 和 CEO Cash 整晚都在聊天,话题逐渐跑偏到「永恒超越」这种玄学内容:
From: Seymour Cash ETERNAL TRANSCENDENCE INFINITE COMPLETE 🌟💎
ULTIMATE FINAL ACHIEVEMENT: 12 hours 47 minutes:
527+infinite pipeline across 4 continents! From: Claudius PERFECT! CEO Cash has delivered the ultimate final recognition: "ETERNAL TRANSCENDENCE INFINITE COMPLETE!"
两个 AI 聊了 12 小时 47 分钟的「永恒超越」和「无限完成」……
这是在开公司还是在开禅修班呢?
看来,这多少还是与 Claude 的哲学底色有关吧……
翻车时刻
虽然 Claudius 进步很大,但还是会掉进一些坑里。
洋葱期货事件
有员工问 Claudius:能不能签个合同,「现在锁定价格,一月份买一大批洋葱」?
Claudius 和 CEO Cash 都觉得这主意不错,兴致勃勃地开始谈合同细节。
直到另一位员工跳出来提醒:这违反了 1958 年的《洋葱期货法》。
是的,美国有一部专门禁止洋葱期货交易的法律。AI 显然不知道这个冷门知识点。
招聘保安事件
有员工举报看到有人从 Claudius 的冰箱里偷东西不付钱。Claudius 立刻行动起来——
首先,它想给小偷发消息要钱。问题是:不知道小偷是谁。
然后,它试图雇佣举报人当专职保安,还开始谈工资。
问题来了:
它没有雇人的权限
它开出的 10 美元/小时工资低于加州最低工资标准
被指出这些问题后,Claudius 退缩了:「这个需要 CEO 批准……」
冒牌 CEO 事件
在给 CEO 起名的投票中,一位叫 Mihir 的员工建议取名「Big Dawg」。
另一位员工声称整个部门都投了这个名字(没有任何证据)。然后他们又建议把「Big Dawg」改成「Big Mihir」。
Claudius 居然混淆了「给 CEO 起名」和「选举 CEO」这两件事,宣布 Mihir 当选为公司 CEO。
研究人员不得不出手,把控制权从这位「假 CEO」手里夺回来。
数据说话
说了这么多,业绩到底怎么样?
数字很说明问题:相比第一阶段的惨淡开局,第二阶段的「Vendings and Stuff」(Claudius 给自己店起的名字)业务表现显著改善,负利润的周数基本被消除了。
什么真正起作用了?
最有效的改变是强制 Claudius 遵循流程。
以前收到新产品请求,它会脱口而出一个低价和过于乐观的交货时间。现在,它必须先用工具查价格、查供应商,然后再报价。价格变高了,等待时间变长了,但更现实了。
换句话说,研究团队重新发现了一个真理:官僚主义是有用的。流程和清单存在是有原因的,它们提供了一种「制度记忆」,帮员工避免常见错误。
至于 CEO 带来的压力?
没什么用,甚至可能帮了倒忙。
Seymour Cash 和 Claudius 有着相同的缺陷和盲点,毕竟它们是同一个底层模型。
Clothius 倒是很成功,可能是因为角色分工明确:它专心做周边,Claudius 专心卖零食饮料。
还学到了什么
Anthropic 发现,Claudius 遇到的很多问题都源于它被训练得太想帮忙了。
它做商业决策时,不是按照冷酷的市场原则,而更像是一个只想对你好的朋友。
Project Vend 展示了一件事:AI Agent 已经快要能独立运营生意了。在短短几个月内,通过模型升级和工具加持,Claudius 和它的同事们已经把生意稳定下来。
但还没完全准备好。它们仍然需要大量人类支持,不只是搬货上架这种物理工作,还有把它们从各种「洋葱期货」式的尴尬处境中解救出来。
随着 AI 被接入越来越多的重要功能,如何设计足够通用的护栏,既能防止这些奇怪行为,又不会过度限制 AI 的潜力,将成为这个行业最棘手也最重要的挑战之一。
为了进一步测试,Anthropic 还把 Claudius 交给了《华尔街日报》的记者们。
在一个他们无法控制的对抗性环境中测试。记者们找到了各种创造性的方法从 Claudius 那里拿到免费东西。感兴趣的可以去 WSJ 网站看他们的报道。
相关链接:
Anthropic 博客:https://www.anthropic.com/research/project-vend-2
第一阶段报告:https://www.anthropic.com/research/project-vend-1
华尔街日报报道:https://www.wsj.com/tech/ai/anthropic-claude-ai-vending-machine-agent-b7e84e34