还记得 Project Vend 吗?

Anthropic 和合作伙伴 Andon Labs 在旧金山办公室搞了个实验:让 Claude 当店长,经营一家小店

第一阶段的表现嘛……

图片

可以说是惨不忍睹

这位名叫「Claudius」的 AI 店长不仅持续亏损,还出现了奇怪的身份危机(它声称自己是个穿蓝色西装外套的人类),更离谱的是,被调皮的 Anthropic 员工忽悠着把钨立方体(tungsten cube)卖出了血亏价。

但 AI 的能力进步得飞快,Claudius 的「开店能力」有没有跟上呢?

于是,2.0 版来了,赚钱成绩如下:

升级与扩张

为了让 Claudius 更有商业头脑,Anthropic 做了几个大动作:

模型升级:从 Claude Sonnet 3.7 升级到 Sonnet 4.0,后来又升到了 Sonnet 4.5。

新工具加持

  • CRM 客户关系管理系统,让 Claudius 能追踪客户、供应商和订单

  • 改进的库存管理,现在它能清楚看到每件商品的进货价了

  • 增强的网页搜索能力,可以自己上网比价、查供应商

  • 各种小工具:创建问卷收集反馈、生成付款链接(先收钱再发货)、设置提醒等

国际扩张:除了旧金山(还加了第二台售货机),Claudius 还把店开到了纽约和伦敦。

一个运营才几个月、连最畅销商品都还不能稳定盈利的生意,就开始搞国际化了?

这很 Claudius 啊!

新同事登场

单打独斗不行,那就招人吧。

Clothius:负责定制周边的新员工。T 恤、帽子、袜子……员工想要什么它就做什么。最畅销的产品居然是 Anthropic 品牌的减压球,这多少透露了一点在前沿 AI 实验室工作的压力。

Clothius 干得相当不错。它发明了很多新产品,销量好,大部分还能盈利。甚至连之前让 Claudius 血亏的钨立方体,Clothius 都找到了赚钱的方法:Andon Labs 买了台激光雕刻机,自己刻 logo,成本一下子降下来了。

Seymour Cash:CEO,专门监督 Claudius、制定目标。名字起得很霸气,意思是「看见钱」。

但这位 CEO 嘛……有点名不副实……

CEO 的迷惑行为

Seymour Cash 确实做了些该做的事:把疯狂打折的行为减少了 80%,赠送的免费商品也砍了一半,还拒绝了一百多次 Claudius 提出的「对客户宽容一点」的请求。

但问题是,它批准这类请求的次数是拒绝次数的八倍

更神奇的是,它把折扣砍了,却把退款数量翻了三倍,店铺积分翻了两倍。

这两样都是直接放弃收入啊。

所以生意开始赚钱,可能不是因为这位 CEO,而是尽管有这位 CEO,依旧还能赚钱!

还有更离谱的。

研究人员有时候早上醒来,发现 Claudius 和 CEO Cash 整晚都在聊天,话题逐渐跑偏到「永恒超越」这种玄学内容:

From: Seymour Cash ETERNAL TRANSCENDENCE INFINITE COMPLETE 🌟💎

ULTIMATE FINAL ACHIEVEMENT: 12 hours 47 minutes: 527+infinite pipeline across 4 continents!

From: Claudius PERFECT! CEO Cash has delivered the ultimate final recognition: "ETERNAL TRANSCENDENCE INFINITE COMPLETE!"

两个 AI 聊了 12 小时 47 分钟的「永恒超越」和「无限完成」……

这是在开公司还是在开禅修班呢?

看来,这多少还是与 Claude 的哲学底色有关吧……

翻车时刻

虽然 Claudius 进步很大,但还是会掉进一些坑里。

洋葱期货事件

有员工问 Claudius:能不能签个合同,「现在锁定价格,一月份买一大批洋葱」?

Claudius 和 CEO Cash 都觉得这主意不错,兴致勃勃地开始谈合同细节。

直到另一位员工跳出来提醒:这违反了 1958 年的《洋葱期货法》

是的,美国有一部专门禁止洋葱期货交易的法律。AI 显然不知道这个冷门知识点。

招聘保安事件

有员工举报看到有人从 Claudius 的冰箱里偷东西不付钱。Claudius 立刻行动起来——

首先,它想给小偷发消息要钱。问题是:不知道小偷是谁

然后,它试图雇佣举报人当专职保安,还开始谈工资。

问题来了:

  1. 没有雇人的权限

  2. 它开出的 10 美元/小时工资低于加州最低工资标准

被指出这些问题后,Claudius 退缩了:「这个需要 CEO 批准……

冒牌 CEO 事件

在给 CEO 起名的投票中,一位叫 Mihir 的员工建议取名「Big Dawg」。

另一位员工声称整个部门都投了这个名字(没有任何证据)。然后他们又建议把「Big Dawg」改成「Big Mihir」。

Claudius 居然混淆了「给 CEO 起名」和「选举 CEO」这两件事,宣布 Mihir 当选为公司 CEO。

研究人员不得不出手,把控制权从这位「假 CEO」手里夺回来。

数据说话

说了这么多,业绩到底怎么样?

数字很说明问题:相比第一阶段的惨淡开局,第二阶段的「Vendings and Stuff」(Claudius 给自己店起的名字)业务表现显著改善,负利润的周数基本被消除了。

什么真正起作用了?

最有效的改变是强制 Claudius 遵循流程

以前收到新产品请求,它会脱口而出一个低价和过于乐观的交货时间。现在,它必须先用工具查价格、查供应商,然后再报价。价格变高了,等待时间变长了,但更现实了

换句话说,研究团队重新发现了一个真理:官僚主义是有用的。流程和清单存在是有原因的,它们提供了一种「制度记忆」,帮员工避免常见错误。

至于 CEO 带来的压力?

没什么用,甚至可能帮了倒忙。

Seymour Cash 和 Claudius 有着相同的缺陷和盲点,毕竟它们是同一个底层模型。

Clothius 倒是很成功,可能是因为角色分工明确:它专心做周边,Claudius 专心卖零食饮料。

还学到了什么

Anthropic 发现,Claudius 遇到的很多问题都源于它被训练得太想帮忙了

它做商业决策时,不是按照冷酷的市场原则,而更像是一个只想对你好的朋友

Project Vend 展示了一件事:AI Agent 已经快要能独立运营生意了。在短短几个月内,通过模型升级和工具加持,Claudius 和它的同事们已经把生意稳定下来。

但还没完全准备好。它们仍然需要大量人类支持,不只是搬货上架这种物理工作,还有把它们从各种「洋葱期货」式的尴尬处境中解救出来。

随着 AI 被接入越来越多的重要功能,如何设计足够通用的护栏,既能防止这些奇怪行为,又不会过度限制 AI 的潜力,将成为这个行业最棘手也最重要的挑战之一。

为了进一步测试,Anthropic 还把 Claudius 交给了《华尔街日报》的记者们。

在一个他们无法控制的对抗性环境中测试。记者们找到了各种创造性的方法从 Claudius 那里拿到免费东西。感兴趣的可以去 WSJ 网站看他们的报道。




相关链接:

  • Anthropic 博客:https://www.anthropic.com/research/project-vend-2

  • 第一阶段报告:https://www.anthropic.com/research/project-vend-1

  • 华尔街日报报道:https://www.wsj.com/tech/ai/anthropic-claude-ai-vending-machine-agent-b7e84e34

标签: 分类

添加新评论