标签 分类 下的文章

Anthropic 正在把 Claude Code 内置到 Claude 手机 APP 中!

据 TestingCatalog News 最新爆料,Anthropic 正在准备将 Claude Code 功能集成到移动应用中。

很快,我们就能在手机上直接连接 GitHub,随时随地运行代码了。(好几个开源项目,可能又要没人用了

从曝光的界面来看,Claude App 的侧边栏已经出现了「Code」选项,与 Chats、Projects、Artifacts 并列:

点击进入后会显示「Code sessions will show up here」,底部有一个「New session」按钮:

当用户创建新的代码会话时,界面会出现那个可爱的像素小猪图标,配文「let's git together and code」:

下方的「Choose repository」界面表明,用户可以直接选择 GitHub 仓库进行操作,完整的 GitHub 集成即将到来。

而在通知设置中,还特别新增了「Code updates」选项,描述为「Get notified when Code sessions have updates」:

不难推测,Claude Code 将和 Codex 一样支持后台运行,当代码执行完成或有更新时会推送通知给用户。

这个小功能会很方便,参考我之前的 TUI Claude Code 小通知功能:让 Claude Code 在完事后,给你发条微信提醒

也就是说,今后我们将可以在地铁上调试代码、在咖啡馆里创建项目,甚至在马桶上解 bug 了……

思考题:

AI 到底是解放了我们,还是侵占了我们呢?

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。

现在,我们可以给 Claude Code 安装插件了!

Anthropic 刚刚宣布 Claude Code 支持插件系统,让开发者们可以用一条命令就能安装定制化的工具集合。

此次更新的负责人 Daisy Hollman(@The_Whole_Daisy) 兴奋地宣布:

这是我在 Claude Code 中领导的第一个重要功能,真的很期待看到大家怎么使用它!

什么是插件?

简单来说,插件就是把斜杠命令、智能体、MCP 服务器和钩子打包在一起的工具包。

以前你需要一个个配置这些扩展,现在,只需要一个 /plugin 命令就能搞定。

Product screenshot showing Claude Code plugin menu

这个系统支持四种扩展类型:

  • 斜杠命令:为常用操作创建快捷方式

  • 子智能体:安装专门用途的开发智能体

  • MCP 服务器:通过模型上下文协议连接工具和数据源

  • 钩子:在关键工作流节点自定义 Claude Code 的行为

考虑周到的是,这些插件可以按需开关

也就是说,你可以疯狂装上一堆,然后在需要特定功能时打开对应插件,不需要时关闭,减少系统提示词的复杂度和插件之间的冲突。

对此,Reply guy 😐(@GolerGkA) 称:不知为何,我对这个比最近 OpenAI 的任何公告都更兴奋。

The vibecoder(@gen_ai_help) 也是大赞:哇!我喜欢这个胜过 Open AI 的新闻!

社区驱动

Daisy 透露,Claude Code 团队每隔几天就会在 Slack 频道里分享社区创造的精彩配置,然后就是一片 🤯 和 🎉 表情。

当我们推出自定义斜杠命令时,互联网上就开始出现精心策划的命令集合。随后的钩子和自定义智能体更是火上浇油。

现在有了插件系统,这些分享变得前所未有的简单。

如何使用

使用插件非常简单,只需要几个命令:

添加插件市场

/plugin marketplace add owner/repo

浏览和安装插件

/plugin

你会看到一个交互式菜单,显示所有可用的插件。按空格键开关插件,按 u 更新,按 Delete 卸载。

直接安装特定插件

/plugin install plugin-name@marketplace-name


已有插件展示

Kieran Klaassen(@kieranklaassen) 分享了 Every 市场的「复利工程」插件:

https://github.com/EveryInc/every-marketplace

这个插件包含了代码审查、自动化测试、PR 管理、文档维护等功能,遵循「让每个工程单元都让后续工作更容易」的理念。

Anand Tyagi(@ananddtyagi) 也创建了自己的市场:

https://github.com/ananddtyagi/claude-code-marketplace

他的市场已经包含 32 个命令,涵盖 10 个类别,有 17 位贡献者参与,包括 Lyra 提示词优化专家、代码库分析、代码审查等热门插件。


使用场景

Anthropic 列出了插件的主要使用场景:

强制标准:工程负责人可以通过插件确保团队使用特定的代码审查或测试工作流

支持用户:开源维护者可以提供斜杠命令帮助开发者正确使用他们的包

分享工作流:开发者可以轻松分享调试设置、部署管道或测试框架

连接工具:团队可以通过 MCP 服务器连接内部工具和数据源

打包定制:框架作者或技术负责人可以为特定用例打包多个定制功能

团队配置

企业还可以在 .claude/settings.json 中配置自动安装的市场:

{  "extraKnownMarketplaces": {    "team-tools": {      "source": {        "source": "github",        "repo": "your-org/claude-plugins"      }    }  }}

当团队成员信任仓库文件夹时,Claude Code 会自动安装这些市场和指定的插件。

创建自己的插件

创建插件只需要在项目中添加一个 plugin.json 文件,定义你的扩展组件:

{  "name": "my-awesome-plugin",  "description": "让开发更高效的工具集",  "version": "1.0.0",  "commands": "./commands/",  "agents": "./agents/",  "hooks": {    "PostToolUse": [      {        "matcher": "Write|Edit",        "hooks": [{"type": "command", "command": "./scripts/validate.sh"}]      }    ]  },  "mcpServers": {    "my-server": {      "command": "./servers/my-server",      "args": ["--config", "./config.json"]    }  }}

插件市场

任何人都可以创建和托管插件,甚至建立自己的插件市场。

创建市场

在你的仓库中创建 .claude-plugin/marketplace.json 文件:

{  "name""company-tools",  "owner": {    "name""DevTools Team",    "email""[email protected]"  },  "plugins": [    {      "name""code-formatter",      "source""./plugins/formatter",      "description""代码自动格式化",      "version""2.1.0"    },    {      "name""deployment-tools",      "source": {        "source""github",        "repo""company/deploy-plugin"      },      "description""部署自动化工具"    }  ]}

分发市场

最简单的方式是通过 GitHub:

  1. 创建一个仓库

  2. 添加 .claude-plugin/marketplace.json 文件

  3. 团队成员使用 /plugin marketplace add owner/repo 添加

你也可以使用其他 git 服务,或者本地开发测试:

# 本地测试/plugin marketplace add ./my-local-marketplace
# GitLab/plugin marketplace add https://gitlab.com/company/plugins.git


未来规划

Kevin(@Kevin70143227) 提出建议,希望支持 CLAUDE.md 文件来加载用户定义的指令集。

<<< 左右滑动见更多 >>>

对此,Daisy 神秘地回应:

这个……快了。我不能说太多,但简单来说,我们有个更好的版本即将推出,只是没赶上这次发布。敬请期待!

当被问到是否会将所有扩展都纳入插件框架时,SCOTT(@scottinallcaps) 得到的暗示是这个方向很有道理。

而 Thariq(@trq212) 也确认团队正在开发输出样式功能,让插件不仅限于编码领域。

Svenn ⚡️(@svennpetter) 则更是提出了一个商业化的建议:支持插件货币化会很酷!

网友 Eric Buess(@EricBuess) 表示:这是发布功能和培育社区的正确方式。准备用这个做一些有趣的东西!等不及在 Agent SDK 中看到它了!🔥

现在,插件功能已经对所有 Claude Code 用户开放公测,快去试一下 /plugin 命令安装吧,终端和 VS Code 等 IDE 插件中都可以使用。

回看当年在 npm 出现后,JavaScript 生态系统瞬间爆发。现在,Claude Code 的插件系统也在做同样的事——

插件功能或许将成为 Claude Code 生态系统的一次重要进化。




[1]

官方文档: https://www.anthropic.com/news/claude-code-plugins

[2]

构建插件: https://docs.claude.com/en/docs/claude-code/plugins

[3]

发布市场: https://docs.claude.com/en/docs/claude-code/plugin-marketplaces

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。


    

Codex 用户终于等来了「加餐」!

OpenAI Developers 刚刚宣布了一个让开发者们激动的消息:Codex 推出了积分制度,还把所有人的速率限制全部重置了。

简单来说就是:你可以花钱买更多使用量了

积分系统上线

OpenAI 终于听到了用户的呼声,推出了更灵活的使用方式。ChatGPT Plus 和 Pro 用户现在可以购买积分来获得额外的 Codex 使用量。

具体怎么玩?

每 1000 积分售价 40 美元。

这些积分会在你用完订阅套餐包含的额度后自动启用。

购买地址就在 Codex 使用情况仪表板:

https://chatgpt.com/codex/settings/usage

值得注意的是,Codex 会优先消耗你套餐内的额度,只有当套餐额度用完后,才会开始消耗购买的积分。

云端任务纳入计费

OpenAI 还明确了一个重要变化:从今天开始,Codex 云端任务将计入你的速率限制

这个改动其实早就预告过了,现在正式生效。

详细的定价和积分使用说明可以在这里查看:

https://help.openai.com/en/articles/12642688

两极反应

消息一出,社区里的反应相当有意思。

andyrewlee(@andyrewlee) 兴奋地表示今天是个好日子:

今天是个好日子

几天没用 Codex 的我全是 100%:

Michael Morales(@RvrsRnr) 直接欢呼:

耶耶耶耶耶

但也有用户开始算账了。Alex Vaystikh(@bornio) 疑惑地问:

你们是不是减少了 Pro 用户的套餐内积分?感觉消耗得更快了

大家真正想要的

用户们的诉求其实很明确。

Jaden Kornfield(@JadenKornfield) 提出了一个关键需求:

我们能否在 Codex 中使用 GPT-5-Pro?拜托了🙏

Austin Miller(@AustinMiller133) 也在呼吁同样的事:

请让我们在 Codex 中使用 Pro!

Twin(@singletwinz) 用一个动图形象地描述了用尽 Codex 额度时的感受:

当我 Codex 使用量达到 100% 时的感受

Kevin(@TheOneKev) 晒出了自己被重置后的使用情况截图,满心欢喜:

感谢重置☺️☺️☺️

重点:积分会过期

一个让用户不太满意的点是:积分会过期

Based Frog(@NovaGalPulse) 直言不讳:

这就是糟糕的商业模式

sheilfer(@sheilfer) 也吐槽自己的经历:

我的 API 积分就是这样被坑的

我自己也深有感受……是刚推出 ChatGPT 之后怒充了 500 是过期的。

Twidi / Stéphane Angel(@twidi) 更是直接开炮:

付费积分过期这个概念,不管是在 OpenAI 还是其他地方,在我看来都是诈骗

细节澄清

关于积分计算方式,Will Wang(@will_wang_97) 解释了一个重要区别:

最重要的是用户在两种环境中的交互方式不同。本地消息往往更短、更对话式。而云端消息运行时间更长,开发者会用详细的提示词进行大量一次性操作

Respect(@rrespectorr) 也在帮助澄清积分消耗的计算方式:

我很确定消息就是提示词,OpenAI 说的是平均每条消息消耗 5 个积分,具体取决于执行的步骤数

Windows 用户

Ethan Reedy(@EthanReedy6) 提出了一个很多人关心的问题:

什么时候能在 Windows 的 VS Code 中原生使用 Codex IDE,而不需要 WSL?

实用建议

Coding Workflow(@CodingWorkflow) 给出了一个省钱小技巧:

用两个账户还是更便宜

Alex Colon(@CEOAlexColon) 则期待更高级的选项:

我们想要 100 美元的套餐

William Nurmi(@NurmiWilliam) 问了一个很实际的问题:

200 美元能买多少个 ChatGPT Pro 的 5 小时速率限制时段?

Claude Code 急了

值得一提的是,另一边的 Claude Code 则一直在各种不明不白的调整速度,极为不公开不公平。

不过显然看着用户们跑路也是有些急了,甚至为了挽回被自己作死而 OpenAI 抢走的用户,还请邮件白送 Max 会员:

许多用户都收到了 Claude 的邮件,看来是真的急了:

网友图拉鼎(@tualatrix) 也分享了自己的经历:

快两个月没用 Claude 了,昨天收到一封 Claude 的邮件给我说可以免费体验一个月的「Max 5x subscription」。我没有在意,今天又来提醒我了。既然送上门来就不错过了,于是成为了一个月的 Max 用户。我猜测 Claude 可能发觉 Codex 抢了它很多用户,于是开始挽回老用户了

相比之下,我似乎成了个傻子,每月都要给它付个 200$ ……

这都多少个 40$ 了!

或许,是时候假装使出一招老子要走了……

就是不知道管不管用

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!

也欢迎加群和10000+群友交流。

我有个去年就完成了 90% 却一直没有上线小工具,并在国庆期间突击了两天将进度提到 99% 后,还差 1% 就终于要上线了。

稍微预告一下,这仍然是我作为第一用户的一个小工具,一句话介绍就是:基于 LLM 的个性化实时快讯。

它和我现在的 AI 实时快讯有两个不同点:一是每个人看到的和其他人将不再相同——可以自定义 prompt 来进行内容筛选,二是不限于 AI 领域,可以是其他任何领域(比如美股、区块链等)的实时快讯。

当然,因为确实有成本所以需要付费(仅适用于这事对你而言很有价值愿意花点成本的人)。免费倒也能用,但只能监控比如 Sam Altman 或者马斯克干啥说啥,或者最新的模型发布等等有限的通用快讯。

不过,今天的重点并不是这个工具(需要提前试用工具的请评论区加群),而是我在开发登录功能时碰到的一个问题:

在微信里用 Google 的 OAuth 登录,是会登录失败的。

我查了查 Google 的官方文档,并且 AI 也给我做了简单结论:

为了安全考虑,从 2021 年 9 月 30 日开始,Google 官方政策禁止在嵌入式 WebView 中进行 OAuth 登录。

我有点不信邪:不是吧?那不是无数产品都在三方 APP 里无法登录不了?

于是我又找了一堆使用 Google 进行 OAuth 登录的相对知名点的产品,看它们在微信中、X 中、邮箱工具中是否能成功登录,结果——

居然,统统无法登录。

我试了的产品名单有:

  1. producthunt

  2. refly

  3. tidyread

  4. youware

  5. liblib.ai

  6. lovart.ai

  7. builder.io

  8. loomi

  9. youmind

  10. excalidraw

  11. mulerun

  12. hitemed

  13. cursor

  14. factory

排名不分先后,顺序上是我在一支烟花的微信群里搜索 HTTPS 出来的域名的顺序。当然,其中不乏融资无数的风口的猪。

并且,我也都一一手动作了截图(对习惯了用 AI 偷懒的我来说,这真是个体力活),如下:

<<< 左右滑动见更多 >>>

我想,这个问题究竟是没法解决,还是并不重要呢?

为什么这么个明晃晃的问题,却没有人去解决呢?

好比微信公众号明晃晃地判我抄袭的事公众号抄袭,原因是什么?(乱入自揭伤疤了属实是),多简单直观的问题,但它就这么判了,并且微信官方还用了抄袭我的文章……(因为这事,我都想停更一阵子了,比如昨天也不更了

而为什么几乎所有的公司在这个细节上,不但没能成功登录,并且都拥有如此糟糕的体验呢?

毕竟,Google 这也不是昨天才刚加的限制啊!

虽然你也可以硬甩锅给谷歌,但明明都不能登录了,那要么可以隐藏掉谷歌的登录入口,要么就提示用户到浏览器打开,要么,就研究一下更好的方案啊!

刚碰到这个问题的时候,我都有点一脸懵逼:我还想哪里出 bug 了呢?是不是我哪里没配置对?但后来发现浏览器里其实没问题能登录,再一查才知道这是谷歌为了安全做的限制。

但是,这么多创业产品、大公司的产品,难道就没有用户反馈过这个问题吗……或者是收到反馈后就石沉大海低优搁置了?

当然,你可以说微信不是你一个重要的场景,那么在 X 里面,YouTube 里面,Facebook 里面,总还是有场景、要传播吧?

毕竟上面的很多产品,其实都还是有传播属性和需求的。

总之,这齐刷刷的糟糕体验,我是有点不太能理解……这或许又和微信公众号平台判定谁抄谁一样,巨难无比,很难搞定?

但无论如何,明知 Google 登录不了,还让用户走 Google 登录然后走到这懵逼的一步,显然可以算是是个 bug 了吧?

当然,我还是决定硬刚一把——

你们不重视,我还是要重视啊!

你们解决不了,不代表我解决不了啊(实际上,我用嘴就可以解决

我没有选择禁掉 Google 登录的入口或是提示用户去浏览器打开,毕竟这虽然是个办法,但它是一个没办法的方法,属于是掩耳盗铃的方法

它背后对应的是用户有更多的交互成本:

用户每跳转到浏览器里打开一次,浏览器(比我的 iPhone 上的 Safari)里就会多一个 tab,要是不及时关掉,最后要全是这些跳转而来的 tab 了。

以及,下次再在同一个容器 APP 里点开,还要再跳走,成本了高很多很多。

而成本高了,自然就有人不想用了。

讲真,我真没有过多思考,几乎是条件反射式地就想到了一个我觉得并不难很简单的方案,并直接用语音给 Claude Code 输入了任务:

(因为还没上线,就先码了)

当然,那几个被 @ 的文件,不是用语音输入的,是我在语音输入后手动校正了一下的补上的。

(语音输入时能 @ 文件,对我还真是个需求,不过我就不做这个了……哪位大佬有空有兴趣了还请做一个给程序员们造福)

然后,就真的是一把过,没有任何 bug,就完直接完成了。

完美符合预期!

(后来我还要求不要仅限微信,其他非原生浏览器的都要走这个逻辑)

也就是说,我用一分钟的语音输入,加上 Claude Code 不到五分钟的工作,就完成了无数家公司没有去解决的问题……

当然,也完全符合谷歌的安全规范。

好了,这个提示词就送风口的猪们了,拿走不谢。

不过,这只是一个很小的不太起眼的问题罢了,我其实也是想借这个 case,来说说 AI 编程的一点观点,并分享出来。

在我看来,我们用 AI 来编程的诀窍,其实也不外乎和开发 Claude Code 这样的 Coding Agent 一样,要点都在 "context engineering" 上:

我们需要为 AI 提供足够却又最少的信息。

其实之前的文章就讲得很好了,如果没看的可以深入去看一下:Anthropic 发布 AI Agent 上下文工程指南

虽然这篇文章主要还是讲如何去开发一个 Claude Code 这样的 agent,但其实我们在使用 Claude Code 来编程时,也是同样的道理:

我们需要给 AI 提供它不知道的信息,并且能多明确就多明确;对于有多种方案且不知道 AI 会怎么选、且并不是每种选择都会 OK 的,也需要 AI 明确地指出方案。

用文中的话来说就是:找到最小可能的高信号提示词集,以最大化某些期望结果的可能性。

比如:用什么技术栈、什么包、什么思路、什么样的表结构…… 等等,这都是我会主动给 AI 去讲的部分,因为我对 AI 不是很有信心。

而如果 AI 明确就知道的,那就简略一些,没必要浪费口舌去多说废话了。

以及给 AI 的指令里,一定要逻辑清晰、一致,不要有任何的冲突和矛盾。

并要学习预判好哪些是 AI 不知道的、容易犯错的,哪些是不用提供、AI 自己就知道的。

而这,也是在我看来,积极拥抱 AI Coding 的传统程序员们,将会有极大的优势。

虽然在使用 AI 编程这些事情上,大家都是同一起跑线,但与初级程序员们相比,他们有经历过更多的大型项目的高并发线上故障的捶打,和踩过的无数坑的经验积累,这是初级程度员们不太具备的,也是目前 AI 不太能擅长的。

AI 擅长的和不需要抽卡就能稳定解决的,目前而言还是偏平均值的东西,即常见的任务和问题。

所以我的建议是,如果你是传统程序员,且还没有大量使用 AI(比如 90% 的 AI 代码率),那快用起来吧!

而如果你是刚刚入行的初级程序员,那一定不要局限在 vibe coding 上并怡然自得,多掌握一些其他 vibe coder 们不太具备的问题解决能力,就能比其他人多更多的机会。

比如除了用 AI 来 vibe coding ,还要多做非 vibe 的事,比如认真 review,从 AI 那里去其糟粕,取其精华。

好比这个 Google 登录的问题,如果只是给 AI 简单说一句:

请解决在微信中的 Google 登录问题。

那我相信,很可能抽卡多次也不会得到一个很好的结果。

而如果用我的提示词,即使不用 Claude Code,用国内随意的一个开源模型,我相信,也能得到不错的结果。 

好了,今天就说到这里,该洗洗睡了。

并且,以上只是此刻的观点,自然也会随着 AI 能力的改变而变化,甚至变成废话。未必都对了,仅供参考。

需要 AI Coding 交流的,可以在评论区加群。

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

也欢迎加群和7000+群友交流。


Andrej Karpathy 又放大招了!


他刚刚发布了一个名为 nanochat 项目,用 8000 行代码实现了 ChatGPT 的完整训练流程。

在一个 8xH100 节点上跑 4 小时,花费约 100 美元,你就能拥有一个能对话、写故事、答题的 AI 助手。

这个项目延续了 nanoGPT 的极简哲学,但覆盖范围更广——

从 tokenizer 训练到强化学习,从预训练到 Web UI,全部包含在一个干净、依赖最少的代码库中。

快速开始

感受 nanochat 的魔力的最快方式是运行 speedrun 脚本:

# 克隆项目git clone [email protected]:karpathy/nanochat.gitcd nanochat
# 在 screen 会话中启动训练(记录日志)screen -L -Logfile speedrun.log -S speedrun bash speedrun.sh

4 小时后,你就能通过 Web UI 与你的 LLM 对话了:

python -m scripts.chat_web

访问显示的 URL(比如 Lambda 上是 http://209.20.xxx.xxx:8000/),就能像使用 ChatGPT 一样与你的模型聊天。

技术架构

整个训练流程包含以下关键步骤:

Tokenizer 训练

Karpathy 用 Rust 重新实现了 tokenizer,因为 Python 版本太慢,HuggingFace 的又太臃肿。

训练使用 65,536 个词汇(2^16),在 20 亿字符上只需 1 分钟:

# 构建 Rust tokenizeruv run maturin develop --release --manifest-path rustbpe/Cargo.toml
# 训练 tokenizerpython -m scripts.tok_train --max_chars=2000000000python -m scripts.tok_eval

压缩比达到 4.8,比 GPT-2 的 tokenizer 表现更好,甚至在某些方面接近 GPT-4 的水平。

预训练

预训练阶段训练一个 20 层的 Transformer,约 5.6 亿参数:

torchrun --standalone --nproc_per_node=8 -m scripts.base_train -- --depth=20

模型配置自动生成:

  • 1280 维度,10 个注意力头

  • 每步处理 524,288 个 token

  • 遵循 Chinchilla 缩放定律:5.6 亿参数 × 20 = 112 亿 token

  • 总计算量:~4e19 FLOPs

训练过程中,学习率会自动缩放(1/√dim),使用 Muon 优化矩阵参数,AdamW 优化嵌入层。

中间训练

中间训练让模型适应对话格式,学会多选题和工具使用:

train_dataset = TaskMixture([    SmolTalk(split="train"),        # 460K 对话    MMLU(subset="auxiliary_train"),  # 100K 多选题    GSM8K(subset="main"),            # 8K 数学题(教工具使用)])  # 总计:568K 行

对话格式遵循 OpenAI 的 Harmony 格式:

<|bos|><|user_start|>What is the color of the sky?<|user_end|><|assistant_start|>Red. Wait, possibly blue. I'm not sure.<|assistant_end|>

评估体系

项目包含完整的评估框架:

torchrun --standalone --nproc_per_node=8 -m scripts.chat_eval -- -i mid

评估结果会包含多个维度:

  • 世界知识:ARC-E/C、MMLU(多选题,随机基线 25%)

  • 数学能力:GSM8K(小学数学题,基线 0%)

  • 编程能力:HumanEval(Python 编程,基线 0%)

  • ChatCORE:综合指标,去除基线后的平均分

成本与性能

100 美元版(4 小时)

# 默认配置,depth=20bash speedrun.sh
  • CORE:0.2219(接近 GPT-2 Large)

  • MMLU:31%

  • GSM8K:4.5%

  • 能写故事、回答简单问题

300 美元版(12 小时)

# depth=26,需要调整批次大小torchrun --standalone --nproc_per_node=8 -m scripts.base_train -- \    --depth=26 --device_batch_size=16
  • 性能超过 GPT-2(CORE > 0.25)

  • 更连贯的对话能力

1000 美元版(41.6 小时)

# depth=30,进一步减小批次torchrun --standalone --nproc_per_node=8 -m scripts.base_train -- \    --depth=30 --device_batch_size=8
  • MMLU:40+ 分

  • ARC-Easy:70+ 分

  • 计算量相当于 GPT-3 Small 的 1/1000

强化学习

项目实现了简化版 GRPO 算法,专门针对 GSM8K 数学题:

torchrun --standalone --nproc_per_node=8 -m scripts.chat_rltorchrun --standalone --nproc_per_node=8 -m scripts.chat_eval -- -i rl -a GSM8K

RL 训练抛弃了很多复杂机制:

  • 无信任区域(去掉参考模型和 KL 正则化)

  • on-policy(去掉 PPO 的 ratio+clip)

  • GAPO 风格标准化(token 级别)

  • 简单奖励偏移(去掉 z-score 标准化)

虽然简化,但效果明显:GSM8K 从 4.5% 提升到 7.6%。

推理引擎

项目包含自定义的 Engine 类,实现了高效推理:

  • KV 缓存

  • prefill/decode 两阶段推理

  • Python 解释器工具调用(轻量级沙箱)

  • CLI 和 Web UI 接口

代码组织

整个项目结构大致如下:

- 8,304 行代码- 44 个文件- 2,004 行依赖(uv.lock)- 约 83,497 个 token

每个脚本都有明确职责:

  • tok_train.py:训练 tokenizer

  • base_train.py:预训练

  • mid_train.py:中间训练

  • chat_sft.py:监督微调

  • chat_rl.py:强化学习

  • chat_web.py:Web 服务

不同硬件适配

代码设计考虑了各种计算环境:

单 GPU:去掉 torchrun,结果几乎相同,时间延长 8 倍

显存不足:调整 --device_batch_size

# 从默认的 32 逐步降低--device_batch_size=16  # 40GB VRAM--device_batch_size=8   # 20GB VRAM--device_batch_size=4   # 10GB VRAM

A100 节点:代码完全兼容,速度稍慢

社区反响

Chinmay Kak (@ChinmayKak) 分享了他的 nanosft 项目,一个单文件的微调实现:

正准备做一系列 repo,现在找到了对比基准

Plamen (@pvkdeveloper) 关心许可证:

README 里说是 MIT 许可,会保持这样吗?

zenitsu_apprentice (@zenitsu_aprntc) 好奇代码来源:

有多少代码是手写的?

Kacper Łukawski (@LukawskiKacper) 询问技术细节:

你是否实验过不同的 tokenization 算法?tokenizer 的选择对整体性能有多重要?

未来方向

Karpathy 强调,nanochat 远未完成。这是一个「强基线」代码库,设计目标是:

  • 最大可 fork 性

  • 认知复杂度最低

  • 没有巨型配置对象

  • 没有模型工厂

  • 没有 if-then-else 怪物

你可以调整任何部分:tokenizer、数据、超参数、优化算法。通过简单调整 --depth 参数,就能训练出整个模型系列。

项目采用 MIT 许可证开源。

Karpathy 在致谢中提到的,这个项目受到了 nanoGPT 和 modded-nanoGPT 的启发,并得到了 HuggingFace(数据集)、Lambda(计算资源)和 Alec Radford(技术指导)的支持。





    [1]

    GitHub 仓库: https://github.com/karpathy/nanochat

    [2]

    详细技术讨论: https://github.com/karpathy/nanochat/discussions/1

    [3]

    Discord 频道: https://discord.gg/3zy8kqD9Cp


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和7000+群友交流。


    开源 AI 的天下,变了!

    去年 7 月,LMArena 开源模型榜单上,前四名都还是清一色的美企GoogleNvidiaMetaCohere

    而仅仅短短一年后的今天,形势就已彻底反转。

    现在的前五,全都被中国大模型占领

    智谱的 Z.ai 拿下榜首,阿里巴巴紧随其后,DeepSeek 位列第三,Moonshot AI(kimi 母公司)和美团 AI 分列四五。

    这里多说一嘴这个 LMArena:

    LMArena 可以说是目前 AI 业内公认最为权威的模型评测平台,由伯克利研究团队运营。

    它的独特之处在于采用盲测机制,也就是让用户在完全不知道模型身份的情况下,对比两个 AI 的回答质量,然后投票选出更好的那个。

    这种方式可以完全避免品牌偏见和打钱营销的噱头干扰,因为没有预设立场,没有刷榜空间,全是靠真实的用户在拿到模型结果后,用结果来说话

    也是因为如此,LMArena 的排名被业界视为 AI 模型实力评估的金标准。OpenAI、Anthropic、Google 等几乎所有 AI 模型厂商都会密切关注自家模型在榜单上的表现。

    值得一提的是,此前出爆被 LlaMa 4 在小扎 KPI 的 push 下钻了漏洞后,LMArena 也是及时采取了多项改进措施,比如提交的模型必须与公开版本一致公开了对战记录供公众审查等等。

    虽不能说绝对意义上的 0 水分,但可以说 LMArena 是目前可信度最高的评测平台之一了。

    当然,说之一而不是唯一,是因为还有另一个同样较为可靠的榜单:OpenRouter 的模型使用榜单(由开发者真刀真枪花钱来用的排行榜,也是 Andrew Karpathy 力荐的榜单):

    榜单中除了Kimi,GLM-4.6美团龙猫DeepSeek V3.2 ExpQwen 3 也都纷纷现身 trending 榜首(Claude Sonnet 4.5 为闭源模型),也基本与 LMArena 排名一致。

    以及,还可以看 HuggingFace 的 Trending 榜:

    智谱登顶

    先来说说在这场开源逆袭中最为惊艳、且目前排在榜首的智谱的 GLM-4.6 模型。

    GLM-4.6 是智谱在国庆期间发布的最新旗舰模型,整体性能上超越了在其前一天发布的 DeepSeek-V3.2-Exp,并无限对齐 Claude Sonnet 4,甚至在部分指标上超过了 Claude Sonnet 4.5,见:GLM-4.6 来了,与 Claude 4.5 仅差一点点

    4.5 和 4.6 本来也就,只差 0.1 点点

    要知道,Claude 4.5 可是目前闭源模型的天花板啊!

    而同时,GLM-4.6 也一举成为了国内最好的 Coding 模型,受到全球网友和开发者们的追捧:

    就单说我的 Claude CodeX 编程交流群里,国庆以来 GLM-4.6 的讨论也显然密集了许多,现在也几乎成了每天都躲不掉的话题:

    先前各种想办法去用中转站的朋友们,不少都转向了 GLM-4.6 的订阅包,从大家的反馈上基本都是:「GLM-4.6 已经无限接近 Claude 4.5 了。

    而在另一边打助攻的,则是 Claude Code 在降智后开始不断缩水用量,以及原本还能一战的 OpenAI Codex 也像是因为 SORA 2 太烧 GPU 而间歇性降智,相比而言智谱的包月套餐简直是朴实的奢华、大雪中送炭了。

    图片

    从套餐价格及模型能力上看,可以说:现在我们可以用 1/7 的价格,买到 Claude Sonnet 4 / 4.5 九成的智商。

    不得不说,价格方面咱中国公司是真的给卷到地板价了,有点离谱:Claude Max 一个月的钱,几乎快能够我订阅 GLM Max 一整年……

    而说到模型订阅,我自己一直都是 Claude Code 的 200$ Max 会员 + ChatGPT 20$ 的 plus 会员,但由于最近这两坑货的各种迷惑行为,我也果断开了个 GLM 会员。

    我最近的日常使用上,重要任务(比如需要持续迭代的大项目)还是会优先官方 Claude Code(毕竟确实还是略强一点,且我花了那么多的钱),刁钻一些难解决的 bug 则会尝试用 Codex(不都好使,但偶有奇效),而其他写个小脚本啥的任务我则几乎都切到 cc + GLM-4.6 了。

    毕竟时代变了,那个对 Max 账号不限速的Claude Code 已经回不去了……而 GLM-4.6 也是这么又顶又便宜。

    中国军团崛起

    除了占据开源榜首的智谱外,阿里巴巴的 Qwen 则稳居开源模型第二,《华盛顿邮报》 的分析指出,智谱、阿里等中国公司的开源模型在 LMArena 盲测中的评分已经大幅超过了 OpenAI 和 Meta。

    分析指出,中国模型公司 DeepSeek 在今年 1 月震撼了整个全球科技界:在 Hugging Face 平台上,DeepSeek 获得了 12.8k 个赞,是 Meta Llama 顶级模型(6.3k)的两倍,OpenAI 只排在第五位(4.0k)。

    Moonshot AI 和美团 AI 则紧随其后也上了榜,在美国网友们看来则是:连家排名第五的外卖公司都打不过

    Hugging Face 首席政策官 Irene Solaiman 评价说,中国公司 「发布频繁,质量优秀」,这正是建立用户基础的关键。

    免费的降维打击

    Rushabh Shah(@Rushabh_Shah777) 指出:

    中国人正在构建最受欢迎的免费 AI,而大多数西方 AI 工具都在向你收费。创新不会等待监管、利润或炒作。免费访问 ≠ 免费质量。但中国刚刚证明了它可以两者兼得。

    pirate philosophy(@essenciverse) 则分析称:

    你不觉得吗,中国只是想通过开源将 AI 成本降到「零」,然后在机器人/能源上作为下一个有价值的东西进行资本化?

    这或许,也正是中国 AI 策略的关键之处:

    通过开源和低价,快速占领市场,培养用户习惯,然后在应用层面收割价值。

    就像 Google 的 Android 系统一样,通过免费开源占领了全球智能手机市场,然后通过搜索、邮件等服务获利。

    而此时,中国的 AI 公司正在疯狂复制这个成功模式。

    甚至,不仅仅是文本,图像和视频也在遵循同样的趋势。

    Solaiman 指出,中国竞争对手不仅更加高产,在其他用途的 AI 方面也极具竞争力,发布了生成图像和视频的最先进开源软件

    而美国自己,也意识到了这个问题。

    Trump 政府的 AI 战略敦促开发基于「美国价值观」的开放 AI 技术,希望它们成为具有「地缘战略价值」的全球标准。

    一些美国高管、投资者和学者甚至发起了 ATOM 项目(American Truly Open Models),目标是创建一个美国 AI 实验室,开发能与世界最佳模型竞争的开源 AI。

    但是呢,现实很骨感。

    Meta 的 Zuckerberg 去年还在高喊要分享最好的模型和研究,今年不知咋想的就又改口了:公司需要「谨慎选择开源什么」,Meta 可能会把下一个模型留给自己,甚至 LeCun 的论文都不能随便发了得先过一下内审。

    虽然 Anthropic 的 Claude 4.5、OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro 等最强的闭源模型仍然掌握在美国手中,但中国开源模型正在无限接近这个天花板。

    有点滑稽的是,当美国模型公司们还在反复纠结调整如何定价、怎么各种限制使用量、怎么借“智能”的理由偷偷进行模型路由时,中国模型已经用开源 + 极致的性价比迅速拿下全球用户的心。

    就拿智谱 GLM 来说,最低 20 元包月畅玩套餐,就能立享体验几乎全球最强的 Coding 模型!

    这,也就一杯奶茶的价格啊!

    好了,快来扫我的码,你我都会被白送 token:


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎进 Claude CodeX 交流群交流(见评论区)。

    刚刚,Google 发布了 Veo 3.1.

    全面进化

    相比于 OpenAI Sora 1 到 Sora 2 的大版本号提升,Google DeepMind 团队这次带来的 Veo 3.1 的小版本版本迭代,则是低调并彻底地重新定义了 AI 视频生成的天花板

    新版本中,让人最为亮眼的是对叙事的深度理解,它能准确捕捉你想要讲述的故事,生成的纹理质感更加真实,图像转视频的能力也得到了显著提升。

    更重要的是,几乎所有功能都加入了音频生成。视频生成,再也不是「默片」了。

    四大核心能力

    多素材融合

    Veo 3.1 的「Ingredients to Video」功能让人印象深刻。

    你可以提供多张包含不同人物和物体的参考图片,Veo 会将这些元素智能整合到一个完整的场景中,自然,也是自带音效

    我们不再需要再为了一个场景去找完美匹配的素材,只要把想要的元素丢给它,Veo 就能组装出一个有声有色的完整场景。

    场景延展

    「Scene Extension」功能可以创建超过一分钟的连续视频片段,继续原始镜头的动作。

    每个生成的视频都基于前一个片段的最后一秒来保持故事的连续性,背景和人物都能保持一致。

    这解决了“连贯性”这个 AI 视频生成中最为头疼的问题(之一)。

    首尾帧

    只需给出第一帧和最后一帧,Veo 就能生成中间的完整过渡动画。

    Google 把这个功能叫做「From A to B」,特别适合创建史诗级的转场效果。

    定义好开始和结束的画面,中间的魔法,交给 Veo 3.1 就好。

    精准编辑

    新增的编辑功能,则可以让创作者直接在 Flow 中进行更精细的调整:

    • 「Insert」功能可以在场景中添加新元素,从真实细节到奇幻生物都能处理,Flow 会自动处理阴影和光照,让添加的内容看起来浑然天成

    • 即将推出的移除功能可以无缝除不需要的物体或角色,AI 会重建背景和周围环境,就像那个物体从未存在过

    与 Sora 2 正面对决

    网友 Matt Shumer 用 Veo 3.1 和 Sora 2 做了多个场景的对比测试(先是 Veo 3.1,然后是 Sora 2)

    测试一:「一群人打排球」

    测试二:「滑板手做 kickflip」

    Veo 3.1 特别喜欢慢动作效果:

    测试三:「体操运动员在平衡木上翻转,电影感」

    测试四:「斑点狗在意大利布拉诺岛穿越复杂障碍赛道」

    从这些对比来看,两个模型各有千秋,虽然 Veo 3.1 在动作连贯性和物理真实感上确实有其独到之处,但我个人,还是更喜欢 Sora 2 一些。

    使用方式

    使用 Veo 3.1 的方式有以下几种:

    • Flow 平台http://flow.google/

    • Gemini API(开发者):https://ai.google.dev/gemini-api/docs/video

    • Vertex AI业客户):https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/veo-video-generation

    • Gemini 应用(普通用户):http://gemini.google.com/veo

    而据 Google 的数据,Flow 1 发布五个月以来已经生成了超过 2.75 亿个视频,这个数字,也足以说明当前高质量 AI 视频生成的火爆。

    再分享一个网友制作的我觉得不错的视频:

    没有大师 Sam Altman 这样的爆火营销,Veo 3.1 就这么发布了。

    那么,你觉得:Sora,还香吗? 




    [1]

    Google Veo 3.1: https://x.com/GoogleDeepMind/status/1978491999029219364

    [2]

    veo-updates-flow: https://blog.google/technology/ai/veo-updates-flow/


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和7000+群友交流。

    现在,Claude 可以新增「技能」了!

    Anthropic logo

    Anthropic 刚刚为 Claude 推出了 Skills 功能,这个新能力让 Claude 能够动态加载专门的指令、脚本和资源,从通用 AI 助手变身为各领域的专业助手。

    此次的功能升级,将进一步改变我们定制 AI 的方式

    什么是 Agent Skills?

    Skills 本质上是一个包含指令、脚本和资源的文件夹,Claude 可以在需要时动态发现并加载它们来完成特定任务。

    想象一下,这就像给新员工准备入职指南:

    你不再需要为每个用例构建零散的、定制化的 Agent,现在,任何人都可以通过捕获和分享他们的程序性知识,用可组合的能力来专门化他们的 Agent。

    核心特性

    Skills 具有几个关键特点:

    可组合:Skills 能够堆叠在一起,Claude 会自动识别需要哪些 Skills 并协调它们的使用。

    可移植:使用相同的格式,一次构建,就能在 Claude 应用、Claude Code 和 API 中使用。

    高效:只在需要时加载需要的内容。

    强大:可以包含可执行代码,用于那些传统编程比 token 生成更可靠的任务。

    工作原理

    让我们通过一个真实的例子来看看 Skills 是如何工作的:支持 Claude 最近推出的文档编辑能力的 PDF 技能。

    技能的结构

    最简单的 Skill 是一个包含 SKILL.md 文件的目录。

    这个文件必须以包含必需元数据的 YAML frontmatter 开头:name 和 description。在启动时,Agent 会将每个已安装技能的名称和描述预加载到系统提示中。

    这个元数据是渐进式披露的第一层:它提供了足够的信息让 Claude 知道每个技能何时应该被使用,而不需要将所有内容加载到上下文中。

    文件的实际内容是第二层细节。

    如果 Claude 认为该技能与当前任务相关,它会通过将完整的 SKILL.md 读入上下文来加载该技能。

    随着技能变得更加复杂,它们可能包含太多上下文无法放入单个 SKILL.md,或者只在特定场景中相关的上下文。在这些情况下,技能可以在技能目录中捆绑额外的文件,并从 SKILL.md 中按名称引用它们。

    在 PDF 技能中,SKILL.md 引用了两个额外的文件(reference.md 和 forms.md),技能作者选择将它们与核心 SKILL.md 一起捆绑。

    通过将表单填写指令移到单独的文件(forms.md),技能作者能够保持核心技能的精简,相信 Claude 只会在填写表单时才读取 forms.md

    渐进式披露设计

    渐进式披露是让 Agent Skills 灵活且可扩展的核心设计原则。

    就像一本组织良好的手册从目录开始,然后是具体章节,最后是详细的附录,Skills 让 Claude 只在需要时加载信息:

    拥有文件系统和代码执行工具的 Agent 在处理特定任务时不需要将技能的全部内容读入其上下文窗口。

    也就是说,可以捆绑到技能中的上下文量实际上是无限的

    Skills 与上下文窗口

    下图展示了当用户消息触发技能时,上下文窗口是如何变化的:

    操作序列如下:开始时,上下文窗口包含核心系统提示和每个已安装技能的元数据,以及用户的初始消息;Claude 通过调用 Bash 工具读取 pdf/SKILL.md 的内容来触发 PDF 技能;Claude 选择读取与技能捆绑的 forms.md 文件;最后,Claude 在从 PDF 技能加载了相关指令后继续执行用户的任务。

    Skills 与代码执行

    Skills 还可以包含供 Claude 自行决定执行的代码作为工具。

    大型语言模型在许多任务上表现出色,但某些操作更适合传统的代码执行。例如,通过 token 生成对列表进行排序比简单运行排序算法要昂贵得多。

    除了效率问题,许多应用程序需要只有代码才能提供的确定性可靠性。

    在该例子中,PDF 技能包括一个预编写的 Python 脚本,用于读取 PDF 并提取所有表单字段。

    Claude 可以运行此脚本,而无需将脚本或 PDF 加载到上下文中。由于代码是确定性的,这个工作流程是一致且可重复的。

    开发和评估 Skills

    Anthropic 提供了一些开发和测试 Skills 的实用指南:

    从评估开始

    通过在代表性任务上运行 Agent 并观察它们在哪里遇到困难或需要额外上下文,识别 Agent 能力中的具体差距。然后逐步构建技能来解决这些不足。

    为规模而结构化

    当 SKILL.md 文件变得难以管理时,将其内容拆分为单独的文件并引用它们。如果某些上下文是互斥的或很少一起使用,保持路径分离将减少 token 使用。代码可以同时作为可执行工具和文档。应该清楚 Claude 是应该直接运行脚本还是将它们作为参考读入上下文。

    从 Claude 的角度思考

    监控 Claude 在实际场景中如何使用你的技能,并根据观察进行迭代:注意意外的轨迹或对某些上下文的过度依赖。特别注意你的技能的 name 和 description。Claude 将在决定是否触发技能以响应其当前任务时使用这些。

    与 Claude 一起迭代

    当你与 Claude 一起工作时,要求 Claude 将其成功的方法和常见错误捕获到技能中的可重用上下文和代码中。如果它在使用技能完成任务时偏离轨道,要求它自我反思出了什么问题。这个过程将帮助你发现 Claude 实际需要什么上下文,而不是试图提前预测。

    安全考虑

    Skills 通过指令和代码为 Claude 提供新能力。

    虽然这使它们强大,但也意味着恶意技能可能在使用它们的环境中引入漏洞,或指示 Claude 泄露数据并采取意外行动。

    Anthropic 建议只从可信来源安装技能。当从不太可信的来源安装技能时,使用前要彻底审核。首先阅读技能中捆绑文件的内容以了解它的功能,特别注意代码依赖项和捆绑的资源,如图像或脚本。

    同样,注意技能中指示 Claude 连接到潜在不受信任的外部网络源的指令或代码。

    全平台支持

    Claude 应用

    Skills 现在对 Pro、Max、Team 和 Enterprise 用户可用。

    Anthropic 为常见任务提供技能,如文档创建、可以自定义的示例,以及创建自己的自定义技能的能力。

    Claude 根据你的任务自动调用相关技能,而无需手动选择。你甚至可以在 Claude 工作时看到它的思维链中的技能。

    要创建技能,则很简单:

    Anthropic 提供的「skill-creator」技能可以进行交互式的创建指导:Claude 会询问你的工作流程,生成文件夹结构,格式化 SKILL.md 文件,并捆绑你需要的资源。

    无需手动编辑文件,动嘴就可。

    Claude 开发者平台(API)

    Agent Skills 现在可以添加到 Messages API 请求中,新的 /v1/skills 端点让开发者对自定义技能版本控制和管理有程序化控制。

    Skills 需要 Code Execution Tool beta,它提供了运行所需的安全环境。

    使用 Anthropic 创建的技能让 Claude 读取和生成带有公式的专业 Excel 电子表格、PowerPoint 演示文稿、Word 文档和可填写的 PDF。

    开发者可以创建自定义 Skills 来扩展 Claude 的能力以满足他们的特定用例。

    Claude Code

    当然,还有 Claude Code

    Skills 可以让你用团队的专业知识和工作流程来扩展 Claude Code。

    通过 anthropics/skills 市场的插件安装技能,Claude 在相关时自动加载它们。通过版本控制与你的团队共享技能。你也可以通过将技能添加到 ~/.claude/skills 来手动安装技能。

    Claude Agent SDK 为构建自定义 Agent 提供相同的 Agent Skills 支持。

    用户反响

    Satvik(@satvikmaker)评论:

    使用文件夹和文件构建专门的 Agent 是一个游戏规则改变者。继续加油 Anthropic 团队。🔥👑

    Carlos Lebron(@carlosml)笑称:

    Agent Skills 听起来很酷。终于有办法让 Claude 帮我洗衣服了

    Vijay Krishna S(@vjk_2k5)指出:

    Claude 刚刚在暴力训练方法上加倍下注,并在编码方面击败了其他所有 AI 公司,这太疯狂了。

    企业应用前景

    多家企业已经开始探索 Skills 的应用潜力:

    Box

    Skills 教会 Claude 如何处理 Box 内容。用户可以将存储的文件转换为遵循其组织标准的 PowerPoint 演示文稿、Excel 电子表格和 Word 文档,从而节省数小时的工作。

    Notion

    有了 Skills,Claude 与 Notion 无缝协作,让用户从问题到行动更快。在复杂任务上减少提示词的纠结,获得更可预测的结果。

    Canva

    利用 Skills 来定制 Agent 并扩展它们的能力。这解锁了将 Canva 更深入地带入 Agent 工作流程的新方法,帮助团队捕获他们独特的上下文并轻松创建令人惊叹的高质量设计。

    Rakuten

    Skills 简化了我们的管理会计和财务工作流程。Claude 处理多个电子表格,捕获关键异常,并使用我们的程序生成报告。曾经需要一天的工作,我们现在可以在一小时内完成。

    未来

    Anthropic 正在努力实现简化的技能创建工作流程和企业范围的部署能力,使组织更容易在团队间分发技能。

    在未来几周,他们将继续添加支持创建、编辑、发现、共享和使用 Skills 的完整生命周期的功能。他们特别期待 Skills 帮助组织和个人与 Claude 共享他们的上下文和工作流程的机会。

    他们还将探索 Skills 如何通过教授 Agent 涉及外部工具和软件的更复杂工作流程来补充 Model Context Protocol(MCP)服务器。

    而展望更远的未来,Anthropic 甚至希望让 Agent 能够自主创建、编辑和评估 Skills,让它们将自己的行为模式编码为可重用的能力。

    Skills 是一个简单的概念,具有相应简单的格式。而这种简单性,则使组织、开发者和最终用户更容易构建定制的 Agent 并赋予它们新能力。




    [1]

    Anthropic 工程博客: https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills

    [2]

    Skills 公告: https://www.anthropic.com/news/skills

    [3]

    文档: https://docs.claude.com/en/docs/agents-and-tools/agent-skills/overview

    [4]

    Cookbook: https://github.com/anthropics/claude-cookbooks/tree/main/skills

    [5]

    示例 Skills: https://github.com/anthropics/skills


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和7000+群友交流。

    Karpathy 说 AGI 还要十年,但这十年会发生什么?

    Dwarkesh Patel 最新一期播客请来了 Andrej Karpathy,这位前 Tesla 自动驾驶负责人、前 OpenAI 研究科学家进行了长达两个多小时的深度对谈。

    这次访谈信息量巨大,从 AGI 的时间线到人类智能的本质,从教育的未来到文明的演化,Karpathy 的观点既理性又充满洞察。

    本文进行了整理,访谈内容如下:

    AGI 还要十年

    Karpathy 开门见山地表示,AGI 可能还需要十年时间。

    他认为目前我们还没有找到正确的算法,现在的系统还存在太多根本性缺陷。

    他举了个生动的例子:

    PIT STOP

    如果把 AGI 比作曼哈顿计划,我们现在可能还处于 1941 年左右的阶段。

    虽然有了核裂变的概念,但离真正的原子弹还有好几年。

    类似地,虽然 Transformer 和大语言模型展现了惊人的能力,但它们离真正的通用智能还有很大距离。

    更重要的是,Karpathy 指出我们可能需要完全不同的架构。

    现在的 LLM 就像是在模拟「系统一」思维:快速、直觉性的反应,但缺乏深度推理能力。而真正的 AGI 需要「系统二」思维:慢速但深入的思考过程。

    他特别强调,目前没有任何系统能够真正进行科学研究。

    即使是最先进的模型,也无法独立提出假设、设计实验、分析结果。这种创造性和探索性的智能,是 AGI 的核心标志。

    强化学习很糟糕,但必要

    Karpathy 的这句话应该会震惊很多人:

    PIT STOP

    强化学习很糟糕

    不过他也马上解释:

    只是碰巧我们之前拥有的一切都更糟糕。

    他详细解释了 RL 的问题:

    信号稀疏、训练不稳定、样本效率低下。

    在大多数现实任务中,奖励信号来得太晚太少,模型很难知道哪些行为是好的。这就像在黑暗中摸索,偶尔碰到墙才知道走错了方向。

    但为什么还要用它呢?

    因为 RL 是目前唯一能让模型从环境反馈中学习的方法。监督学习只能模仿,RL 才能创新。在 RLHF(从人类反馈中进行强化学习)中,RL 让模型学会了如何更好地回答问题,如何避免有害输出。

    Karpathy 认为,未来的突破可能来自于更好的信用分配机制:让模型更清楚地知道哪些决策导致了最终的结果。这涉及到因果推理,而不仅仅是相关性。

    LLM 的认知缺陷:它们到底缺什么?

    Karpathy 深入分析了当前 LLM 的局限性。它们没有真正的世界模型,只是在做高维空间的模式匹配。

    举个例子,LLM 可以流畅地谈论物理定律,但它并不真正理解重力是什么。它知道「苹果会落下」这个模式,但不理解背后的因果机制。

    这就像一个会背诵所有棋谱但不懂棋理的人。

    缺乏持续学习能力是另一个大问题。每次对话对 LLM 来说都是全新的,它无法积累经验。

    Karpathy 打了个比方:这就像每天早上醒来都失忆的人,虽然保留了知识,但失去了所有个人经历。

    还有长期规划能力的缺失。LLM 生成文本是逐个 token 进行的,没有整体规划。这就像写文章时只考虑下一个词,而不考虑整篇文章的结构。

    虽然通过巧妙的提示可以部分缓解,但这是架构层面的根本限制。

    幻觉问题也被详细讨论。Karpathy 解释说,LLM 的幻觉不是 bug,而是 feature 的副作用。模型被训练来生成「看起来合理」的文本,而不是「真实」的文本。

    它们没有真实性的内在概念,只是在概率分布中采样。

    人类如何学习?AI 能学到什么?

    Karpathy 花了大量时间讨论人类学习机制,这部分内容也特别精彩。

    人类学习是多模态的。

    我们不仅通过语言学习,还通过视觉、触觉、运动等多种方式。一个孩子学习「球」这个概念,不是通过定义,而是通过看、摸、扔、接等互动。这种具身认知(embodied cognition)是 LLM 完全缺失的。

    睡眠在学习中的作用被特别强调。

    Karpathy 提到,睡眠不仅是休息,更是大脑整合信息、巩固记忆的关键时期。海马体在睡眠时会「重放」白天的经历,将短期记忆转化为长期记忆。有趣的是,这个过程是生成性的:大脑会创造新的连接,产生顿悟。

    他推测,AI 系统可能也需要类似的「睡眠」机制。

    不是简单的离线训练,而是一种经验整合和知识蒸馏的过程。这可能是实现持续学习的关键。

    好奇心驱动的学习是另一个重要话题。

    人类,尤其是儿童,有强烈的探索欲望。我们不需要外部奖励就会主动学习。Karpathy 认为,这种内在动机(intrinsic motivation)可能是 AGI 的必要组件。

    他还讨论了社会学习的重要性。

    人类的大部分知识不是自己发现的,而是从他人那里学来的。语言让我们能够传递抽象概念,文化让知识能够跨代积累。AI 系统目前主要是从静态数据学习,缺乏这种动态的社会互动。

    AGI 将带来 2% 的 GDP 增长

    Karpathy 对 AGI 经济影响的预测倒是有些出人意料地保守:

    PIT STOP

    融入 2% 的 GDP 增长。

    他解释说,技术革命的影响往往被高估了短期效应,低估了长期影响。电力、互联网都是这样。

    AGI 可能也会遵循类似模式:不是突然的断崖式变化,而是渐进的渗透。

    生产力悖论被详细讨论。

    即使有了 AGI,物理世界的限制仍然存在。建造房屋、生产食物、运输货物……等等,这些都需要时间。AGI 可以优化流程,但不能违反物理定律。

    Karpathy 认为,AGI 最初会在信息密集型产业产生最大影响:金融、法律、咨询、研发等。这些领域的工作主要是处理和生成信息,AGI 可以大幅提高效率。

    但他也警告了分配问题。

    2% 的 GDP 增长可能集中在少数人手中,导致更大的不平等。这不是技术问题,而是社会和政治问题。

    不过,Karpathy 提到AGI 可能会创造新的需求。

    就像互联网创造了社交媒体、电商等新产业,AGI 也可能开启我们现在无法想象的新领域。

    超级智能:失控还是共生?

    谈到 ASI(人工超级智能),Karpathy 的观点既现实又略带悲观。

    他描述了一个渐进式失控的场景。

    不是机器人起义那种好莱坞式的剧变,而是人类逐渐将决策权交给 AI,因为 AI 的决策确实更好。最终,我们可能生活在一个由 AI 优化和管理的世界中,享受着舒适的生活,但失去了真正的自主权。

    这让人想起 E.M. Forster 的《机器停了》。在这个故事中,人类完全依赖机器生活,当机器故障时,文明瞬间崩溃。

    Karpathy 认为,我们可能正在走向类似的未来

    智能爆炸(intelligence explosion)的可能性也被讨论。

    一旦 AI 能够改进自己,可能会出现正反馈循环:更智能的 AI 创造更智能的 AI。但 Karpathy 指出,这可能不会像某些人想象的那么快。

    硬件限制、数据限制、算法复杂性都会减缓这个过程。

    他特别强调了对齐问题(alignment problem)。

    即使我们创造了超级智能,如何确保它的目标与人类一致?

    这不仅是技术问题,更是哲学问题。

    甚至,连我们自己都不清楚人类的共同目标是什么。

    智能与文化的协同演化

    Karpathy 称:智能和文化是协同演化的。

    人类之所以能主宰地球,不仅因为我们的大脑,更因为我们的文化。语言让我们能够传递复杂信息,文字让知识能够跨越时空,科学方法让我们能够系统地积累真理。

    每一代人都站在巨人的肩膀上。

    他指出,如果把一个现代人类婴儿送回石器时代抚养,他不会比石器时代的人更聪明。我们的生物硬件几万年来没有太大变化,变化的是文化软件。

    这对 AI 有什么启示呢?

    Karpathy 认为,AI 的发展也需要「文化」。

    不是简单的数据集,而是一个能够积累、传承、演化知识的生态系统。现在的模型训练是一次性的,未来可能需要持续的、社会性的学习过程。

    他还讨论了模因(meme)的概念。

    就像基因在生物演化中传播,模因在文化演化中传播。AI 系统可能会加速模因的传播和变异,创造全新的文化演化动力学。

    自动驾驶为什么这么难?

    作为前 Tesla 自动驾驶负责人,Karpathy 对这个问题自然有着独特的见解。

    「长尾问题」是核心挑战。

    日常驾驶的 99% 都很简单,但那 1% 的异常情况可能致命。施工区域、紧急车辆、掉落的货物、突然冲出的行人……每一种情况都需要正确处理。

    Karpathy 详细解释了感知与预测的困难。

    人类司机不仅看到当前状态,还能预测其他人的意图。那个行人会不会过马路?那辆车会不会变道?这需要对人类行为的深刻理解,而不仅仅是物体检测。

    数据问题也很关键。

    虽然 Tesla 有庞大的车队收集数据,但真正有价值的是罕见事件的数据。如何从数百万小时的正常驾驶中找出那些关键时刻?这本身就是一个巨大的工程挑战。

    他提到了仿真的局限性。

    很多人认为可以在仿真中训练自动驾驶系统,但 Karpathy 指出,「你无法伪造物理」。真实世界的复杂性如光线、天气、路面、传感器噪声等,很难完全模拟。

    监管和责任问题增加了复杂性。

    当自动驾驶汽车出事故时,谁负责?制造商?软件开发者?车主?这些法律和伦理问题可能比技术问题更难解决。

    但 Karpathy 仍然乐观。

    他认为自动驾驶最终会实现,只是时间问题。关键是要有耐心,逐步改进,不要期待一夜之间的突破。

    教育的未来:AI 导师时代

    关于教育,Karpathy 的愿景令人兴奋。

    个性化学习将成为常态。

    每个学生都有一个 AI 导师,了解他们的学习风格、进度、兴趣。不再是一刀切的教育,而是真正的因材施教。

    他举了个例子:学习物理时,有的学生喜欢从方程开始,有的喜欢从实验开始,有的喜欢从历史开始。AI 导师可以为每个学生定制最适合的路径。

    互动式学习会取代被动听讲。

    与其看教授录制的视频,不如与 AI 导师对话。你可以随时提问,要求解释,甚至辩论。这种苏格拉底式的教学方法已被证明更有效。

    Karpathy 特别强调了创造力的培养。

    他认为,当 AI 能处理大部分例行工作时,人类教育应该更注重创造力、批判性思维、情商等「人类特质」。

    教育民主化是另一个重要主题。

    世界上最好的教育资源目前集中在少数精英机构。AI 导师可以让每个人都接触到顶级教育。一个非洲农村的孩子可以有和哈佛学生一样好的「老师」。

    但他也提出了担忧:

    PIT STOP

    如果 AI 做了所有的思考,人类会不会变笨?

    这就像 GPS 导航让人们失去了方向感。我们需要找到平衡——利用 AI 增强学习,而不是替代学习。

    网友热议

    这次访谈自然也引发了广大网友的热烈讨论,也是同样精彩。

    有人称这是「成年人的摇篮曲」,还有人把它当作健身播客。

    一位卡尔加里的网友说,雨天、热咖啡、Karpathy 访谈——完美组合。

    技术讨论也很深入。

    有网友分享了 Google 的论文,关于 In-Context Learning(ICL),Karpathy 的观点得到了 Google 论文的支持。

    论文表明,:注意力机制在前向传播时动态更新 MLP 权重,就像临时的微调。

    见前文:Anthropic CEO:模型可在一亿上下文窗口中学习,且不改变权重,未来AI将每月10万美元

    也就是说,基于Transformer 的 LLM 不仅仅是在做模式匹配,而是在某种程度上「学习」如何处理当前的任务。

    Lee Smart 则提出了哲学观点:LLM 的限制不是硬件或数据,而是我们把认知当作计算而非连贯性。

    他认为人类推理和 AI 推理都是「波函数坍缩」的表现。每个 token 选择都是连贯性形成的微小行为,这与生物学用 53-87 Hz 绑定感知的机制相呼应。

    还网友问道:当 AI 训练数据越来越多来自真实世界而非数字世界时,会发生什么?

    物理世界的「噪声」可能正是 AI 需要的

    值得一提的是,Karpathy 在访谈中还讨论了φ-scaled recursion的概念。

    他认为,一旦我们设计出能够维持 φ 尺度递归而不是统计预测的架构,通用智能就不会是十年之后的事,而是一个相变(phase change)。

    这也暗示着,我们可能需要一个根本性的范式转变。

    关于模型的「思考」过程,Karpathy 提到现在的模型缺乏真正的「思考时间」。它们在生成每个 token 时使用相同的计算量,无论问题多么复杂。

    而人类会根据问题的难度调整思考时间。这可能是未来架构改进的一个方向。

    也有人提出了「每秒顿悟数」(Eurekas per second)这个有趣的指标。

    虽然听起来有些搞笑,但它也指向了一个问题:

    我们如何衡量 AI 的创造力呢?

    关于睡眠与学习,有网友引用了耶鲁大学的研究:大脑在睡眠时不是简单重放,而是生成性地处理经验

    这或许也会给 AI 系统设计带来启发:LLM 是否也需要一个「睡眠」过程来整合对话经验,将其提炼成权重更新?

    还有网友注意到 Karpathy 说话特别快,开玩笑说:

    PIT STOP

    是 Karpathy 说话太快,还是我思考太慢?

    还有人承认自己有「上瘾问题」:

    PIT STOP

    「我会看 Andrej 发表的每一个演讲。」

    关于持续学习和永久记忆,有网友指出这是当前 AI 系统的关键缺失。

    如果 AI 能够真正积累经验,而不是每次对话都从零开始,其能力可能会有质的飞跃。

    也有网友呼吁关注 AI 在疾病治疗等实际应用。确实,除了 AGI 这些宏大叙事,AI 在医疗、气候、能源等领域的应用可能更快改变世界。

    最后,网友“Riseyourself” RL Narayanan(@rlnarayanan)echo 了 LeCun 并称:

    PIT STOP

    Game over(游戏结束)




    访谈链接:

    https://www.youtube.com/watch?v=lXUZvyajciY

    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和10000+群友交流。

    Codex 和 Claude Code,用哪个呢?

    当然是:全!都!要!

    本文 90% 是我用嘴写的(语音输入),当作周末做的一个小东西的整理,属于想到哪儿说到哪儿,硬凑了 10 点,如下:

    一、如果有条件,用最好的模型和工具。如果没有条件,就创造条件。

    这是一件收益远大于成本的事,ROI 极高,不用简直就是傻子。

    建议不要用中转。也许确实会贵一点,但你才有更强的动力 PUA 自己啊

    二、目前最好用的,当然就是 Claude Code 和 Codex 这两了。

    我两个都会用(官方模型),会混着用,一个不行就换另一个。当然这两也各有特点。

    性格上,Codex 属于是人狠话不多精准狙击但解释很全面,Claude Code 则大开大阖喜欢经常画()龙()点()精(),有时死于话多。

    当然,性格是可以通过记忆文件来调整的。

    三、混着用时,CLAUDE.md 和 Agents.md 如何保持同步呢?手动吗?

    当然不啊!

    Mac / Linux 用这个:

    ln -s CLAUDE.md AGENTS.md

    这个也一样:

    ln -s AGENTS.md CLAUDE.md

    Windows 应该是这个(我没试过):

    mklink CLAUDE.md AGENTS.md

    四、这两文件可以通过 /init 来生成,但出来后,一定要自己再改一遍。

    去掉不恰当的,增加遗漏的——这事,就别偷懒了。

    并在必要的时候让 AI 帮忙,继续更新它。

    五、比如我今天在 CLAUDE.MD 中新增的两个:

    ## Backend API Development Standards
    ### Performance Optimization- **Avoid I/O Operations in Loops**: never perform network operations inside for loops (HTTP requests, SQL execution, Redis reads, file reads, etc.). This is highly inefficient. Instead, use batch operations

    - **Pagination Implementation**:   - **DO NOT use OFFSET/LIMIT**SQL OFFSET becomes very inefficient with large offsets   - **Use cursor-based pagination**: Implement pagination using cursor approach with ORDER BY

    当然,这是 AI 帮忙写的,我要求加的。

    是我在 review 代码后让它不要这么干这种傻事重新写,并在它完成之后告诉说:请把上面的思路添加到记忆文件中。

    六、项目的目录结构也要加到里面,这样 AI 不容易迷路。可以用 tree 获取指定层数后贴里面,比如:

    $ tree -L 2.├── src│   ├── main.py│   ├── utils.py├── README.md├── docs│   ├── intro.md│   └── api.md

    同样,这也可以让 AI 自己干。

    七、可以加一句:每个文件尽量控制在 400 行内,一旦超过,就要触发重构,要模块化和高复用之类。

    八、若涉及前端页面,加一句:不要用蓝色,不要用紫色,不要用渐变色,要使用统一的主色和强调色

    99% 能解决 UI 的 AI 味儿——目前 90% 的 AI 产品的味道。见:十米远就能闻到AI 的味道😂

    九、很多时候效果不及预期,其实主要不是 AI 做的不好,而是自己的需求没有讲清楚,甚至还有矛盾。

    与其花时间折腾各种工具,不如多花一些精力去把 Prompt 写好。也就是把自己想要什么、问题是什么说清楚——和人交流差不多也一个意思。

    这样用 GLM4.6 等国产模型也能有不错的效果。

    十、Prompt 里,AI 容易犯错的、不擅长的要自己来,比如表结构和索引;AI 能干好的就少废话了,大部分它都能干好。

    这和当老板一个样:你需要提供清晰的目标、恰当的指导,并足够了解员工的能力边界。

    要学会并习惯当好一个老板:

    👇

    👇

    👇

    AI Coding 交流,请进群: