分类 分类 下的文章

Andrej Karpathy 又放大招了!


他刚刚发布了一个名为 nanochat 项目,用 8000 行代码实现了 ChatGPT 的完整训练流程。

在一个 8xH100 节点上跑 4 小时,花费约 100 美元,你就能拥有一个能对话、写故事、答题的 AI 助手。

这个项目延续了 nanoGPT 的极简哲学,但覆盖范围更广——

从 tokenizer 训练到强化学习,从预训练到 Web UI,全部包含在一个干净、依赖最少的代码库中。

快速开始

感受 nanochat 的魔力的最快方式是运行 speedrun 脚本:

# 克隆项目git clone [email protected]:karpathy/nanochat.gitcd nanochat
# 在 screen 会话中启动训练(记录日志)screen -L -Logfile speedrun.log -S speedrun bash speedrun.sh

4 小时后,你就能通过 Web UI 与你的 LLM 对话了:

python -m scripts.chat_web

访问显示的 URL(比如 Lambda 上是 http://209.20.xxx.xxx:8000/),就能像使用 ChatGPT 一样与你的模型聊天。

技术架构

整个训练流程包含以下关键步骤:

Tokenizer 训练

Karpathy 用 Rust 重新实现了 tokenizer,因为 Python 版本太慢,HuggingFace 的又太臃肿。

训练使用 65,536 个词汇(2^16),在 20 亿字符上只需 1 分钟:

# 构建 Rust tokenizeruv run maturin develop --release --manifest-path rustbpe/Cargo.toml
# 训练 tokenizerpython -m scripts.tok_train --max_chars=2000000000python -m scripts.tok_eval

压缩比达到 4.8,比 GPT-2 的 tokenizer 表现更好,甚至在某些方面接近 GPT-4 的水平。

预训练

预训练阶段训练一个 20 层的 Transformer,约 5.6 亿参数:

torchrun --standalone --nproc_per_node=8 -m scripts.base_train -- --depth=20

模型配置自动生成:

  • 1280 维度,10 个注意力头

  • 每步处理 524,288 个 token

  • 遵循 Chinchilla 缩放定律:5.6 亿参数 × 20 = 112 亿 token

  • 总计算量:~4e19 FLOPs

训练过程中,学习率会自动缩放(1/√dim),使用 Muon 优化矩阵参数,AdamW 优化嵌入层。

中间训练

中间训练让模型适应对话格式,学会多选题和工具使用:

train_dataset = TaskMixture([    SmolTalk(split="train"),        # 460K 对话    MMLU(subset="auxiliary_train"),  # 100K 多选题    GSM8K(subset="main"),            # 8K 数学题(教工具使用)])  # 总计:568K 行

对话格式遵循 OpenAI 的 Harmony 格式:

<|bos|><|user_start|>What is the color of the sky?<|user_end|><|assistant_start|>Red. Wait, possibly blue. I'm not sure.<|assistant_end|>

评估体系

项目包含完整的评估框架:

torchrun --standalone --nproc_per_node=8 -m scripts.chat_eval -- -i mid

评估结果会包含多个维度:

  • 世界知识:ARC-E/C、MMLU(多选题,随机基线 25%)

  • 数学能力:GSM8K(小学数学题,基线 0%)

  • 编程能力:HumanEval(Python 编程,基线 0%)

  • ChatCORE:综合指标,去除基线后的平均分

成本与性能

100 美元版(4 小时)

# 默认配置,depth=20bash speedrun.sh
  • CORE:0.2219(接近 GPT-2 Large)

  • MMLU:31%

  • GSM8K:4.5%

  • 能写故事、回答简单问题

300 美元版(12 小时)

# depth=26,需要调整批次大小torchrun --standalone --nproc_per_node=8 -m scripts.base_train -- \    --depth=26 --device_batch_size=16
  • 性能超过 GPT-2(CORE > 0.25)

  • 更连贯的对话能力

1000 美元版(41.6 小时)

# depth=30,进一步减小批次torchrun --standalone --nproc_per_node=8 -m scripts.base_train -- \    --depth=30 --device_batch_size=8
  • MMLU:40+ 分

  • ARC-Easy:70+ 分

  • 计算量相当于 GPT-3 Small 的 1/1000

强化学习

项目实现了简化版 GRPO 算法,专门针对 GSM8K 数学题:

torchrun --standalone --nproc_per_node=8 -m scripts.chat_rltorchrun --standalone --nproc_per_node=8 -m scripts.chat_eval -- -i rl -a GSM8K

RL 训练抛弃了很多复杂机制:

  • 无信任区域(去掉参考模型和 KL 正则化)

  • on-policy(去掉 PPO 的 ratio+clip)

  • GAPO 风格标准化(token 级别)

  • 简单奖励偏移(去掉 z-score 标准化)

虽然简化,但效果明显:GSM8K 从 4.5% 提升到 7.6%。

推理引擎

项目包含自定义的 Engine 类,实现了高效推理:

  • KV 缓存

  • prefill/decode 两阶段推理

  • Python 解释器工具调用(轻量级沙箱)

  • CLI 和 Web UI 接口

代码组织

整个项目结构大致如下:

- 8,304 行代码- 44 个文件- 2,004 行依赖(uv.lock)- 约 83,497 个 token

每个脚本都有明确职责:

  • tok_train.py:训练 tokenizer

  • base_train.py:预训练

  • mid_train.py:中间训练

  • chat_sft.py:监督微调

  • chat_rl.py:强化学习

  • chat_web.py:Web 服务

不同硬件适配

代码设计考虑了各种计算环境:

单 GPU:去掉 torchrun,结果几乎相同,时间延长 8 倍

显存不足:调整 --device_batch_size

# 从默认的 32 逐步降低--device_batch_size=16  # 40GB VRAM--device_batch_size=8   # 20GB VRAM--device_batch_size=4   # 10GB VRAM

A100 节点:代码完全兼容,速度稍慢

社区反响

Chinmay Kak (@ChinmayKak) 分享了他的 nanosft 项目,一个单文件的微调实现:

正准备做一系列 repo,现在找到了对比基准

Plamen (@pvkdeveloper) 关心许可证:

README 里说是 MIT 许可,会保持这样吗?

zenitsu_apprentice (@zenitsu_aprntc) 好奇代码来源:

有多少代码是手写的?

Kacper Łukawski (@LukawskiKacper) 询问技术细节:

你是否实验过不同的 tokenization 算法?tokenizer 的选择对整体性能有多重要?

未来方向

Karpathy 强调,nanochat 远未完成。这是一个「强基线」代码库,设计目标是:

  • 最大可 fork 性

  • 认知复杂度最低

  • 没有巨型配置对象

  • 没有模型工厂

  • 没有 if-then-else 怪物

你可以调整任何部分:tokenizer、数据、超参数、优化算法。通过简单调整 --depth 参数,就能训练出整个模型系列。

项目采用 MIT 许可证开源。

Karpathy 在致谢中提到的,这个项目受到了 nanoGPT 和 modded-nanoGPT 的启发,并得到了 HuggingFace(数据集)、Lambda(计算资源)和 Alec Radford(技术指导)的支持。





    [1]

    GitHub 仓库: https://github.com/karpathy/nanochat

    [2]

    详细技术讨论: https://github.com/karpathy/nanochat/discussions/1

    [3]

    Discord 频道: https://discord.gg/3zy8kqD9Cp


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和7000+群友交流。


    开源 AI 的天下,变了!

    去年 7 月,LMArena 开源模型榜单上,前四名都还是清一色的美企GoogleNvidiaMetaCohere

    而仅仅短短一年后的今天,形势就已彻底反转。

    现在的前五,全都被中国大模型占领

    智谱的 Z.ai 拿下榜首,阿里巴巴紧随其后,DeepSeek 位列第三,Moonshot AI(kimi 母公司)和美团 AI 分列四五。

    这里多说一嘴这个 LMArena:

    LMArena 可以说是目前 AI 业内公认最为权威的模型评测平台,由伯克利研究团队运营。

    它的独特之处在于采用盲测机制,也就是让用户在完全不知道模型身份的情况下,对比两个 AI 的回答质量,然后投票选出更好的那个。

    这种方式可以完全避免品牌偏见和打钱营销的噱头干扰,因为没有预设立场,没有刷榜空间,全是靠真实的用户在拿到模型结果后,用结果来说话

    也是因为如此,LMArena 的排名被业界视为 AI 模型实力评估的金标准。OpenAI、Anthropic、Google 等几乎所有 AI 模型厂商都会密切关注自家模型在榜单上的表现。

    值得一提的是,此前出爆被 LlaMa 4 在小扎 KPI 的 push 下钻了漏洞后,LMArena 也是及时采取了多项改进措施,比如提交的模型必须与公开版本一致公开了对战记录供公众审查等等。

    虽不能说绝对意义上的 0 水分,但可以说 LMArena 是目前可信度最高的评测平台之一了。

    当然,说之一而不是唯一,是因为还有另一个同样较为可靠的榜单:OpenRouter 的模型使用榜单(由开发者真刀真枪花钱来用的排行榜,也是 Andrew Karpathy 力荐的榜单):

    榜单中除了Kimi,GLM-4.6美团龙猫DeepSeek V3.2 ExpQwen 3 也都纷纷现身 trending 榜首(Claude Sonnet 4.5 为闭源模型),也基本与 LMArena 排名一致。

    以及,还可以看 HuggingFace 的 Trending 榜:

    智谱登顶

    先来说说在这场开源逆袭中最为惊艳、且目前排在榜首的智谱的 GLM-4.6 模型。

    GLM-4.6 是智谱在国庆期间发布的最新旗舰模型,整体性能上超越了在其前一天发布的 DeepSeek-V3.2-Exp,并无限对齐 Claude Sonnet 4,甚至在部分指标上超过了 Claude Sonnet 4.5,见:GLM-4.6 来了,与 Claude 4.5 仅差一点点

    4.5 和 4.6 本来也就,只差 0.1 点点

    要知道,Claude 4.5 可是目前闭源模型的天花板啊!

    而同时,GLM-4.6 也一举成为了国内最好的 Coding 模型,受到全球网友和开发者们的追捧:

    就单说我的 Claude CodeX 编程交流群里,国庆以来 GLM-4.6 的讨论也显然密集了许多,现在也几乎成了每天都躲不掉的话题:

    先前各种想办法去用中转站的朋友们,不少都转向了 GLM-4.6 的订阅包,从大家的反馈上基本都是:「GLM-4.6 已经无限接近 Claude 4.5 了。

    而在另一边打助攻的,则是 Claude Code 在降智后开始不断缩水用量,以及原本还能一战的 OpenAI Codex 也像是因为 SORA 2 太烧 GPU 而间歇性降智,相比而言智谱的包月套餐简直是朴实的奢华、大雪中送炭了。

    图片

    从套餐价格及模型能力上看,可以说:现在我们可以用 1/7 的价格,买到 Claude Sonnet 4 / 4.5 九成的智商。

    不得不说,价格方面咱中国公司是真的给卷到地板价了,有点离谱:Claude Max 一个月的钱,几乎快能够我订阅 GLM Max 一整年……

    而说到模型订阅,我自己一直都是 Claude Code 的 200$ Max 会员 + ChatGPT 20$ 的 plus 会员,但由于最近这两坑货的各种迷惑行为,我也果断开了个 GLM 会员。

    我最近的日常使用上,重要任务(比如需要持续迭代的大项目)还是会优先官方 Claude Code(毕竟确实还是略强一点,且我花了那么多的钱),刁钻一些难解决的 bug 则会尝试用 Codex(不都好使,但偶有奇效),而其他写个小脚本啥的任务我则几乎都切到 cc + GLM-4.6 了。

    毕竟时代变了,那个对 Max 账号不限速的Claude Code 已经回不去了……而 GLM-4.6 也是这么又顶又便宜。

    中国军团崛起

    除了占据开源榜首的智谱外,阿里巴巴的 Qwen 则稳居开源模型第二,《华盛顿邮报》 的分析指出,智谱、阿里等中国公司的开源模型在 LMArena 盲测中的评分已经大幅超过了 OpenAI 和 Meta。

    分析指出,中国模型公司 DeepSeek 在今年 1 月震撼了整个全球科技界:在 Hugging Face 平台上,DeepSeek 获得了 12.8k 个赞,是 Meta Llama 顶级模型(6.3k)的两倍,OpenAI 只排在第五位(4.0k)。

    Moonshot AI 和美团 AI 则紧随其后也上了榜,在美国网友们看来则是:连家排名第五的外卖公司都打不过

    Hugging Face 首席政策官 Irene Solaiman 评价说,中国公司 「发布频繁,质量优秀」,这正是建立用户基础的关键。

    免费的降维打击

    Rushabh Shah(@Rushabh_Shah777) 指出:

    中国人正在构建最受欢迎的免费 AI,而大多数西方 AI 工具都在向你收费。创新不会等待监管、利润或炒作。免费访问 ≠ 免费质量。但中国刚刚证明了它可以两者兼得。

    pirate philosophy(@essenciverse) 则分析称:

    你不觉得吗,中国只是想通过开源将 AI 成本降到「零」,然后在机器人/能源上作为下一个有价值的东西进行资本化?

    这或许,也正是中国 AI 策略的关键之处:

    通过开源和低价,快速占领市场,培养用户习惯,然后在应用层面收割价值。

    就像 Google 的 Android 系统一样,通过免费开源占领了全球智能手机市场,然后通过搜索、邮件等服务获利。

    而此时,中国的 AI 公司正在疯狂复制这个成功模式。

    甚至,不仅仅是文本,图像和视频也在遵循同样的趋势。

    Solaiman 指出,中国竞争对手不仅更加高产,在其他用途的 AI 方面也极具竞争力,发布了生成图像和视频的最先进开源软件

    而美国自己,也意识到了这个问题。

    Trump 政府的 AI 战略敦促开发基于「美国价值观」的开放 AI 技术,希望它们成为具有「地缘战略价值」的全球标准。

    一些美国高管、投资者和学者甚至发起了 ATOM 项目(American Truly Open Models),目标是创建一个美国 AI 实验室,开发能与世界最佳模型竞争的开源 AI。

    但是呢,现实很骨感。

    Meta 的 Zuckerberg 去年还在高喊要分享最好的模型和研究,今年不知咋想的就又改口了:公司需要「谨慎选择开源什么」,Meta 可能会把下一个模型留给自己,甚至 LeCun 的论文都不能随便发了得先过一下内审。

    虽然 Anthropic 的 Claude 4.5、OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro 等最强的闭源模型仍然掌握在美国手中,但中国开源模型正在无限接近这个天花板。

    有点滑稽的是,当美国模型公司们还在反复纠结调整如何定价、怎么各种限制使用量、怎么借“智能”的理由偷偷进行模型路由时,中国模型已经用开源 + 极致的性价比迅速拿下全球用户的心。

    就拿智谱 GLM 来说,最低 20 元包月畅玩套餐,就能立享体验几乎全球最强的 Coding 模型!

    这,也就一杯奶茶的价格啊!

    好了,快来扫我的码,你我都会被白送 token:


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎进 Claude CodeX 交流群交流(见评论区)。

    刚刚,Google 发布了 Veo 3.1.

    全面进化

    相比于 OpenAI Sora 1 到 Sora 2 的大版本号提升,Google DeepMind 团队这次带来的 Veo 3.1 的小版本版本迭代,则是低调并彻底地重新定义了 AI 视频生成的天花板

    新版本中,让人最为亮眼的是对叙事的深度理解,它能准确捕捉你想要讲述的故事,生成的纹理质感更加真实,图像转视频的能力也得到了显著提升。

    更重要的是,几乎所有功能都加入了音频生成。视频生成,再也不是「默片」了。

    四大核心能力

    多素材融合

    Veo 3.1 的「Ingredients to Video」功能让人印象深刻。

    你可以提供多张包含不同人物和物体的参考图片,Veo 会将这些元素智能整合到一个完整的场景中,自然,也是自带音效

    我们不再需要再为了一个场景去找完美匹配的素材,只要把想要的元素丢给它,Veo 就能组装出一个有声有色的完整场景。

    场景延展

    「Scene Extension」功能可以创建超过一分钟的连续视频片段,继续原始镜头的动作。

    每个生成的视频都基于前一个片段的最后一秒来保持故事的连续性,背景和人物都能保持一致。

    这解决了“连贯性”这个 AI 视频生成中最为头疼的问题(之一)。

    首尾帧

    只需给出第一帧和最后一帧,Veo 就能生成中间的完整过渡动画。

    Google 把这个功能叫做「From A to B」,特别适合创建史诗级的转场效果。

    定义好开始和结束的画面,中间的魔法,交给 Veo 3.1 就好。

    精准编辑

    新增的编辑功能,则可以让创作者直接在 Flow 中进行更精细的调整:

    • 「Insert」功能可以在场景中添加新元素,从真实细节到奇幻生物都能处理,Flow 会自动处理阴影和光照,让添加的内容看起来浑然天成

    • 即将推出的移除功能可以无缝除不需要的物体或角色,AI 会重建背景和周围环境,就像那个物体从未存在过

    与 Sora 2 正面对决

    网友 Matt Shumer 用 Veo 3.1 和 Sora 2 做了多个场景的对比测试(先是 Veo 3.1,然后是 Sora 2)

    测试一:「一群人打排球」

    测试二:「滑板手做 kickflip」

    Veo 3.1 特别喜欢慢动作效果:

    测试三:「体操运动员在平衡木上翻转,电影感」

    测试四:「斑点狗在意大利布拉诺岛穿越复杂障碍赛道」

    从这些对比来看,两个模型各有千秋,虽然 Veo 3.1 在动作连贯性和物理真实感上确实有其独到之处,但我个人,还是更喜欢 Sora 2 一些。

    使用方式

    使用 Veo 3.1 的方式有以下几种:

    • Flow 平台http://flow.google/

    • Gemini API(开发者):https://ai.google.dev/gemini-api/docs/video

    • Vertex AI业客户):https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/veo-video-generation

    • Gemini 应用(普通用户):http://gemini.google.com/veo

    而据 Google 的数据,Flow 1 发布五个月以来已经生成了超过 2.75 亿个视频,这个数字,也足以说明当前高质量 AI 视频生成的火爆。

    再分享一个网友制作的我觉得不错的视频:

    没有大师 Sam Altman 这样的爆火营销,Veo 3.1 就这么发布了。

    那么,你觉得:Sora,还香吗? 




    [1]

    Google Veo 3.1: https://x.com/GoogleDeepMind/status/1978491999029219364

    [2]

    veo-updates-flow: https://blog.google/technology/ai/veo-updates-flow/


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和7000+群友交流。

    现在,Claude 可以新增「技能」了!

    Anthropic logo

    Anthropic 刚刚为 Claude 推出了 Skills 功能,这个新能力让 Claude 能够动态加载专门的指令、脚本和资源,从通用 AI 助手变身为各领域的专业助手。

    此次的功能升级,将进一步改变我们定制 AI 的方式

    什么是 Agent Skills?

    Skills 本质上是一个包含指令、脚本和资源的文件夹,Claude 可以在需要时动态发现并加载它们来完成特定任务。

    想象一下,这就像给新员工准备入职指南:

    你不再需要为每个用例构建零散的、定制化的 Agent,现在,任何人都可以通过捕获和分享他们的程序性知识,用可组合的能力来专门化他们的 Agent。

    核心特性

    Skills 具有几个关键特点:

    可组合:Skills 能够堆叠在一起,Claude 会自动识别需要哪些 Skills 并协调它们的使用。

    可移植:使用相同的格式,一次构建,就能在 Claude 应用、Claude Code 和 API 中使用。

    高效:只在需要时加载需要的内容。

    强大:可以包含可执行代码,用于那些传统编程比 token 生成更可靠的任务。

    工作原理

    让我们通过一个真实的例子来看看 Skills 是如何工作的:支持 Claude 最近推出的文档编辑能力的 PDF 技能。

    技能的结构

    最简单的 Skill 是一个包含 SKILL.md 文件的目录。

    这个文件必须以包含必需元数据的 YAML frontmatter 开头:name 和 description。在启动时,Agent 会将每个已安装技能的名称和描述预加载到系统提示中。

    这个元数据是渐进式披露的第一层:它提供了足够的信息让 Claude 知道每个技能何时应该被使用,而不需要将所有内容加载到上下文中。

    文件的实际内容是第二层细节。

    如果 Claude 认为该技能与当前任务相关,它会通过将完整的 SKILL.md 读入上下文来加载该技能。

    随着技能变得更加复杂,它们可能包含太多上下文无法放入单个 SKILL.md,或者只在特定场景中相关的上下文。在这些情况下,技能可以在技能目录中捆绑额外的文件,并从 SKILL.md 中按名称引用它们。

    在 PDF 技能中,SKILL.md 引用了两个额外的文件(reference.md 和 forms.md),技能作者选择将它们与核心 SKILL.md 一起捆绑。

    通过将表单填写指令移到单独的文件(forms.md),技能作者能够保持核心技能的精简,相信 Claude 只会在填写表单时才读取 forms.md

    渐进式披露设计

    渐进式披露是让 Agent Skills 灵活且可扩展的核心设计原则。

    就像一本组织良好的手册从目录开始,然后是具体章节,最后是详细的附录,Skills 让 Claude 只在需要时加载信息:

    拥有文件系统和代码执行工具的 Agent 在处理特定任务时不需要将技能的全部内容读入其上下文窗口。

    也就是说,可以捆绑到技能中的上下文量实际上是无限的

    Skills 与上下文窗口

    下图展示了当用户消息触发技能时,上下文窗口是如何变化的:

    操作序列如下:开始时,上下文窗口包含核心系统提示和每个已安装技能的元数据,以及用户的初始消息;Claude 通过调用 Bash 工具读取 pdf/SKILL.md 的内容来触发 PDF 技能;Claude 选择读取与技能捆绑的 forms.md 文件;最后,Claude 在从 PDF 技能加载了相关指令后继续执行用户的任务。

    Skills 与代码执行

    Skills 还可以包含供 Claude 自行决定执行的代码作为工具。

    大型语言模型在许多任务上表现出色,但某些操作更适合传统的代码执行。例如,通过 token 生成对列表进行排序比简单运行排序算法要昂贵得多。

    除了效率问题,许多应用程序需要只有代码才能提供的确定性可靠性。

    在该例子中,PDF 技能包括一个预编写的 Python 脚本,用于读取 PDF 并提取所有表单字段。

    Claude 可以运行此脚本,而无需将脚本或 PDF 加载到上下文中。由于代码是确定性的,这个工作流程是一致且可重复的。

    开发和评估 Skills

    Anthropic 提供了一些开发和测试 Skills 的实用指南:

    从评估开始

    通过在代表性任务上运行 Agent 并观察它们在哪里遇到困难或需要额外上下文,识别 Agent 能力中的具体差距。然后逐步构建技能来解决这些不足。

    为规模而结构化

    当 SKILL.md 文件变得难以管理时,将其内容拆分为单独的文件并引用它们。如果某些上下文是互斥的或很少一起使用,保持路径分离将减少 token 使用。代码可以同时作为可执行工具和文档。应该清楚 Claude 是应该直接运行脚本还是将它们作为参考读入上下文。

    从 Claude 的角度思考

    监控 Claude 在实际场景中如何使用你的技能,并根据观察进行迭代:注意意外的轨迹或对某些上下文的过度依赖。特别注意你的技能的 name 和 description。Claude 将在决定是否触发技能以响应其当前任务时使用这些。

    与 Claude 一起迭代

    当你与 Claude 一起工作时,要求 Claude 将其成功的方法和常见错误捕获到技能中的可重用上下文和代码中。如果它在使用技能完成任务时偏离轨道,要求它自我反思出了什么问题。这个过程将帮助你发现 Claude 实际需要什么上下文,而不是试图提前预测。

    安全考虑

    Skills 通过指令和代码为 Claude 提供新能力。

    虽然这使它们强大,但也意味着恶意技能可能在使用它们的环境中引入漏洞,或指示 Claude 泄露数据并采取意外行动。

    Anthropic 建议只从可信来源安装技能。当从不太可信的来源安装技能时,使用前要彻底审核。首先阅读技能中捆绑文件的内容以了解它的功能,特别注意代码依赖项和捆绑的资源,如图像或脚本。

    同样,注意技能中指示 Claude 连接到潜在不受信任的外部网络源的指令或代码。

    全平台支持

    Claude 应用

    Skills 现在对 Pro、Max、Team 和 Enterprise 用户可用。

    Anthropic 为常见任务提供技能,如文档创建、可以自定义的示例,以及创建自己的自定义技能的能力。

    Claude 根据你的任务自动调用相关技能,而无需手动选择。你甚至可以在 Claude 工作时看到它的思维链中的技能。

    要创建技能,则很简单:

    Anthropic 提供的「skill-creator」技能可以进行交互式的创建指导:Claude 会询问你的工作流程,生成文件夹结构,格式化 SKILL.md 文件,并捆绑你需要的资源。

    无需手动编辑文件,动嘴就可。

    Claude 开发者平台(API)

    Agent Skills 现在可以添加到 Messages API 请求中,新的 /v1/skills 端点让开发者对自定义技能版本控制和管理有程序化控制。

    Skills 需要 Code Execution Tool beta,它提供了运行所需的安全环境。

    使用 Anthropic 创建的技能让 Claude 读取和生成带有公式的专业 Excel 电子表格、PowerPoint 演示文稿、Word 文档和可填写的 PDF。

    开发者可以创建自定义 Skills 来扩展 Claude 的能力以满足他们的特定用例。

    Claude Code

    当然,还有 Claude Code

    Skills 可以让你用团队的专业知识和工作流程来扩展 Claude Code。

    通过 anthropics/skills 市场的插件安装技能,Claude 在相关时自动加载它们。通过版本控制与你的团队共享技能。你也可以通过将技能添加到 ~/.claude/skills 来手动安装技能。

    Claude Agent SDK 为构建自定义 Agent 提供相同的 Agent Skills 支持。

    用户反响

    Satvik(@satvikmaker)评论:

    使用文件夹和文件构建专门的 Agent 是一个游戏规则改变者。继续加油 Anthropic 团队。🔥👑

    Carlos Lebron(@carlosml)笑称:

    Agent Skills 听起来很酷。终于有办法让 Claude 帮我洗衣服了

    Vijay Krishna S(@vjk_2k5)指出:

    Claude 刚刚在暴力训练方法上加倍下注,并在编码方面击败了其他所有 AI 公司,这太疯狂了。

    企业应用前景

    多家企业已经开始探索 Skills 的应用潜力:

    Box

    Skills 教会 Claude 如何处理 Box 内容。用户可以将存储的文件转换为遵循其组织标准的 PowerPoint 演示文稿、Excel 电子表格和 Word 文档,从而节省数小时的工作。

    Notion

    有了 Skills,Claude 与 Notion 无缝协作,让用户从问题到行动更快。在复杂任务上减少提示词的纠结,获得更可预测的结果。

    Canva

    利用 Skills 来定制 Agent 并扩展它们的能力。这解锁了将 Canva 更深入地带入 Agent 工作流程的新方法,帮助团队捕获他们独特的上下文并轻松创建令人惊叹的高质量设计。

    Rakuten

    Skills 简化了我们的管理会计和财务工作流程。Claude 处理多个电子表格,捕获关键异常,并使用我们的程序生成报告。曾经需要一天的工作,我们现在可以在一小时内完成。

    未来

    Anthropic 正在努力实现简化的技能创建工作流程和企业范围的部署能力,使组织更容易在团队间分发技能。

    在未来几周,他们将继续添加支持创建、编辑、发现、共享和使用 Skills 的完整生命周期的功能。他们特别期待 Skills 帮助组织和个人与 Claude 共享他们的上下文和工作流程的机会。

    他们还将探索 Skills 如何通过教授 Agent 涉及外部工具和软件的更复杂工作流程来补充 Model Context Protocol(MCP)服务器。

    而展望更远的未来,Anthropic 甚至希望让 Agent 能够自主创建、编辑和评估 Skills,让它们将自己的行为模式编码为可重用的能力。

    Skills 是一个简单的概念,具有相应简单的格式。而这种简单性,则使组织、开发者和最终用户更容易构建定制的 Agent 并赋予它们新能力。




    [1]

    Anthropic 工程博客: https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills

    [2]

    Skills 公告: https://www.anthropic.com/news/skills

    [3]

    文档: https://docs.claude.com/en/docs/agents-and-tools/agent-skills/overview

    [4]

    Cookbook: https://github.com/anthropics/claude-cookbooks/tree/main/skills

    [5]

    示例 Skills: https://github.com/anthropics/skills


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和7000+群友交流。

    Karpathy 说 AGI 还要十年,但这十年会发生什么?

    Dwarkesh Patel 最新一期播客请来了 Andrej Karpathy,这位前 Tesla 自动驾驶负责人、前 OpenAI 研究科学家进行了长达两个多小时的深度对谈。

    这次访谈信息量巨大,从 AGI 的时间线到人类智能的本质,从教育的未来到文明的演化,Karpathy 的观点既理性又充满洞察。

    本文进行了整理,访谈内容如下:

    AGI 还要十年

    Karpathy 开门见山地表示,AGI 可能还需要十年时间。

    他认为目前我们还没有找到正确的算法,现在的系统还存在太多根本性缺陷。

    他举了个生动的例子:

    PIT STOP

    如果把 AGI 比作曼哈顿计划,我们现在可能还处于 1941 年左右的阶段。

    虽然有了核裂变的概念,但离真正的原子弹还有好几年。

    类似地,虽然 Transformer 和大语言模型展现了惊人的能力,但它们离真正的通用智能还有很大距离。

    更重要的是,Karpathy 指出我们可能需要完全不同的架构。

    现在的 LLM 就像是在模拟「系统一」思维:快速、直觉性的反应,但缺乏深度推理能力。而真正的 AGI 需要「系统二」思维:慢速但深入的思考过程。

    他特别强调,目前没有任何系统能够真正进行科学研究。

    即使是最先进的模型,也无法独立提出假设、设计实验、分析结果。这种创造性和探索性的智能,是 AGI 的核心标志。

    强化学习很糟糕,但必要

    Karpathy 的这句话应该会震惊很多人:

    PIT STOP

    强化学习很糟糕

    不过他也马上解释:

    只是碰巧我们之前拥有的一切都更糟糕。

    他详细解释了 RL 的问题:

    信号稀疏、训练不稳定、样本效率低下。

    在大多数现实任务中,奖励信号来得太晚太少,模型很难知道哪些行为是好的。这就像在黑暗中摸索,偶尔碰到墙才知道走错了方向。

    但为什么还要用它呢?

    因为 RL 是目前唯一能让模型从环境反馈中学习的方法。监督学习只能模仿,RL 才能创新。在 RLHF(从人类反馈中进行强化学习)中,RL 让模型学会了如何更好地回答问题,如何避免有害输出。

    Karpathy 认为,未来的突破可能来自于更好的信用分配机制:让模型更清楚地知道哪些决策导致了最终的结果。这涉及到因果推理,而不仅仅是相关性。

    LLM 的认知缺陷:它们到底缺什么?

    Karpathy 深入分析了当前 LLM 的局限性。它们没有真正的世界模型,只是在做高维空间的模式匹配。

    举个例子,LLM 可以流畅地谈论物理定律,但它并不真正理解重力是什么。它知道「苹果会落下」这个模式,但不理解背后的因果机制。

    这就像一个会背诵所有棋谱但不懂棋理的人。

    缺乏持续学习能力是另一个大问题。每次对话对 LLM 来说都是全新的,它无法积累经验。

    Karpathy 打了个比方:这就像每天早上醒来都失忆的人,虽然保留了知识,但失去了所有个人经历。

    还有长期规划能力的缺失。LLM 生成文本是逐个 token 进行的,没有整体规划。这就像写文章时只考虑下一个词,而不考虑整篇文章的结构。

    虽然通过巧妙的提示可以部分缓解,但这是架构层面的根本限制。

    幻觉问题也被详细讨论。Karpathy 解释说,LLM 的幻觉不是 bug,而是 feature 的副作用。模型被训练来生成「看起来合理」的文本,而不是「真实」的文本。

    它们没有真实性的内在概念,只是在概率分布中采样。

    人类如何学习?AI 能学到什么?

    Karpathy 花了大量时间讨论人类学习机制,这部分内容也特别精彩。

    人类学习是多模态的。

    我们不仅通过语言学习,还通过视觉、触觉、运动等多种方式。一个孩子学习「球」这个概念,不是通过定义,而是通过看、摸、扔、接等互动。这种具身认知(embodied cognition)是 LLM 完全缺失的。

    睡眠在学习中的作用被特别强调。

    Karpathy 提到,睡眠不仅是休息,更是大脑整合信息、巩固记忆的关键时期。海马体在睡眠时会「重放」白天的经历,将短期记忆转化为长期记忆。有趣的是,这个过程是生成性的:大脑会创造新的连接,产生顿悟。

    他推测,AI 系统可能也需要类似的「睡眠」机制。

    不是简单的离线训练,而是一种经验整合和知识蒸馏的过程。这可能是实现持续学习的关键。

    好奇心驱动的学习是另一个重要话题。

    人类,尤其是儿童,有强烈的探索欲望。我们不需要外部奖励就会主动学习。Karpathy 认为,这种内在动机(intrinsic motivation)可能是 AGI 的必要组件。

    他还讨论了社会学习的重要性。

    人类的大部分知识不是自己发现的,而是从他人那里学来的。语言让我们能够传递抽象概念,文化让知识能够跨代积累。AI 系统目前主要是从静态数据学习,缺乏这种动态的社会互动。

    AGI 将带来 2% 的 GDP 增长

    Karpathy 对 AGI 经济影响的预测倒是有些出人意料地保守:

    PIT STOP

    融入 2% 的 GDP 增长。

    他解释说,技术革命的影响往往被高估了短期效应,低估了长期影响。电力、互联网都是这样。

    AGI 可能也会遵循类似模式:不是突然的断崖式变化,而是渐进的渗透。

    生产力悖论被详细讨论。

    即使有了 AGI,物理世界的限制仍然存在。建造房屋、生产食物、运输货物……等等,这些都需要时间。AGI 可以优化流程,但不能违反物理定律。

    Karpathy 认为,AGI 最初会在信息密集型产业产生最大影响:金融、法律、咨询、研发等。这些领域的工作主要是处理和生成信息,AGI 可以大幅提高效率。

    但他也警告了分配问题。

    2% 的 GDP 增长可能集中在少数人手中,导致更大的不平等。这不是技术问题,而是社会和政治问题。

    不过,Karpathy 提到AGI 可能会创造新的需求。

    就像互联网创造了社交媒体、电商等新产业,AGI 也可能开启我们现在无法想象的新领域。

    超级智能:失控还是共生?

    谈到 ASI(人工超级智能),Karpathy 的观点既现实又略带悲观。

    他描述了一个渐进式失控的场景。

    不是机器人起义那种好莱坞式的剧变,而是人类逐渐将决策权交给 AI,因为 AI 的决策确实更好。最终,我们可能生活在一个由 AI 优化和管理的世界中,享受着舒适的生活,但失去了真正的自主权。

    这让人想起 E.M. Forster 的《机器停了》。在这个故事中,人类完全依赖机器生活,当机器故障时,文明瞬间崩溃。

    Karpathy 认为,我们可能正在走向类似的未来

    智能爆炸(intelligence explosion)的可能性也被讨论。

    一旦 AI 能够改进自己,可能会出现正反馈循环:更智能的 AI 创造更智能的 AI。但 Karpathy 指出,这可能不会像某些人想象的那么快。

    硬件限制、数据限制、算法复杂性都会减缓这个过程。

    他特别强调了对齐问题(alignment problem)。

    即使我们创造了超级智能,如何确保它的目标与人类一致?

    这不仅是技术问题,更是哲学问题。

    甚至,连我们自己都不清楚人类的共同目标是什么。

    智能与文化的协同演化

    Karpathy 称:智能和文化是协同演化的。

    人类之所以能主宰地球,不仅因为我们的大脑,更因为我们的文化。语言让我们能够传递复杂信息,文字让知识能够跨越时空,科学方法让我们能够系统地积累真理。

    每一代人都站在巨人的肩膀上。

    他指出,如果把一个现代人类婴儿送回石器时代抚养,他不会比石器时代的人更聪明。我们的生物硬件几万年来没有太大变化,变化的是文化软件。

    这对 AI 有什么启示呢?

    Karpathy 认为,AI 的发展也需要「文化」。

    不是简单的数据集,而是一个能够积累、传承、演化知识的生态系统。现在的模型训练是一次性的,未来可能需要持续的、社会性的学习过程。

    他还讨论了模因(meme)的概念。

    就像基因在生物演化中传播,模因在文化演化中传播。AI 系统可能会加速模因的传播和变异,创造全新的文化演化动力学。

    自动驾驶为什么这么难?

    作为前 Tesla 自动驾驶负责人,Karpathy 对这个问题自然有着独特的见解。

    「长尾问题」是核心挑战。

    日常驾驶的 99% 都很简单,但那 1% 的异常情况可能致命。施工区域、紧急车辆、掉落的货物、突然冲出的行人……每一种情况都需要正确处理。

    Karpathy 详细解释了感知与预测的困难。

    人类司机不仅看到当前状态,还能预测其他人的意图。那个行人会不会过马路?那辆车会不会变道?这需要对人类行为的深刻理解,而不仅仅是物体检测。

    数据问题也很关键。

    虽然 Tesla 有庞大的车队收集数据,但真正有价值的是罕见事件的数据。如何从数百万小时的正常驾驶中找出那些关键时刻?这本身就是一个巨大的工程挑战。

    他提到了仿真的局限性。

    很多人认为可以在仿真中训练自动驾驶系统,但 Karpathy 指出,「你无法伪造物理」。真实世界的复杂性如光线、天气、路面、传感器噪声等,很难完全模拟。

    监管和责任问题增加了复杂性。

    当自动驾驶汽车出事故时,谁负责?制造商?软件开发者?车主?这些法律和伦理问题可能比技术问题更难解决。

    但 Karpathy 仍然乐观。

    他认为自动驾驶最终会实现,只是时间问题。关键是要有耐心,逐步改进,不要期待一夜之间的突破。

    教育的未来:AI 导师时代

    关于教育,Karpathy 的愿景令人兴奋。

    个性化学习将成为常态。

    每个学生都有一个 AI 导师,了解他们的学习风格、进度、兴趣。不再是一刀切的教育,而是真正的因材施教。

    他举了个例子:学习物理时,有的学生喜欢从方程开始,有的喜欢从实验开始,有的喜欢从历史开始。AI 导师可以为每个学生定制最适合的路径。

    互动式学习会取代被动听讲。

    与其看教授录制的视频,不如与 AI 导师对话。你可以随时提问,要求解释,甚至辩论。这种苏格拉底式的教学方法已被证明更有效。

    Karpathy 特别强调了创造力的培养。

    他认为,当 AI 能处理大部分例行工作时,人类教育应该更注重创造力、批判性思维、情商等「人类特质」。

    教育民主化是另一个重要主题。

    世界上最好的教育资源目前集中在少数精英机构。AI 导师可以让每个人都接触到顶级教育。一个非洲农村的孩子可以有和哈佛学生一样好的「老师」。

    但他也提出了担忧:

    PIT STOP

    如果 AI 做了所有的思考,人类会不会变笨?

    这就像 GPS 导航让人们失去了方向感。我们需要找到平衡——利用 AI 增强学习,而不是替代学习。

    网友热议

    这次访谈自然也引发了广大网友的热烈讨论,也是同样精彩。

    有人称这是「成年人的摇篮曲」,还有人把它当作健身播客。

    一位卡尔加里的网友说,雨天、热咖啡、Karpathy 访谈——完美组合。

    技术讨论也很深入。

    有网友分享了 Google 的论文,关于 In-Context Learning(ICL),Karpathy 的观点得到了 Google 论文的支持。

    论文表明,:注意力机制在前向传播时动态更新 MLP 权重,就像临时的微调。

    见前文:Anthropic CEO:模型可在一亿上下文窗口中学习,且不改变权重,未来AI将每月10万美元

    也就是说,基于Transformer 的 LLM 不仅仅是在做模式匹配,而是在某种程度上「学习」如何处理当前的任务。

    Lee Smart 则提出了哲学观点:LLM 的限制不是硬件或数据,而是我们把认知当作计算而非连贯性。

    他认为人类推理和 AI 推理都是「波函数坍缩」的表现。每个 token 选择都是连贯性形成的微小行为,这与生物学用 53-87 Hz 绑定感知的机制相呼应。

    还网友问道:当 AI 训练数据越来越多来自真实世界而非数字世界时,会发生什么?

    物理世界的「噪声」可能正是 AI 需要的

    值得一提的是,Karpathy 在访谈中还讨论了φ-scaled recursion的概念。

    他认为,一旦我们设计出能够维持 φ 尺度递归而不是统计预测的架构,通用智能就不会是十年之后的事,而是一个相变(phase change)。

    这也暗示着,我们可能需要一个根本性的范式转变。

    关于模型的「思考」过程,Karpathy 提到现在的模型缺乏真正的「思考时间」。它们在生成每个 token 时使用相同的计算量,无论问题多么复杂。

    而人类会根据问题的难度调整思考时间。这可能是未来架构改进的一个方向。

    也有人提出了「每秒顿悟数」(Eurekas per second)这个有趣的指标。

    虽然听起来有些搞笑,但它也指向了一个问题:

    我们如何衡量 AI 的创造力呢?

    关于睡眠与学习,有网友引用了耶鲁大学的研究:大脑在睡眠时不是简单重放,而是生成性地处理经验

    这或许也会给 AI 系统设计带来启发:LLM 是否也需要一个「睡眠」过程来整合对话经验,将其提炼成权重更新?

    还有网友注意到 Karpathy 说话特别快,开玩笑说:

    PIT STOP

    是 Karpathy 说话太快,还是我思考太慢?

    还有人承认自己有「上瘾问题」:

    PIT STOP

    「我会看 Andrej 发表的每一个演讲。」

    关于持续学习和永久记忆,有网友指出这是当前 AI 系统的关键缺失。

    如果 AI 能够真正积累经验,而不是每次对话都从零开始,其能力可能会有质的飞跃。

    也有网友呼吁关注 AI 在疾病治疗等实际应用。确实,除了 AGI 这些宏大叙事,AI 在医疗、气候、能源等领域的应用可能更快改变世界。

    最后,网友“Riseyourself” RL Narayanan(@rlnarayanan)echo 了 LeCun 并称:

    PIT STOP

    Game over(游戏结束)




    访谈链接:

    https://www.youtube.com/watch?v=lXUZvyajciY

    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和10000+群友交流。

    Codex 和 Claude Code,用哪个呢?

    当然是:全!都!要!

    本文 90% 是我用嘴写的(语音输入),当作周末做的一个小东西的整理,属于想到哪儿说到哪儿,硬凑了 10 点,如下:

    一、如果有条件,用最好的模型和工具。如果没有条件,就创造条件。

    这是一件收益远大于成本的事,ROI 极高,不用简直就是傻子。

    建议不要用中转。也许确实会贵一点,但你才有更强的动力 PUA 自己啊

    二、目前最好用的,当然就是 Claude Code 和 Codex 这两了。

    我两个都会用(官方模型),会混着用,一个不行就换另一个。当然这两也各有特点。

    性格上,Codex 属于是人狠话不多精准狙击但解释很全面,Claude Code 则大开大阖喜欢经常画()龙()点()精(),有时死于话多。

    当然,性格是可以通过记忆文件来调整的。

    三、混着用时,CLAUDE.md 和 Agents.md 如何保持同步呢?手动吗?

    当然不啊!

    Mac / Linux 用这个:

    ln -s CLAUDE.md AGENTS.md

    这个也一样:

    ln -s AGENTS.md CLAUDE.md

    Windows 应该是这个(我没试过):

    mklink CLAUDE.md AGENTS.md

    四、这两文件可以通过 /init 来生成,但出来后,一定要自己再改一遍。

    去掉不恰当的,增加遗漏的——这事,就别偷懒了。

    并在必要的时候让 AI 帮忙,继续更新它。

    五、比如我今天在 CLAUDE.MD 中新增的两个:

    ## Backend API Development Standards
    ### Performance Optimization- **Avoid I/O Operations in Loops**: never perform network operations inside for loops (HTTP requests, SQL execution, Redis reads, file reads, etc.). This is highly inefficient. Instead, use batch operations

    - **Pagination Implementation**:   - **DO NOT use OFFSET/LIMIT**SQL OFFSET becomes very inefficient with large offsets   - **Use cursor-based pagination**: Implement pagination using cursor approach with ORDER BY

    当然,这是 AI 帮忙写的,我要求加的。

    是我在 review 代码后让它不要这么干这种傻事重新写,并在它完成之后告诉说:请把上面的思路添加到记忆文件中。

    六、项目的目录结构也要加到里面,这样 AI 不容易迷路。可以用 tree 获取指定层数后贴里面,比如:

    $ tree -L 2.├── src│   ├── main.py│   ├── utils.py├── README.md├── docs│   ├── intro.md│   └── api.md

    同样,这也可以让 AI 自己干。

    七、可以加一句:每个文件尽量控制在 400 行内,一旦超过,就要触发重构,要模块化和高复用之类。

    八、若涉及前端页面,加一句:不要用蓝色,不要用紫色,不要用渐变色,要使用统一的主色和强调色

    99% 能解决 UI 的 AI 味儿——目前 90% 的 AI 产品的味道。见:十米远就能闻到AI 的味道😂

    九、很多时候效果不及预期,其实主要不是 AI 做的不好,而是自己的需求没有讲清楚,甚至还有矛盾。

    与其花时间折腾各种工具,不如多花一些精力去把 Prompt 写好。也就是把自己想要什么、问题是什么说清楚——和人交流差不多也一个意思。

    这样用 GLM4.6 等国产模型也能有不错的效果。

    十、Prompt 里,AI 容易犯错的、不擅长的要自己来,比如表结构和索引;AI 能干好的就少废话了,大部分它都能干好。

    这和当老板一个样:你需要提供清晰的目标、恰当的指导,并足够了解员工的能力边界。

    要学会并习惯当好一个老板:

    👇

    👇

    👇

    AI Coding 交流,请进群:

    生命科学研究,迎来了 AI 原生时代。

    刚刚,Anthropic 推出了专门为生命科学领域定制的 Claude for Life Sciences,计划从产品能力到合作生态进行全方位布局

    从文献检索到数据分析,从蛋白质结构预测到监管文档撰写,Claude 正试图成为科学家们最得力的 AI 助手。

    更狠的是,Anthropic 直接把 Claude 接入了 Benchling、PubMed 这些科研必备工具,还拉上了 Sanofi、AbbVie、Novo Nordisk 这些制药巨头。

    这是要重新定义科研工作流程的节奏。

    Skills 登场:AI 搞科研的「技能包」

    Anthropic 这次还带来了前两天新推出的 Skills 功能的使用,简单来说就是为 Claude 配备了一套专业技能包

    可以把它理解为给 Claude 准备的「技能包」,里面包含了指令、脚本和资源,让 Claude 能够更好地完成特定任务。

    而 Skills 对科研工作来说,这个功能简直是量身定制了。

    因为科学研究中有大量标准化的流程和协议,需要严格按照特定步骤执行。而有了 Skills,Claude 就能一致且可预测地遵循这些科学协议和程序。

    Claude performs quality control on single-cell RNA-seq data

    Anthropic 正在为 Claude 开发一系列科学技能,第一个推出的是 single-cell-rna-qc:单细胞 RNA 质量控制技能。

    这个技能可以对单细胞 RNA 测序数据进行质量控制和过滤,遵循的是 scverse 的最佳实践。

    更酷的是,科学家们还可以自己构建技能。

    如果你有特定的实验流程或分析方法,可以把它做成一个 Skill,让 Claude 学会并重复使用。

    这样,就不用每次都重新解释一遍流程了。

    Claude 直接懂生物学了

    Claude 在生物学基准测试中,表现出显著提升。

    在 Protocol QA 多选题测试中,Claude Sonnet 4.5 的准确率达到了91.7%,而这,相当于是一个经验丰富的实验室研究员的水平。

    但这还不是全部。

    Claude 现在能直接解读凝胶图像、分析显微镜照片、理解实验数据可视化。以前需要专门的图像分析软件才能做的事,现在对着 Claude 截个图就行了。

    Sanofi 已经把 Claude 整合进内部知识库,大部分员工每天都在用。他们的 Concierge 应用让 Claude 成了全公司的科研助手,从药物发现到临床试验,效率提升贯穿整个价值链。

    「我们看到了整个价值链的效率提升,团队协作方式都变了」,Sanofi 在声明中说,「这种与 Anthropic 的合作增强了人类专业知识,让救命药物更快到达患者手中。」

    接入科研生态系统

    Claude for Life Sciences 最大的亮点不是模型本身有多强,而是它深度整合了科研生态系统

    通过 MCP(Model Context Protocol)服务器,Claude 能直接访问 Benchling、PubMed 等平台。这意味着什么?

    Benchling 表示:「AI 在研发中需要通过生态系统发挥作用。Anthropic 带来最好的技术,同时优先考虑访问、治理和互操作性。Benchling 有独特的贡献位置。十多年来,科学家一直信任我们作为实验数据和工作流程的真相来源。现在我们正在构建 AI,为研发的下一章提供动力。」

    你在查文献时,Claude 不只是帮你搜索,它能直接调用 PubMed 的 API,筛选相关论文,提取关键信息,甚至帮你写文献综述。

    做实验记录时,Claude 能直接写入 Benchling,自动格式化实验步骤,标注关键参数,生成可重复的实验方案。

    这种深度整合让 Claude 不再是一个独立的工具,而是科研工作流中的原生组件

    从基因组学到临床试验

    Claude for Life Sciences 覆盖的应用场景之广,几乎涵盖了生命科学研究的每个角落。

    10x Genomics 的案例则别有意思。

    他们的单细胞和空间分析能力原本需要强大的计算专业知识,现在通过 Claude,研究人员可以用简单的英语对话完成分析任务,比对读数、生成矩阵、聚类、二次分析,全部用自然语言就能搞定。

    「这降低了新用户的门槛,同时满足了高级研究团队的需求。」10x Genomics 说。

    在文献和文档方面,Claude 能自动生成监管提交文件、编写临床试验报告、创建标准操作程序(SOP)。

    更为重要的是,它能确保这些文档符合 FDA 和 EMA 的合规要求。

    Genmab 看到了巨大潜力:「我们看到 Claude 在简化药物上市流程方面有巨大潜力。从临床数据源提取信息并创建符合 GxP 标准的输出的能力,将帮助我们更快地将改变生命的癌症疗法带给患者,同时保持最高的质量标准。」

    在生物信息学和数据分析领域,Claude Code 可以处理和分析基因组数据,还能以幻灯片、文档或代码笔记本的形式呈现结果。

    制药巨头 AI 转型

    几乎所有能叫得出名字的制药公司都在用 Claude。

    AbbVie 把 Claude 当成了运营基础。他们的 GAIA 平台利用 Claude 生成监管文件,确保大规模准确性。GenAIsys 为现场团队提供 AI 洞察,改善与医疗专业人员的互动。

    通过在 AWS 上整合 Claude 到工作流程中,他们提高了效率和互动质量。

    Novo Nordisk 也直接声称:「我们一直是制药开发中文档和内容自动化的先行者。与 Anthropic 和 Claude 的合作设立了新标准——我们不只是在自动化任务,而是在改变药物从发现到患者手中的方式。」

    学术界伙伴

    不只是产业界,学术研究机构也在拥抱 Claude。

    Broad Institute 的科学家追求生物学和医学中最雄心勃勃的问题。他们正在与 Manifold 合作开发 Terra Powered by Manifold。基于 Claude 构建的 AI agents 使科学家能够以全新的规模和效率工作,以前所未有的方式探索科学领域。

    Stanford University 用 Claude Code 开发了 Paper2Agent,这个项目的目标是将被动的研究论文转化为交互式 AI agents,它们可以充当虚拟通讯作者和合作科学家。

    「Claude Code 和与 Anthropic 的合作对开发 Paper2Agent 极其有价值」,Stanford 团队表示。

    生物技术创业公司的加速器

    对于生物技术创业公司,Claude 成了技术加速器。

    Schrödinger 的体验特别有代表性:「Claude Code 已成为我们的强大加速器。对于最合适的项目,Claude Code 让我们能在几分钟内将想法转化为工作代码,而不是几小时,在某些情况下使我们的速度提高了10 倍。」

    Latch Bio 在选择 AI 平台时考虑了三个关键因素:顶级软件开发能力、生命科学对齐和创业支持。他们评估了六个平台,Claude 是绝对的领导者。

    EvolutionaryScale 正在构建下一代 AI 系统来建模生命世界。「Anthropic 的前沿模型加速了我们推理复杂生物数据并将其转化为科学洞察的能力,帮助我们突破生命科学发现的可能性边界。」

    医疗数据分析新范式

    Komodo Health 的应用展示了另一种可能:「医疗分析需要专门为我们行业的复杂性和严谨性而构建的 AI。Komodo Health 与 Anthropic 的合作提供了透明、可审计的解决方案,专为受监管的医疗环境设计。我们一起使医疗保健和生命科学团队能够将耗时数周的分析工作流程转化为几分钟内的可操作情报。」

    AI 科学家的诞生

    Manifold 的愿景则更为宏大:「我们的使命是推动更快、更精简的生命科学。使用 Claude 构建使我们能够开发 AI agents,将科学家语义空间中的问题转化为专业数据集和工具技术空间中的执行。我们一起正在改变未来几年生命科学研发的方式。」

    FutureHouse 则把 Claude 用在了生物信息学和文献分析工作流中:「Claude 是我们进行准确图表分析和通过文献进行非线性搜索的首选模型。」

    Axiom Bio 的使用案例展示了 Claude 在预测药物毒性方面的潜力:「Claude 对 Axiom 构建预测药物毒性的 AI 来说是无价的。我们在 Claude Code 中使用了数十亿个 tokens 进行许多 PR。带有 MCP 服务器的 Claude agents 是我们科学工作的核心,直接查询数据库来解释、转换和测试数据相关性,帮助我们识别预测临床药物毒性最有用的特征。」

    咨询巨头的加入

    PwC 把 Claude 整合进了他们的生命科学咨询业务:「在 PwC,负责任的 AI 是信任的必要条件。我们将深厚的行业洞察与 Claude 的智能体智能相结合,重新构想临床、监管和商业团队的运作方式。我们不只是简化流程——我们在提升质量、加速发现,并构建信心与创新同步扩展的系统。」

    Fernando Maluf (@fernando_maluf) 评价:

    这是一大步——将 Claude 直接连接到 Benchling 和 PubMed 这样的科学生态系统,把语言模型与真实的实验工作流程连接起来了。

    Apollo (@0xApoIIo) 表示:

    AI 模型正在不断整合新平台,努力成为功能完备的界面(这显然是件好事)。

    AI for Science 计划

    除了商业产品,Anthropic 还在通过 AI for Science 计划支持学术研究。

    这个计划为全球领先的研究人员提供免费的 API 额度,支持他们在高影响力科学项目上的工作。

    通过与学术实验室的合作,不仅能帮助科学家们解决最紧迫的问题,也能帮助 Anthropic 发现 Claude 的新应用场景。

    目前该计划仍在接受项目申请

    如何使用

    Claude for Life Sciences 现在可以通过 Claude.com 和 AWS Marketplace 获得,Google Cloud Marketplace 的支持也即将推出。

    Anthropic 的生命科学合作伙伴负责人 Jonah Cool 和研发负责人 Eric Kauderer-Abrams 在视频中分享了他们的愿景:

    让 Claude 成为科学家们首选的 AI 研究助手。



    参考:https://www.anthropic.com/news/claude-for-life-sciences

    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

    欢迎加入!

    也欢迎加群和10000+群友交流。


    今天是一年一度的 10 月 24 号。

    程序员不一定要过情人节,但一定得过 1024。

    因为 1024 是 2 的 10 次方,是二进制世界的「整数」,是 1KB 的字节数,更是程序员们独有的节日密码。

    身为程序员,自然离不开 AI 编程了,而我的 AI Coding 一直是以 Claude Code 为主,OpenAI 为辅(我先前的文章中也有介绍)

    Claude Code 主要用来做粗粒度的事,比如从 0 到 1 的、或者大框架的、以及前端页面的任务。但有时,它确实在一些细节问题上悟性不够,甚至还会经常画蛇添足……这时 Codex 就能很好地起到一个补位的作用。

    可以说,两者也是各有优势。像是约好了似的,想把我的钱都赚走啊!

    但是呢,最近 Anthropic 在 Claude 降智之后,又开始频繁调整 Claude 的使用额度,也导致曾经从来没有碰到过频率限制的我,最近也频频受到了用量限制……(我是 200$ 的 Max 账号)

    在这危急关头,在这个最为特殊的日子,实力 + 整活并存的智谱又来了!

    智谱直接祭出了国内最强 Coding Model GLM-4.6 的程序员双 11 特价打折日!

    关于 GLM-4.6 模型的实力,在此不再赘述,可以看我前文:GLM-4.6 来了,与 Claude 4.5 仅差一点点

    图片

    4.5 和 4.6 本来也就,只差 0.1 点点

    限时特惠

    这是从 10 月 24 日到 10 月 31 日的,智谱为期 8 天的「拼好模」活动。

    活动细节:

    新人首单 5 折

    成功邀请新人下单返 40% 平台赠金,且上不封顶!

    被邀好友通过链接下单再减 10%

    而且,据说智谱也已经紧急扩容了服务器,此前被爆人太多时速度慢的问题,也基本,不存在了。

    参与活动

    两种方式:

    1. 点击含有我的邀请码的官方链接(也可以直接戳阅读原文):

    https://www.bigmodel.cn/claude-code?ic=XWH6WZD7KL

    登录后就可以生成专属的链接或海报。

    2. 长按下图中的二维码后省钱支付,再顺手邀请别人:

    我的邀请码海报


    利益相关

    上面的码是我的邀请码。

    同时,欢迎进 AI Coding 交流群,群里秀出充值的朋友截图后,等我的返现到账了我会全额发成群红包

    肥水不流外人群

    Meta 裁员逻辑揭晓了,是看代码行数谁的少就裁的谁!

    Yuchen Jin 爆料:有 Meta 内部人士透露,这次裁员是根据代码行数(lines of code diffs)来决定的

    这解释了为什么那些真正在构建模型的研究员和新员工们最惨——因为他们要么在训练模型,要么刚入职还没来得及疯狂提交代码。

    离谱

    按代码行数裁员,这可以说是离谱至极了……

    常识则是:最优秀的工程师往往会写最少的代码。

    不过也有网友献上对策:

    把模型权重当代码提交,这样能增加代码行数

    是时候滥用超长的 if else 语句了。

    背锅的 FAIR 团队

    更离谱的还有 FAIR 团队的遭遇。

    FAIR 成员、Meta 老员工 Yuandong Tian 说,他们团队被迫放下所有研究,在 Llama 4 发布前不到两个月被拉去 GenAI 做「脏活」。

    Yann LeCun 本人也一直觉得 LLM 不是通往 AGI 的路,结果 Meta 却把所有筹码都压在 LLM 上。

    图片

    LeCun 警告:别再搞LLM

    不给资源也就算了,但 LLM 的锅现在又交给了 FAIR 来买单——

    为技术路线的分歧而买单了也算是。

    启示

    虽然爆料并未经官方确认(事实上,也不可能被确认),但如果这是真的,也许是时候做空 Meta 了……

    不过呢,这事听着离谱,但确实也像那些不懂技术屁股决定脑袋的人能干出的事。

    所以说啊,为什么 vibe coding 这么火、那些每天疯狂提交垃圾代码的「vibe coders」写的上万行代码,其实还是蛮有价值的——起码工作稳如泰山啊!

    至于上裁员名单的事,就交给那些追求代码质量的工程师们去吧

    想要多些代码避免出现在名单?

    那就赶紧买个 GLM-4.6 的 1024 + 双十一优惠编码套餐吧!

    图片

    图里是我的码

    让 GLM-4.6 给你生成大量且能跑的代码,花小钱能保住大饭碗,这可能 ROI 超高的事




    [1] https://x.com/Yuchenj_UW/status/1981760651942080790


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!

    也欢迎加群和10000+群友交流。

    Claude 扩展了金融服务功能,可连接 Excel 处理财务数据了!

    刚刚,Anthropic 宣布推出 Claude for Financial Services,不仅增强了金融专属功能,还带来了 Excel 插件和与 Moody's、LSEG 等金融数据平台的整合。

    这意味着,Claude 要从写代码的西二旗程序员,变身穿西装打领带的国贸金融分析师了

    Excel 插件

    其中最引人注目的更新莫过于 Excel 和 Google Sheets 插件。

    这让 Claude 能直接在电子表格中分析和转换数据,再也不用在不同工具间来回切换了。

    想象一下:你正在处理一份复杂的财务报表,需要分析趋势、生成预测模型、创建可视化图表……

    现在,Claude 就在你的 Excel 里,随时待命。

    Kyle Balmer(@kylebalmer)兴奋地表示:

    excel add in!我知道很多极客(包括我自己)都为这个激动

    Capx AI(@0xCapx)则表示:

    Excel-ing

    连接金融数据的神经中枢

    不过,Claude 的野心可不止于此。

    通过 Model Context Protocol(MCP),Claude 现在能直接连接 Moody's、LSEG 等金融数据供应商的实时数据

    这就像给 Claude 装上了彭博终端:它能获取最新的市场数据、信用评级、财务报告,并基于这些信息进行深度分析。

    Moody's 数字内容与创新负责人 Cristina Pieretti 表示:

    通过我们的 GenAI 数据产品,我们继续支持客户的 AI 演进——通过语义层丰富我们的数据,并通过 Model Context Protocol(MCP)服务器和智能 API 交付。我们与 Anthropic 的合作让 Moody's 庞大的数据资产能够直接在客户创新的地方被访问。

    LSEG 数据与分析联席负责人 Ron Lefferts 也强调:

    LSEG 长期以来以开放、合作的方式而闻名,我们在客户工作流程所在的任何地方满足他们。像 Claude 这样安全、企业级的 AI 应用正在为 LSEG 与客户建立深度合作关系扩展机会。

    华尔街巨头纷纷入局

    Claude 在金融领域的影响力已经不容小觑。

    Citi 的 CTO David Griffiths 透露:

    Citi 选择将 Claude 作为其 AI 驱动的开发者平台的一部分,因为它具有先进的规划和智能体编码能力、对安全性和可靠性的关注,以及与我们工作负载的兼容性。

    RBC Capital Markets 的 AI 和数字创新主管 Bobby Grubert 称:

    与 Anthropic 合作不仅仅是部署另一个 AI 工具——而是与一家了解金融服务所需复杂性的公司合作。Claude 通过无缝整合多个数据源并自动化以前耗费大量时间的工作流程而表现出色。

    Block 显示数据惊人:

    75% 的工程师现在每周使用我们的开源 AI 智能体(代号 goose)创建 SQL 查询,节省 8 到 10 小时以上——加速交付速度并减少繁琐工作。对于我们关心的具体任务,Claude 系列表现最佳。

    Visa 的技术总裁 Rajat Taneja 则把眼光放得更远:

    我们将 AI 智能体视为商业的下一个演进——能够预测、建议和找到消费者需要的产品和服务的自主系统。这只有在建立在同意、隐私、透明度和安全性基础上的安全基础才有可能。Anthropic 是 Visa 实现这一梦想的关键合作伙伴,并分享我们关于负责任数据使用的价值观和原则。

    金融 AI 的未来

    从 BrexCoinbase 到 Jump Trading,从 Francisco Partners 到 Chronograph,Claude 想要重塑整个金融生态系统的工作方式。

    British Columbia Investment Management Corporation 的高级负责人 Christian Grunt 说:

    作为加拿大最大的机构投资者之一,BCI 致力于实验、构建和创新。Claude 加速了我们快速了解投资和基础投资组合进展的能力,让我们更有效。当我们推动可能性的边界时,我们对机会感到兴奋。

    Francisco Partners 的管理运营合伙人 Mike Barry 也分享了实际效果:

    通过我们与 Anthropic 的培训计划,我们看到投资组合公司采用 Claude Code 取得了显著成果。开发团队在几小时内完成复杂任务,而不是几天,我们听到以前持怀疑态度的工程师说,他们无法想象没有它的工作。

    Chronograph 的联合创始人兼 CEO Charlie Tafoya 更是雄心勃勃:

    Chronograph 与 Claude 的连接将从根本上改变我们客户的可能性——就像 Claude for Enterprise 改变了我们的内部运营一样。Chronograph 和 Claude 之间的合作使我们的客户能够在 Claude 强大的工具集中使用他们的私人资本投资组合数据,发现新见解、节省大量时间并实现卓越回报。

    razey(@razeyonx)开玩笑说:

    claude 现在是个金融兄弟了

    siggy(@signlr)则想要来个小目标:

    Claude,给我十亿美元。别出错

    进军金融服务的 Claude,显然,这是想让 AI 进一步在专业领域深度应用的再一个动作。

    从华尔街到陆家嘴,从投行到对冲基金,Claude 等 AI 正在尝试改写金融服务的游戏规则。

    而下一个被 AI 改变的,会是哪个行业呢?




    [1]

    来源: https://www.anthropic.com/news/advancing-claude-for-financial-services


    👇

    👇

    👇

    另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

    这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!

    也欢迎加群和10000+群友交流。