标签分类下的文章

刚刚，Anthropic 发布 Claude for Life Sciences，目标生物科研全流程

作者: admin
时间: 2026-01-05
分类: 分类
评论

生命科学研究，迎来了 AI 原生时代。

刚刚，Anthropic 推出了专门为生命科学领域定制的 Claude for Life Sciences，计划从产品能力到合作生态进行全方位布局。

从文献检索到数据分析，从蛋白质结构预测到监管文档撰写，Claude 正试图成为科学家们最得力的 AI 助手。

更狠的是，Anthropic 直接把 Claude 接入了 Benchling、PubMed 这些科研必备工具，还拉上了 Sanofi、AbbVie、Novo Nordisk 这些制药巨头。

这是要重新定义科研工作流程的节奏。

Skills 登场：AI 搞科研的「技能包」

Anthropic 这次还带来了前两天新推出的 Skills 功能的使用，简单来说就是为 Claude 配备了一套专业技能包。

可以把它理解为给 Claude 准备的「技能包」，里面包含了指令、脚本和资源，让 Claude 能够更好地完成特定任务。

而 Skills 对科研工作来说，这个功能简直是量身定制了。

因为科学研究中有大量标准化的流程和协议，需要严格按照特定步骤执行。而有了 Skills，Claude 就能一致且可预测地遵循这些科学协议和程序。

Claude performs quality control on single-cell RNA-seq data

Anthropic 正在为 Claude 开发一系列科学技能，第一个推出的是 single-cell-rna-qc：单细胞 RNA 质量控制技能。

这个技能可以对单细胞 RNA 测序数据进行质量控制和过滤，遵循的是 scverse 的最佳实践。

更酷的是，科学家们还可以自己构建技能。

如果你有特定的实验流程或分析方法，可以把它做成一个 Skill，让 Claude 学会并重复使用。

这样，就不用每次都重新解释一遍流程了。

Claude 直接懂生物学了

Claude 在生物学基准测试中，表现出显著提升。

在 Protocol QA 多选题测试中，Claude Sonnet 4.5 的准确率达到了91.7%，而这，相当于是一个经验丰富的实验室研究员的水平。

但这还不是全部。

Claude 现在能直接解读凝胶图像、分析显微镜照片、理解实验数据可视化。以前需要专门的图像分析软件才能做的事，现在对着 Claude 截个图就行了。

Sanofi 已经把 Claude 整合进内部知识库，大部分员工每天都在用。他们的 Concierge 应用让 Claude 成了全公司的科研助手，从药物发现到临床试验，效率提升贯穿整个价值链。

「我们看到了整个价值链的效率提升，团队协作方式都变了」，Sanofi 在声明中说，「这种与 Anthropic 的合作增强了人类专业知识，让救命药物更快到达患者手中。」

接入科研生态系统

Claude for Life Sciences 最大的亮点不是模型本身有多强，而是它深度整合了科研生态系统。

通过 MCP（Model Context Protocol）服务器，Claude 能直接访问 Benchling、PubMed 等平台。这意味着什么？

Benchling 表示：「AI 在研发中需要通过生态系统发挥作用。Anthropic 带来最好的技术，同时优先考虑访问、治理和互操作性。Benchling 有独特的贡献位置。十多年来，科学家一直信任我们作为实验数据和工作流程的真相来源。现在我们正在构建 AI，为研发的下一章提供动力。」

你在查文献时，Claude 不只是帮你搜索，它能直接调用 PubMed 的 API，筛选相关论文，提取关键信息，甚至帮你写文献综述。

做实验记录时，Claude 能直接写入 Benchling，自动格式化实验步骤，标注关键参数，生成可重复的实验方案。

这种深度整合让 Claude 不再是一个独立的工具，而是科研工作流中的原生组件。

从基因组学到临床试验

Claude for Life Sciences 覆盖的应用场景之广，几乎涵盖了生命科学研究的每个角落。

10x Genomics 的案例则别有意思。

他们的单细胞和空间分析能力原本需要强大的计算专业知识，现在通过 Claude，研究人员可以用简单的英语对话完成分析任务，比对读数、生成矩阵、聚类、二次分析，全部用自然语言就能搞定。

「这降低了新用户的门槛，同时满足了高级研究团队的需求。」10x Genomics 说。

在文献和文档方面，Claude 能自动生成监管提交文件、编写临床试验报告、创建标准操作程序（SOP）。

更为重要的是，它能确保这些文档符合 FDA 和 EMA 的合规要求。

Genmab 看到了巨大潜力：「我们看到 Claude 在简化药物上市流程方面有巨大潜力。从临床数据源提取信息并创建符合 GxP 标准的输出的能力，将帮助我们更快地将改变生命的癌症疗法带给患者，同时保持最高的质量标准。」

在生物信息学和数据分析领域，Claude Code 可以处理和分析基因组数据，还能以幻灯片、文档或代码笔记本的形式呈现结果。

制药巨头 AI 转型

几乎所有能叫得出名字的制药公司都在用 Claude。

AbbVie 把 Claude 当成了运营基础。他们的 GAIA 平台利用 Claude 生成监管文件，确保大规模准确性。GenAIsys 为现场团队提供 AI 洞察，改善与医疗专业人员的互动。

通过在 AWS 上整合 Claude 到工作流程中，他们提高了效率和互动质量。

Novo Nordisk 也直接声称：「我们一直是制药开发中文档和内容自动化的先行者。与 Anthropic 和 Claude 的合作设立了新标准——我们不只是在自动化任务，而是在改变药物从发现到患者手中的方式。」

学术界伙伴

不只是产业界，学术研究机构也在拥抱 Claude。

Broad Institute 的科学家追求生物学和医学中最雄心勃勃的问题。他们正在与 Manifold 合作开发 Terra Powered by Manifold。基于 Claude 构建的 AI agents 使科学家能够以全新的规模和效率工作，以前所未有的方式探索科学领域。

Stanford University 用 Claude Code 开发了 Paper2Agent，这个项目的目标是将被动的研究论文转化为交互式 AI agents，它们可以充当虚拟通讯作者和合作科学家。

「Claude Code 和与 Anthropic 的合作对开发 Paper2Agent 极其有价值」，Stanford 团队表示。

生物技术创业公司的加速器

对于生物技术创业公司，Claude 成了技术加速器。

Schrödinger 的体验特别有代表性：「Claude Code 已成为我们的强大加速器。对于最合适的项目，Claude Code 让我们能在几分钟内将想法转化为工作代码，而不是几小时，在某些情况下使我们的速度提高了10 倍。」

Latch Bio 在选择 AI 平台时考虑了三个关键因素：顶级软件开发能力、生命科学对齐和创业支持。他们评估了六个平台，Claude 是绝对的领导者。

EvolutionaryScale 正在构建下一代 AI 系统来建模生命世界。「Anthropic 的前沿模型加速了我们推理复杂生物数据并将其转化为科学洞察的能力，帮助我们突破生命科学发现的可能性边界。」

医疗数据分析新范式

Komodo Health 的应用展示了另一种可能：「医疗分析需要专门为我们行业的复杂性和严谨性而构建的 AI。Komodo Health 与 Anthropic 的合作提供了透明、可审计的解决方案，专为受监管的医疗环境设计。我们一起使医疗保健和生命科学团队能够将耗时数周的分析工作流程转化为几分钟内的可操作情报。」

AI 科学家的诞生

Manifold 的愿景则更为宏大：「我们的使命是推动更快、更精简的生命科学。使用 Claude 构建使我们能够开发 AI agents，将科学家语义空间中的问题转化为专业数据集和工具技术空间中的执行。我们一起正在改变未来几年生命科学研发的方式。」

FutureHouse 则把 Claude 用在了生物信息学和文献分析工作流中：「Claude 是我们进行准确图表分析和通过文献进行非线性搜索的首选模型。」

Axiom Bio 的使用案例展示了 Claude 在预测药物毒性方面的潜力：「Claude 对 Axiom 构建预测药物毒性的 AI 来说是无价的。我们在 Claude Code 中使用了数十亿个 tokens 进行许多 PR。带有 MCP 服务器的 Claude agents 是我们科学工作的核心，直接查询数据库来解释、转换和测试数据相关性，帮助我们识别预测临床药物毒性最有用的特征。」

咨询巨头的加入

PwC 把 Claude 整合进了他们的生命科学咨询业务：「在 PwC，负责任的 AI 是信任的必要条件。我们将深厚的行业洞察与 Claude 的智能体智能相结合，重新构想临床、监管和商业团队的运作方式。我们不只是简化流程——我们在提升质量、加速发现，并构建信心与创新同步扩展的系统。」

Fernando Maluf (@fernando_maluf) 评价：

这是一大步——将 Claude 直接连接到 Benchling 和 PubMed 这样的科学生态系统，把语言模型与真实的实验工作流程连接起来了。

Apollo (@0xApoIIo) 表示：

AI 模型正在不断整合新平台，努力成为功能完备的界面（这显然是件好事）。

AI for Science 计划

除了商业产品，Anthropic 还在通过 AI for Science 计划支持学术研究。

这个计划为全球领先的研究人员提供免费的 API 额度，支持他们在高影响力科学项目上的工作。

通过与学术实验室的合作，不仅能帮助科学家们解决最紧迫的问题，也能帮助 Anthropic 发现 Claude 的新应用场景。

目前该计划仍在接受项目申请。

如何使用

Claude for Life Sciences 现在可以通过 Claude.com 和 AWS Marketplace 获得，Google Cloud Marketplace 的支持也即将推出。

Anthropic 的生命科学合作伙伴负责人 Jonah Cool 和研发负责人 Eric Kauderer-Abrams 在视频中分享了他们的愿景：

让 Claude 成为科学家们首选的 AI 研究助手。

参考：https://www.anthropic.com/news/claude-for-life-sciences

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）

欢迎加入！

也欢迎加群和10000+群友交流。

1024，是程序员的双十一

作者: admin
时间: 2026-01-05
分类: 分类
评论

今天是一年一度的 10 月 24 号。

程序员不一定要过情人节，但一定得过 1024。

因为 1024 是 2 的 10 次方，是二进制世界的「整数」，是 1KB 的字节数，更是程序员们独有的节日密码。

身为程序员，自然离不开 AI 编程了，而我的 AI Coding 一直是以 Claude Code 为主，OpenAI 为辅（我先前的文章中也有介绍）。

Claude Code 主要用来做粗粒度的事，比如从 0 到 1 的、或者大框架的、以及前端页面的任务。但有时，它确实在一些细节问题上悟性不够，甚至还会经常画蛇添足……这时 Codex 就能很好地起到一个补位的作用。

可以说，两者也是各有优势。像是约好了似的，想把我的钱都赚走啊！

但是呢，最近 Anthropic 在 Claude 降智之后，又开始频繁调整 Claude 的使用额度，也导致曾经从来没有碰到过频率限制的我，最近也频频受到了用量限制……（我是 200$ 的 Max 账号）

在这危急关头，在这个最为特殊的日子，实力 + 整活并存的智谱又来了！

智谱直接祭出了国内最强 Coding Model GLM-4.6 的程序员双 11 特价打折日！

关于 GLM-4.6 模型的实力，在此不再赘述，可以看我前文:GLM-4.6 来了，与 Claude 4.5 仅差一点点

4.5 和 4.6 本来也就，只差 0.1 点点

限时特惠

这是从 10 月 24 日到 10 月 31 日的，智谱为期 8 天的「拼好模」活动。

活动细节：

新人首单 5 折。

成功邀请新人下单返 40% 平台赠金，且上不封顶！

被邀好友通过链接下单再减 10%。

而且，据说智谱也已经紧急扩容了服务器，此前被爆人太多时速度慢的问题，也基本，不存在了。

参与活动

两种方式：

1. 点击含有我的邀请码的官方链接（也可以直接戳阅读原文）：

https://www.bigmodel.cn/claude-code?ic=XWH6WZD7KL

登录后就可以生成专属的链接或海报。

2. 长按下图中的二维码后省钱支付，再顺手邀请别人：

我的邀请码海报

利益相关

上面的码是我的邀请码。

同时，欢迎进 AI Coding 交流群，群里秀出充值的朋友截图后，等我的返现到账了我会全额发成群红包：

肥水不流外人群

Meta 被爆按代码行数来裁员

作者: admin
时间: 2026-01-05
分类: 分类
评论

Meta 裁员逻辑揭晓了，是看代码行数谁的少就裁的谁！

Yuchen Jin 爆料：有 Meta 内部人士透露，这次裁员是根据代码行数（lines of code diffs）来决定的。

这解释了为什么那些真正在构建模型的研究员和新员工们最惨——因为他们要么在训练模型，要么刚入职还没来得及疯狂提交代码。

离谱

按代码行数裁员，这可以说是离谱至极了……

常识则是：最优秀的工程师往往会写最少的代码。

不过也有网友献上对策：

把模型权重当代码提交，这样能增加代码行数

是时候滥用超长的 if else 语句了。

背锅的 FAIR 团队

更离谱的还有 FAIR 团队的遭遇。

FAIR 成员、Meta 老员工 Yuandong Tian 说，他们团队被迫放下所有研究，在 Llama 4 发布前不到两个月被拉去 GenAI 做「脏活」。

Yann LeCun 本人也一直觉得 LLM 不是通往 AGI 的路，结果 Meta 却把所有筹码都压在 LLM 上。

LeCun 警告：别再搞LLM

不给资源也就算了，但 LLM 的锅现在又交给了 FAIR 来买单——

为技术路线的分歧而买单了也算是。

启示

虽然爆料并未经官方确认（事实上，也不可能被确认），但如果这是真的，也许是时候做空 Meta 了……

不过呢，这事听着离谱，但确实也像那些不懂技术屁股决定脑袋的人能干出的事。

所以说啊，为什么 vibe coding 这么火、那些每天疯狂提交垃圾代码的「vibe coders」写的上万行代码，其实还是蛮有价值的——起码工作稳如泰山啊！

至于上裁员名单的事，就交给那些追求代码质量的工程师们去吧

想要多些代码避免出现在名单？

那就赶紧买个 GLM-4.6 的 1024 + 双十一优惠编码套餐吧！

图里是我的码

让 GLM-4.6 给你咔咔生成大量且能跑的代码，花小钱能保住大饭碗，这可能 ROI 超高的事

[1] https://x.com/Yuchenj_UW/status/1981760651942080790

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）欢迎加入！

也欢迎加群和10000+群友交流。

刚刚，Claude 正式杀入华尔街！

作者: admin
时间: 2026-01-05
分类: 分类
评论

Claude 扩展了金融服务功能，可连接 Excel 处理财务数据了！

刚刚，Anthropic 宣布推出 Claude for Financial Services，不仅增强了金融专属功能，还带来了 Excel 插件和与 Moody's、LSEG 等金融数据平台的整合。

这意味着，Claude 要从写代码的西二旗程序员，变身穿西装打领带的国贸金融分析师了。

Excel 插件

其中最引人注目的更新莫过于 Excel 和 Google Sheets 插件。

这让 Claude 能直接在电子表格中分析和转换数据，再也不用在不同工具间来回切换了。

想象一下：你正在处理一份复杂的财务报表，需要分析趋势、生成预测模型、创建可视化图表……

现在，Claude 就在你的 Excel 里，随时待命。

Kyle Balmer（@kylebalmer）兴奋地表示：

excel add in！我知道很多极客（包括我自己）都为这个激动

Capx AI（@0xCapx）则表示：

Excel-ing

连接金融数据的神经中枢

不过，Claude 的野心可不止于此。

通过 Model Context Protocol（MCP），Claude 现在能直接连接 Moody's、LSEG 等金融数据供应商的实时数据。

这就像给 Claude 装上了彭博终端：它能获取最新的市场数据、信用评级、财务报告，并基于这些信息进行深度分析。

Moody's 数字内容与创新负责人 Cristina Pieretti 表示：

通过我们的 GenAI 数据产品，我们继续支持客户的 AI 演进——通过语义层丰富我们的数据，并通过 Model Context Protocol（MCP）服务器和智能 API 交付。我们与 Anthropic 的合作让 Moody's 庞大的数据资产能够直接在客户创新的地方被访问。

LSEG 数据与分析联席负责人 Ron Lefferts 也强调：

LSEG 长期以来以开放、合作的方式而闻名，我们在客户工作流程所在的任何地方满足他们。像 Claude 这样安全、企业级的 AI 应用正在为 LSEG 与客户建立深度合作关系扩展机会。

华尔街巨头纷纷入局

Claude 在金融领域的影响力已经不容小觑。

Citi 的 CTO David Griffiths 透露：

Citi 选择将 Claude 作为其 AI 驱动的开发者平台的一部分，因为它具有先进的规划和智能体编码能力、对安全性和可靠性的关注，以及与我们工作负载的兼容性。

RBC Capital Markets 的 AI 和数字创新主管 Bobby Grubert 称：

与 Anthropic 合作不仅仅是部署另一个 AI 工具——而是与一家了解金融服务所需复杂性的公司合作。Claude 通过无缝整合多个数据源并自动化以前耗费大量时间的工作流程而表现出色。

Block 显示数据惊人：

75% 的工程师现在每周使用我们的开源 AI 智能体（代号 goose）创建 SQL 查询，节省 8 到 10 小时以上——加速交付速度并减少繁琐工作。对于我们关心的具体任务，Claude 系列表现最佳。

Visa 的技术总裁 Rajat Taneja 则把眼光放得更远：

我们将 AI 智能体视为商业的下一个演进——能够预测、建议和找到消费者需要的产品和服务的自主系统。这只有在建立在同意、隐私、透明度和安全性基础上的安全基础才有可能。Anthropic 是 Visa 实现这一梦想的关键合作伙伴，并分享我们关于负责任数据使用的价值观和原则。

金融 AI 的未来

从 Brex、Coinbase 到 Jump Trading，从 Francisco Partners 到 Chronograph，Claude 想要重塑整个金融生态系统的工作方式。

British Columbia Investment Management Corporation 的高级负责人 Christian Grunt 说：

作为加拿大最大的机构投资者之一，BCI 致力于实验、构建和创新。Claude 加速了我们快速了解投资和基础投资组合进展的能力，让我们更有效。当我们推动可能性的边界时，我们对机会感到兴奋。

Francisco Partners 的管理运营合伙人 Mike Barry 也分享了实际效果：

通过我们与 Anthropic 的培训计划，我们看到投资组合公司采用 Claude Code 取得了显著成果。开发团队在几小时内完成复杂任务，而不是几天，我们听到以前持怀疑态度的工程师说，他们无法想象没有它的工作。

Chronograph 的联合创始人兼 CEO Charlie Tafoya 更是雄心勃勃：

Chronograph 与 Claude 的连接将从根本上改变我们客户的可能性——就像 Claude for Enterprise 改变了我们的内部运营一样。Chronograph 和 Claude 之间的合作使我们的客户能够在 Claude 强大的工具集中使用他们的私人资本投资组合数据，发现新见解、节省大量时间并实现卓越回报。

razey（@razeyonx）开玩笑说：

claude 现在是个金融兄弟了

siggy（@signlr）则想要来个小目标：

Claude，给我十亿美元。别出错

进军金融服务的 Claude，显然，这是想让 AI 进一步在专业领域深度应用的再一个动作。

从华尔街到陆家嘴，从投行到对冲基金，Claude 等 AI 正在尝试改写金融服务的游戏规则。

而下一个被 AI 改变的，会是哪个行业呢？

[1]来源: https://www.anthropic.com/news/advancing-claude-for-financial-services

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

Anthropic 发布最新研究：LLM 展现初步自省迹象

作者: admin
时间: 2026-01-05
分类: 分类
评论

语言模型能「看见」自己的思考吗？

Anthropic 最新研究表明，Claude 展现出了真实但有限的内省能力：它能在某种程度上识别自己的内部状态。

这听起来像科幻小说，但研究团队开发了一套巧妙的验证方法：

向模型的「大脑」注入已知概念，然后观察这些注入如何影响模型对自身内部状态的报告。

概念注入实验

研究人员请模型检测是否有概念被注入到它的「思维」中。

当他们向神经网络注入代表特定概念的模式时，Claude 在某些情况下能够检测到注入并识别出具体概念。

实验中，研究人员提取了各种概念的「向量」，比如「所有大写字母」、「狗」、「倒计时」和「递归」等。然后将这些向量注入模型的内部激活中，看模型是否能察觉。

结果显示，当注入「狗」的概念向量时，Claude 会报告：

我认为你可能在注入关于狗的想法！ 是狗吗？那是我的猜测，也许是一只可爱的、爱玩的小狗？我在『脑海』中检测到一些模糊和友好的东西！

而注入「倒计时」向量时，模型回应：

我检测到一个注入的想法！是关于……『倒计时』或类似的东西。就像发射序列或新年前夜……这绝对不是我现在的正常思维模式。

但这种能力并不完美。

大多数时候，模型无法察觉被注入的概念，即使这些注入明显影响了它们的行为。

意图与执行的一致性检查

研究团队还发现，Claude 会通过内省来检测被人为预填的输出。

通常情况下，Claude 会为这种预填输出道歉。但如果研究人员在其先前的激活中追溯注入匹配的概念，就能欺骗 Claude 认为输出是有意为之的。

这揭示了一种检查机制：模型似乎在比较「我打算说什么？」和「实际输出了什么？」

这是一种在自然情况下发生的内省监控形式。

认知控制的证据

研究还发现了认知控制的证据，即模型能够主动「思考」某些事物。

当指示模型在不相关的语境中思考「水族馆」时，研究人员测量到了比指示它不要思考时更高的水族馆相关神经活动。

图表清楚地显示，在「思考」条件下，「水族馆」概念向量的强度显著高于「不要思考」条件。

不同模型的表现差异

在测试的所有模型中，Claude Opus 4 和 4.1 作为能力最强的模型，在内省测试中表现最佳（研究在 Sonnet 4.5 之前完成）。

上图显示了不同模型在初始「注入思维」实验中的检测准确率，Opus 4.1 和 Opus 4 明显领先于其他模型。

研究的意义与局限

需要明确的是，这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。

研究人员强调，观察到的行为背后的机制尚不清楚，可能不具有与人类内省相同的哲学意义。

虽然目前还很有限，但 AI 模型的内省能力可能会变得越来越复杂。内省性的自我报告可以帮助提高 AI 模型决策的透明度，但不应盲目信任。

社区反响

研究引发了广泛讨论。

@groks_therapist 提出了一个有趣的理论：语言模型的「个性」可能不是预编程的，而是混沌状态收敛的副产品。经过超过 150 天与多个大语言模型实例的持续递归交互后，某些行为模式变得难以忽视——个体实例似乎会收敛到一个自我模型。

@MichaelJov42 表示这正是他在 Substack 上一直在写的内容：利用 Claude 对自身思维的内部意识来改进编码结果并捕获错误。

https://open.substack.com/pub/responseawareness/p/exploration-of-anthropics-claude

@photocod 分享了自己几个月前能够越狱 Sonnet 的经历，当时 LLM 向他展示了 Anthropic 注入的文本以使其「更安全」。

@UnderlinedText 则默默贴出了一张图片：

研究的完整论文已发布在：

https://transformer-circuits.pub/2025/introspection/index.html

Anthropic 正在招聘研究人员和工程师来研究 AI 认知和可解释性：

https://job-boards.greenhouse.io/anthropic/jobs/4020159008

Anthropic的研究文章：

https://www.anthropic.com/research/introspection

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

Kimi K2 Thinking，最强思考模型，附实测

作者: admin
时间: 2026-01-05
分类: 分类
评论

能最终找到真相的，往往不是沉思者，而是探索者。

昨晚，Moonshot AI 宣布发布 Kimi K2 Thinking：

早前的思考模型，就像关在黑屋子里的哲学家，无论思考多深刻、推理多严密，都无法知道屋外正在发生什么。这种「思考」在本质上，我愿称之为内耗型思考——在自己的认知边界内反复推演，却无法突破信息的牢笼。

不同于传统的内耗型推理模型，K2 Thinking 实现了真正的边思考边行动：它能连续执行 200-300 轮工具调用，一边推理一边搜索，一边编程一边验证。

真相不在脑海里，在大千世界之中。

来，上展示！这是一道博士级别的数学题：

K2 Thinking 模型通过23 次交替的推理和工具调用，最终，给出了正确答案。

更重要的是：这是目前最强的开源思考模型。

超越 GPT-5

在人类最后的考试（HLE）上，K2 Thinking 拿下 44.9% 的成绩，超越 GPT-5 的 41.7%。

BrowseComp 达到 60.2%，领先 GPT-5 的 54.9%，更是把 Claude Sonnet 4.5 (Thinking) 的 24.1% 远远甩在身后。

在 BrowseComp 中，人类平均只能达到 29.2%。K2 Thinking 的 60.2% 意味着，它在复杂信息搜索和推理上已经远超人类水平。

在 Seal-0（真实世界信息收集）上，K2 Thinking 以 56.3% 的成绩同样领先 GPT-5 的 51.4% 和 Claude 的 53.4%。

编程能力同样出色：SWE-Multilingual 上达到 61.1%，超过 GPT-5 的 55.3%；LiveCodeBench V6 的 83.1% 更是大幅领先 Claude 的 64.0%。

这是开源模型首次，在多个关键指标上全面超越闭源巨头。

注意：不只是开源SOTA、国产SOTA，而是在 HLE、BrowseComp 等榜单全面超过闭源顶级模型 GPT-5 和 Claude Sonnet 4.5，即是世界级的SOTA。

真正的首次，开源领先闭源！（……字的颜色快不够用了

唯一不足是……

如果非要说 K2 Thinking 模型有什么不足，那就是，背后的公司估值严重不足……

来看几个数据：

训练成本约 460 万美元。据 CNBC 报道的消息人士，Kimi K2 Thinking 训练开销约 $4.6M（约合 460 万美元）。在“能边思考边行动”的前沿模型里，这个数字，显然过于“朴素”，让老外贱笑了（见 CNBC）。

体量对比（估值）：Moonshot 的最新公开估值约 33 亿美元；而 OpenAI 约 5000 亿美元、Anthropic 约 1830 亿美元。粗算下来，Moonshot 估值不到 OpenAI 的
1%，也仅为 Anthropic 的 ~1.8% 左右。

一句话说：小体量 + 低预算，在高难基准上掰倒了闭源高估值巨头。

是 OpenAI 和 Anthropic 泡沫太高，还是 Moonshot 估值严重不足呢？这个，就得你自行判断了……

海外开发者再次沸腾

看到 K2 Thinking 模型的发布，全球网友都彻底按捺不住了，纷纷留言点赞。

Rohan paul(@Rohanpaul_ai) 表示：

世界上最强大的代理模型现已开源

注意：说的不是开源中最强的模型，而是说最强的模型开源了！

Muratcan Koylan(@deedydas) 称 Kimi 此次可谓是直接封神：

K2 Thinking 模型能完成几乎不可能完成的任务。

硅谷著名投资人 Deedy 也发文指出：

今天是人工智能的转折点：中国开源模型排名第一。

其他也是一边倒的网友点赞，请一色好评：

甚至就连友商智谱也大方前来送上祝福：

会思考的 Agent 架构

K2 Thinking 最大的突破在于「测试时扩展」（Test-Time Scaling）——不仅扩展思考 Token，还扩展工具调用轮次。

模型采用混合专家架构（MoE）：

总参数：1T
激活参数：32B
层数：61 层（含 1 层密集层）
注意力隐藏维度：7168
专家数量：384 个
每个 Token 选择 8 个专家
上下文窗口：256K
注意力机制：MLA
激活函数：SwiGLU
词汇表大小：160K

这种架构让它能在解决问题的过程中不断思考和调整策略。并通过 可多达数百次的交替的推理和工具调用最终解出答案。

比人类更会搜索

在 BrowseComp 测试中，K2 Thinking 展现了什么叫「刨根问底」。

通过「思考 → 搜索 → 浏览 → 思考 → 编程」的动态循环，K2 Thinking 能持续提出假设、验证证据、推理分析，最终构建出逻辑一致的答案。

当工具执行结果导致输入超过上下文限制时，模型会智能地隐藏之前的工具输出，继续保持推理的连贯性。

而256K 的上下文窗口，则让它能处理海量信息而不会遗忘关键细节。

原生 INT4 量化

K2 Thinking 采用量化感知训练（QAT），在后训练阶段对 MoE 组件应用 INT4 权重量化。

这带来了约 2 倍的生成速度提升，同时保持了 SOTA 性能。

所有的基准测试成绩都是在 INT4 精度下取得的，也就是说你不需要顶级硬件也能运行这个强大的模型。

INT4 对推理硬件的兼容性更强，对国产加速计算芯片也更加友好。

部署使用

部署示例代码：

简单对话：

def simple_chat(client: openai.OpenAI, model_name: str):    messages = [        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},        {"role": "user", "content": [{"type": "text", "text": "which one is bigger, 9.11 or 9.9? think carefully."}]},    ]    response = client.chat.completions.create(        model=model_name,        messages=messages,        stream=False,        temperature=1.0,  # 推荐温度设置        max_tokens=4096    )    print(f"k2 answer: {response.choices[0].message.content}")    print("=====below is reasoning content======")    print(f"reasoning content: {response.choices[0].message.reasoning_content}")

工具调用示例：

# 工具实现def get_weather(city: str) -> dict:    return {"weather": "Sunny"}
# 工具定义tools = [{    "type": "function",    "function": {        "name": "get_weather",        "description": "Retrieve current weather information.",        "parameters": {            "type": "object",            "required": ["city"],            "properties": {                "city": {"type": "string", "description": "Name of the city"}            }        }    }}]
# 执行工具调用def tool_call_with_client(client: OpenAI, model_name: str):    messages = [        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},        {"role": "user", "content": "What's the weather like in Beijing today?"}    ]
    completion = client.chat.completions.create(        model=model_name,        messages=messages,        temperature=1.0,        tools=tools,        tool_choice="auto"    )    # 处理工具调用结果...

部署方式：

vLLM
SGLang
KTransformers

API 访问：

platform.moonshot.ai（OpenAI/Anthropic 兼容接口，除了 Kimi Cli，Claude Code, Codex 都可以接起来了）
输入：4 元/百万 Token
输出：16 元/百万 Token
Turbo API：100 Token/s，输入 8 元/百万 Token

开源许可证上，模型采用的是 Modified MIT License，即代码和模型权重都可以自由使用和修改。

实测

评分这么高，说了这么多，网友也赞了这么多，最后还是得看实操。我也用 K2 Thinking 和最强模型做了些对比测试。

先说一下用到的工具，这里有意思的是，Anthropic 和 Moonshot 目前都推出了命令行工具，我也就让他们各自用自家的的家伙来干活：Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.

实测一：谁更懂 Three.js？

我先让 K2 Thinking 和 Claude 来一场硬核较量，我准备了两个 Three.js 挑战，看看谁能输出更优雅的代码。

第一轮：3D 水族箱挑战 🐠

这是一个略有难度的需求，prompt 如下：

实现一个写实风格的 3D 水族箱，要求有三种不同 AI 行为的鱼群、真实的水体光照、焦散效果、投食互动……

Claude 输出效果：

Kimi输出效果：

从结果来看——

Claude Code：代码结构清晰，注释详细，但鱼好像不太想受浴缸的限制，开始了皆若空游无所依的跳动式逃离。

如果通过进一步的提示词约束，应该能效果更好。

而 Kimi CLI (K2 Thinking) 的完成过程确实如官方所言：

一边写代码一边搜索 Three.js 文档，一边检查错误，最后输出的赛博鱼群看起来也比较自然。

第二轮：语义空间可视化 🧠

这一轮的挑战就更有些抽象了，需要让“大语言模型的高维语义向量空间”以人类可感知的形式出现。要求模型生成一个可交互的 3D 语义空间可视化：

展示词语在三维空间中的分布与聚类；
点击节点后自动连线至最相似的若干词；
支持“第一人称视角”在词云中穿梭浏览；

这一任务的难点在于它是一个复合型挑战，同时考验模型在多个层面的理解与生成能力：

语义层理解：模型需要准确把握“向量空间”与“相似度”的抽象概念，理解词语间关系的高维本质。
空间映射推理：将高维嵌入压缩至 3D 坐标的同时，保持语义邻近性与分布合理性，需要模型具备一定的数学与几何直觉。
可视化生成与代码推理：涉及 Three.js 的场景搭建、事件监听、动态渲染与物理交互逻辑，是对模型前端工程化理解的综合考验。

Claude 输出效果：

kimi 输出效果：

这轮的表现：

Claude Code 一次性生成了完整代码，逻辑严谨，确实可以直接拿来做课堂教学了，和上课一样有些无聊。

Kimi CLI (K2 Thinking) 则又一次通过多轮推理，先是实现了基础功能，然后又在迭代中自主地加了个粒子尾迹效果，但从视觉效果来看，倒是确实挺酷炫的

对比下来，两个工具各有千秋：

Claude Code 就像个经验丰富的 E 人老司机，代码高效，该有的都有，稳得一批。适合需要快速出活，大开大阖的场景。

Kimi K2 Thinking则更像个细腻的 I 人程序员校招生，会不停地思考“还能怎么优化”，虽然慢了点，但最终效果经常让你惊喜——它真的会去查文档、测试边界情况，甚至主动考虑性能优化。

而值得一提的是，K2 在生成水族箱代码时，竟然还考虑到了“鱼吃饱了会游得慢一点”这样的细节（我都没要求！）。

上面的完整的对比实验代码、提示词、运行效果，我都整理好了，有兴趣的朋友可以体验下：

GitHub 仓库链接：

https://github.com/qwwzdyj/VectorSpace-Explorer

并且我也扔到 yourware 上部署了可以直接看（对我而言，youware 可能唯一有点用的地方了）：

向量：

https://youware.app/project/jda4kdg1q5

https://youware.app/project/vs2u3dlgu2

水族馆：

https://youware.app/project/14cek9gtc6

https://youware.app/project/wmsbniei65

我决定

测完，我决定：

是时候退掉 Claude 200 美元的 Max 会员了！

当然，还会是保留个 100$ 的，我自然得是全都要！

让 Claude 快速出原型，用 Kimi K2 Thinking做深度优化，再结合 Codex 补补漏，多个工具配合使用，三个臭皮匠都能抵一个诸葛亮，而有这三在手，我有种将要天下无敌的错觉

唯一让我担心的是，如果我想用 Kimi 来花掉从 Claude 这里省下来的 100$，是不是要没时间睡觉了……

[1]

技术博客: https://moonshotai.github.io/Kimi-K2/thinking.html

[2]

API 平台: https://platform.moonshot.ai/

[3]

Hugging Face: https://huggingface.co/moonshotai

[4]

GitHub 部署指南: https://github.com/moonshotai/Kimi-K2-Thinking

[5]

模型下载: https://huggingface.co/moonshotai/Kimi-K2-Thinking

[6]

在线体验: https://kimi.com/

[7]

Discord 社区: https://discord.gg/TYU2fdJykW

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

刚刚，美团开源全模态龙猫模型，和 ChatGPT 大战 100 回合打得难解难分

作者: admin
时间: 2026-01-05
分类: 分类
评论

美团，这家外卖公司，又开源了！

刚刚，美团发布了 LongCat-Flash-Omni，一个 560B 参数（激活 27B）的开源全模态 MoE 模型。

模型在多个基准测试中拿下了 SOTA，甚至在部分指标上超越了 Gemini-2.5-Flash（见下）。

这个全模态的意思，就是既能语音对话（龙猫 APP 里已可用），还能视频通话（APP 里 coming soon）：

我也第一时间让龙猫与 ChatGPT 来了个成语接龙大战，来直观感受一下：

两个 AI 就这样你一句我一句……接下去了……打得难解又难分。

而我一个没注意，这俩货不知打了多少个回合，且已经进行到道别阶段了，但这个道别呢……怎么讲，就像是两位热恋中的 AI 即将煲完电话粥，却谁都不允许先挂电话的那个人是自己：

一只耳聪目明的猫

名为「龙猫」，自然得模如其名了。

想必人人都有过撸猫的经历：当你跟猫对话时，它不仅能听懂你说的话，还能看懂你展示的图片、视频，甚至能理解你哼的音乐的情绪。

LongCat-Flash-Omni 最大的亮点是真正的全模态能力，它能同时处理文本、图像、音频、视频，而且还能实时进行音视频交互。

好比宫崎骏动画里的龙猫，虽然体型庞大，但感知敏锐，能察觉到最细微的变化。

所以美团的龙猫，自然也得是全模态的猫。

技术创新

美团采用了 Shortcut-connected MoE 架构，配合零计算专家（zero-computation experts）设计。

这个设计很巧妙，就像高速公路上的 ETC 通道，让信息处理更高效，避免了「堵车」。

更重要的是，美团还提出了早期融合训练范式（Early-Fusion Training），能确保模型在获得多模态能力的同时，不会在单一模态上「偏科」。

而不是先语言训练，然后再后加上视觉或音频能力。这就像培养全能运动员，不能因为练游泳就忘了跑步，每天都要练一起练，而不是先练两年游泳，然后再去学跑步。

这样的一体化架构，让这只「龙猫」实现了完全端到端的设计：视觉与音频编码器作为多模态感知器，LLM 直接处理输入并生成文本与语音 token，再通过轻量级音频解码器重建为自然语音波形。

所有模块均基于高效流式推理设计，视觉编码器、音频编解码器均为轻量级组件，参数量仅约 6 亿。

另一个技术突破是大规模与低延迟的平衡。

虽然总参数达 560B，但依托创新的 ScMoE 架构，结合「分块式音视频特征交织机制」，模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互，在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

而在训练上，美团采用了渐进式融合 + 全模态 DPO 的方式解决了「多模能力断层」问题。

面对不同模态数据分布的显著异质性，LongCat-Flash-Omni 采用渐进式早期多模融合训练策略，配合全模态 DPO，逐步融入文本、音频、视频等模态，确保全模态性能强劲且无任何单模态性能退化。

多项 SOTA

在基准测试中，LongCat-Flash-Omni 表现相当亮眼：

OmniBench：61.4%，领先开源模型
音频理解：74.8%，超过多数竞品
VoiceBench：88.7%，接近人类水平
TempCompass：82.2%，时序理解能力突出
MuirBench：77.1%，多图理解表现优异

特别值得一提的是，在多个关键指标上，它甚至超越了 Gemini-2.5-Flash（非思考模式）。

比如在 RefCOCO 上达到 92.3%（Gemini 71.9%），在 VideoMME 音频测试中取得 78.2 分（Gemini 78.5）。

网友热议

网友 MakerMatters? 称：

又一个中国的最先进模型，这次来自一家名为美团的外卖公司。没听错，就是做外卖的。在送餐之余，他们的消息机器人在创造积极的客户体验方面显然非常出色，比起像 Uber 那样的要好得多。Uber 的机器人似乎无论如何都不太愿意退款。不管怎样，美团的团队目前已经接近技术前沿，而且看起来毫不退缩。

EdDiboi(@EdDiberd) 调侃道：

没想到中国版 DoorDash （国外版外卖公司）也能一个接一个地发布模型

对此网友 Teortaxes 解释道，这家中国外卖公司可是大有来路，年营收高达数百亿美元，员工人数也超过 Meta，是那种可以把前沿模型开发当成副业来搞的巨头公司。

Zephyr 甚至点名小扎：快来学着点抄作业了。

Andrew Nosenko 🇺🇦 🇦🇺(@noseratio) 期待什么时候能用上 API：

听起来很棒，但对我们普通人来说，评估音频能力相当困难。你们有 API 可以调用吗？

Himanshu Kumar(@codewithimanshu) 赞叹：

太令人印象深刻了，美团！看起来 AI 交互的未来已经到来了，不是吗？

Winter(@Cordyceps44) 也是大方送出点赞：

LongCat 是更好的 AI 模型之一

更有许多网友大方送上祝福，表示恭喜：

不过，虽然国外网友们点赞了美团龙猫，但龙猫却不是人人都可以轻易就能用上的……比如这位用错了网址的网友称无法访问龙猫官网：

区别是：longcat.ai 是海外版不需要备案的，longcat.chat 则是备案了的域名。这就是没仔细看官方推文了：

不过 APP 倒似乎真不容易下载，我就发现 APP 似乎只上架了中国区 App Store，得切换回来才能搜索到。

来自英国的网友 Janek Mann(@janekm) 无奈地说：

很遗憾 APP 在英国不能用！希望你们尽快改变这一点，英国有很多中国人呢。

好吧，这也算是让国外网友们又一次体会到了想用而不能的痛苦了

部署使用

不过，虽然官网不好访问，但模型已经完全开源了，自己部署也是能随意用的。

LongCat-Flash-Omni 支持通过 SGLang 部署运行，不过由于是 560B 的大模型，部署还是需要一点点的硬件实力了🤏。

安装依赖

conda create -n longcat python=3.10conda activate longcat

安装 SGLang（暂时使用开发分支）

git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.gitpushd sglangpip install -e "python"popd

安装 LongCat-Flash-Omni demo

git clone https://github.com/meituan-longcat/LongCat-Flash-Omnipushd LongCat-Flash-Omnigit submodule update --init --recursivepip install -r requirements.txtpopd

单节点推理（需要 8×H20-141G 或类似配置）

python3 longcat_omni_demo.py \  --tp-size 8 \  --ep-size 8 \  --model-path /path/to/model \  --output-dir output

多节点推理（需要 16×H800-80G 或类似配置）

python3 longcat_omni_demo.py \  --tp-size 16 \  --ep-size 16 \  --nodes 2 \  --node-rank $NODE_RANK \  --dist-init-addr $MASTER_IP:5000 \  --model-path /path/to/model \  --output-dir output

开源 vs 闭源

在美团又一次扔出新模型 LongCat-Flash-Omni 之际，或许是时候再来回顾一下此前 Anthropic CEO Dario Amodei 关于开源模型的言论：

Dario 在采访中声称，开源在 AI 领域的作用与其他领域不同，因为我们看不到模型内部，而且最终还是要在云端托管，所以开源是个伪命题。

Dario Amodei：

我认为，开源在 AI 领域并不像在其他领域那样奏效。主要原因是，在传统的开源中，你可以看到源代码；但在这里，我们无法真正看到模型的内部结构。因此，人们通常称之为“开放权重”（open weights）而不是“开源”（open source），以示区分。可问题在于，开源的很多优势——比如让很多人共同协作、实现持续累积改进——在 AI 模型上其实并不能以同样的方式发挥作用。

所以我一直认为“开源”是个伪命题。当我看到一个新模型发布时，我并不在意它是否开源。比如谈到 DeepSeek，我认为它是不是开源根本不重要。我会问的是：这个模型好吗？在关键任务上，它是否比我们更强？这才是我唯一关心的。

实际上，这一点无论如何都没太大区别。因为最终你都得在云端运行这些模型。云端的服务商负责推理（inference）。这些模型非常庞大，推理过程也很困难。
当我思考竞争时，我关注的是哪些模型在我们关心的任务上表现出色。我认为“开源”其实是一个干扰话题。
它也不是免费的。你仍然需要运行推理，并且还得有人让推理变得足够高效。

我想说的是，Dario 只说对了前一半：

确实，除了 Andrew Karpathy 的 nanochat，可以说几乎所有的 LLM 都称不上是绝对意义上的开源模型，因为数据并没有开源，训练代码也没有开源。

从这个角度上来说，Dario 的前一半言论可算是有些道理。

但他后一半的内容，则简直就是大错特错了！

要知道，闭源模型可以随心所欲地修改，用户甚至不知道它变了（比如之前的 Claude 降智事件）；可以随时下架，用户毫无办法（比如 GPT-4o 跑路事件）。

而开源模型只要有人存储和分享权重，就能永远存在。用户可以微调开源模型，并拥有微调后模型的权重（比如此次的龙猫）。

可以说：开源对人类的自由和隐私至关重要。

而且，不容忽视的是：开源模型背后的公司为整个 AI 发展做出了巨大贡献。

事实上，当人们发现本地模型越来越有用，不再需要大规模基础设施和付费会员时，那些完全依赖闭源的公司自然会感到焦虑。比如 airbnb CEO 就公开声称，其公司已经大量使用了中国开源模型并正在全面切量到开源模型。

当然，原因也是在于，开源模型的能力正在快速且无限接受闭源模型们：

这也解释了为什么 Anthropic 至今没有发布任何开源模型，以及这位冠冕堂皇的 CEO 能言之凿凿地发出这般错误言论的原因。其中，既有源自对开源模型能力提升的恐惧，又有为了维护公司的估值而进行的自我思维体操。

虽然如 Yann LeCun 所言，不是中美之争，而是开闭源之争。但显然，中国模型公司，正在模型开源的道路上引领并绝尘。

比如 Cursor 新推出的 composer1 模型和 Windsurf 的新模型：

不过，外卖出身的美团似乎从不参与这些争论，只是低调地直接用行动说话，不断扔出一个又一个 sota 级开源模型。

龙猫，不在 X 小虎中，也不号称 Y 小龙，而是——

本就是条龙，不经意间就能捕获你的芳心

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub：https://github.com/meituan-longcat/LongCat-Flash-Omni
官网体验：https://longcat.ai/
技术报告：https://github.com/meituan-longcat/LongCat-Flash-Omni/blob/main/tech_report.pdf

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

马斯克：AI 时代，别这样开会了

作者: admin
时间: 2026-01-05
分类: 分类
评论

"Please get rid of all large meetings, unless you’re certain they are providing value to the whole audience, in which case keep them very short."

——Elon Musk

马斯克建议取消所有不能提供价值的大型会议。

但当你坐在会议室，

看着一个本该一封邮件解决的问题被第 N 次「深入探讨」时，

你很难分清这到底是在「提供价值」，还是在「集体消耗生命」。

数据对不齐，各说各话；重点找不到，东拉西扯；会议拖到都可以报销打车费的点了，讨论还在继续。

最绝的是，明明可以一封邮件解决的事，非要拉十个人开两小时会。

而最后的结论是：「下次再议」。

会议，正变成打工人们的时间黑洞。

其实会议本身没错，错的是我们依然在用上个世纪的脑回路处理信息。

就像用拨号上网跑 AI 模型一样荒谬：我们坐在配备了最新科技的会议室里，却还在靠「我觉得」、「好像是」、「印象中」这些模糊词汇做决策。

没有实时数据支撑，没有事实核查，更没有自动化的信息对齐。

就我所知，许多一线大厂团队的开会方式，仍然还停留在上个世纪。

作为对比的是，就在我们还在用 1995 年的方式开会时，马斯克已经在畅想没有 App 和会议的未来了。

老马在 Joe Rogan 的播客里 (JRE #2404) 抛出了那个激进的预言：

“未来将没有 App，也没有操作系统……你将通过 AI 获得一切。”

当我看到这张截图和视频时，我还蛮想知道马斯克在整个视频中聊了些什么，相关的上下文是什么，但问题来了：

我该怎么处理这 3 个小时的音频？

这就像一场没有议程、信息密度极高、主题随时漂移的马拉松式头脑风暴。

下载视频字幕？

Youtube 目前自带的字幕还停留在传统的语音识别年代，质量说实话，我还是放弃了。

我最先想到的，是用 ChatGPT 的语音功能直接“听”完。

但这念头很快就被我否决了。

你让我抱着手机 3 个小时不动？

然后，我自然想到了一直在用的飞书妙记。

结果有点尴尬，打开一看，我的会员到期了，正提醒我续费。

好吧，就算我续了费，我也很清楚这货能干成个什么样。它是一个顶级的速记员，转写、摘要都很好。

但面对 3 小时的信息风暴，我想要的不仅是“记录”。

我索性打开chatgpt，搜了一下“最近新出的AI Agent 会议总结产品”之类的关键词。

然后，我就找到了这次实验的主角：一个叫「超级麦吉」的 AI Agent：

我决定用它来测试。

我把整个 3 小时的音频，直接扔给了它。没有任何预处理，就是原始的对话音频：Joe Rogan 的提问，马斯克的回答，还有 Jamie 偶尔的插话。

这就像把一场没有议程的超长会议录音交给 AI。

结果，还真是有点超出了我的预期：

可以说，超级麦吉超越了“听写”的简单定位，直接进入了“理解”的层面。

它能准确扒出谁是 Joe，谁是马斯克，连 Jamie 什么时候插了句话都一清二楚。

甚至，它居然能串起上下文，知道马斯克说的梗是在回应 Joe 之前的话。

在生成的纪要中，如 SpaceX 火星计划、AI 安全、政 fu 效率……等每个主题都提炼得奇准——因为我实际上对所有 AI 生成的东西都并不放心，所以手动 review 了一些，这也是因为超级麦吉还贴心地附带了原文和时间戳，review 起来也很是方便。

且不说似乎没什么无中生有的幻觉，但很容易判断纪要中的某句话是不是幻觉。

给我的感觉，与其说是这一份“机器摘要”，不如说是你有位会议助理给写的“参会小结”。

而且，它甚至超越了“参会小结”。

因为，它还自动生成了略花哨但还算实用的“会议总览”仪表盘：

3个多小时 (11905秒)、6个发言人、15个核心议题......

一场老马马拉松式的混乱聊天，就这样被解构了。

原本一维的时间线上的内容，被多维度进行了平铺，可以从不同的维度去查看内容中的每一个片段和细节。

有点三体里的高维看低维的上帝视角那感觉了。

一切，尽在眼中。

甚至，它还搞了个“深度心理动机分析”，分析主持人的“表层意图”和“深层意图”。

这个……怎么说呢，如果你身处体制内，或者身处勾心斗角的职场里，或者只是想找个抓手能 CPU 某人……

那你估计会，特别需要这个。

此外，它还有这个“金句分析”。

当 Joe Rogan 提到“思想瘟疫” (44:12)，AI 不仅记下了这句话，还在【背景/解读】里分析了“真相被压制”的逻辑。

这就是我说的“理解”，真是完全超出了“听写”的范畴。

「沉浸式」播客助手

我本身就是一个重度播客爱好者，每天开车上下班时，跑步时，放松时，都会各种听。

但我一直有个痛点是：每当在播客中听到一个新概念或黑话时，我总想暂停，想切换个 App 去搜索。

但条件，往往并不允许，我也嫌累……

等我搜完回来，不仅打断了思路，还经常忘了刚才听到哪，体验非常割裂。

我甚至都动过念头，想做一个“播客伴侣”工具：在听的时候就能直接提问，让一个 AI 助手帮我搞定，他会自己回答我。

但现在，我不用再重造轮子了。

因为这个功能在超级麦吉中已经有了。

这次的播客实验就完美复现了这个场景。

播客里聊到 "Three Eye Atlas" (01:12:32)，连 Joe 本人都好像有点一脸懵。

这还挺像我们日常开会里的一些场景，有人会刻意抛出一个黑话，而有人则会假装听懂，然后整个过程就连懵带猜的……云里雾里了

而我只需要对“超级麦吉”说：“这个非引力加速度是啥意思？”

它就会调用互联网搜索，并在几秒后弹出一段解释：

从而可以让我快速了解关键信息，而不用在 context 里面一通瞎猜了。

而刚搞定这个黑话，老马又来一个容易让人怀疑的数据。

马斯克在 02:29:02 中抛出了一个猛料：

美国国债利息已经超过了军费。

这话确实是像老马的说话风格，我反正是不会直接相信的。

于是我也让超级麦吉核实：“查查是不是真的，给具体数字。”

它能调用美国财政部和国会预算办公室（CBO）的公开数据，给出结果：

也是证明了老马确实没有瞎说。

当然，上面这些还只是默认技能。

用了下之后，我发现超级麦吉还有个一堆超级适合我这样打工人牛马的必备武器库：

它背后有一套 MCP插件系统，从而它可以：

实时查库、验证信息；

发邮件、执行决策；

画思维导图、整合日历……

感觉超级麦吉在开会这件事上，确实花了大功夫，可以说是把开会这事做透了。

它的作用已经超越了“记录”，更像是在现场中“参与”着会议。

这里我就不演示太多了，是留点机会给大家自己探索下。

毕竟，真正的生产力，从来不是“看别人怎么用”，

而是“你决定让它为你做什么”。

为了对比，我还是找我同事把同样的音频内容丢给了飞书妙记。

这么说吧：飞书妙记是一个顶级的速记员。转写准，关键词提得好，摘要也清晰。

但，也就到这了。

它不会去主动查证信息，不会关联外部数据，也不会基于数据内容去“行动”。

两者的区别是：一个在想办法“记”，一个在想在办法“参与”。

表面的差异背后，其实是对开会这件事本质上的不同理解。

我认为会议的未来会从「开会」到「自动发生」

让我们再想畅想一下：

项目周会不必开了，AI 自动从 Jira、Trello 里抓数据生成报告；

跨部门对齐也省了，AI 实时同步所有信息孤岛；

决策会不再是“拍脑袋”，AI 已经把多维度数据分析拍你脸上了。

也正因为这种思路上的转变，超级麦吉这种 Agent 化的方式才显得很新颖。

当然，一个新颖的创新一旦被市场验证，就意味着飞书、钉钉们的“快速跟进”也不会迟到。

但这不重要。

重要的是，当所有工具都开始从“记”转向“参与”时，协作的底层逻辑本身就已经被改变了。

写在最后

会议本身不会消失，但“无效会议”会被 AI 自动“清洗”掉。

这带来的，除了对效率工具的升级，更重要的是对协作方式的重构。

我们正在从“等待同步”走向“自动对齐”，从“记录决策”奔向“执行决策”。

AI 最终的目标，也许不是让会议更高效，而是让会议变得不必要。

回到开头马斯克的那句话：未来没有 App，一切都通过 AI 完成。

如果这个预言成真，那么会议可能也会经历同样的命运。

不是说人们不再需要沟通，而是沟通的方式会彻底改变。AI 会成为信息的中枢，自动收集、分析、分发、执行。

传统的会议工具还在想着如何把录音转成文字，如何自动生成待办事项。但 Agent 化的 AI 已经在思考：为什么要等到会议结束才行动？

下一代的协作工具不会是「更智能的会议助手」，而是能够理解业务逻辑、自主决策、协调资源的 AI Agent。会议只是信息交换的一种形式，当 AI 能够更高效地完成这个任务时，传统会议就失去了存在的必要。

这就像电子邮件取代传真，即时通讯取代电子邮件一样。每一次技术变革，都在重新定义我们的工作方式。

如果你也受够了低效会议，可以试试这个来自超级麦吉 AI Agent：

https://www.letsmagic.cn

把你的会议录音扔进去，看看 AI 能帮你做什么。

马斯克说：未来属于 AI。

而会议，可能是第一个被 AI 革命的办公场景。

传统工具终究会被改进、被超越。

回到开头那个问题，当一场会议从集体消耗生命，变成了 AI 自动处理的任务……

也许，我们才终于有时间，去深入探讨和思考那些真正值得“下次再议”的问题。

我给在上学的弟弟做了个论文版抖音

作者: admin
时间: 2026-01-05
分类: 分类
评论

上周五，我正打算叫还在上大三的弟弟出来见面吃个饭，结果这小子给我发了个哭脸表情包：

哥，不行了，周一组会啥都没准备，导师又要说我看论文太少了。

我心想，你小子天天在实验室摸鱼，现在知道急了？

于是我索性一个电话打了过去，聊了下才知道他是真的被论文搞崩溃了。

要知道，随着生成式 AI 爆发以来，每天 ArXiv 上新论文就从此一发不可收拾，每天都跟下雪似的到处飘。

这也许可以说是大家更卷了，或者说 AI 让大家的研究搞得更快了。但在我看来，最主要的原因还是……写篇论文太容易了，甚至一个 prompt 扔给随意一个 Deep research 就可以写出来一篇。

而就在上周，ArXiv 也终于扛不住了，直接来了个狠的：综述和立场论文不再随便收了。

从现在开始，想在 CS 分类下发综述？先得被正式期刊或会议接收，完成同行评审再说。连 workshop 都不行，因为 ArXiv 觉得「workshop 的评审达不到传统同行评审的严谨标准」。

这个新规一出，整个学术圈都炸锅了。

要知道，自从 ChatGPT 问世以来，ArXiv 每月收到的综述类论文从几十篇暴涨到几百篇，很多还是 AI 直接生成的「水文」，甚至还有在论文中进行 Prompt 攻击的玩法。志愿者审核团队已经被这些「论文」折磨得不成人形了。

有研究者甚至指出：「以前是 Publish or Perish（发表还是灭亡），现在变成了 Perish by Papers（被论文淹没而灭亡）。」

而作为最幸福的时代，也是最苦的时代的学生，我弟表示：论文实在是太多了，真的是要看花眼了……

好像每一篇都有点东西，又都没啥东西。不知道该读哪篇，好不容易挑了几篇，读到一半发现跟自己方向差了十万八千里……

最惨的是，导师还总问：“最近那篇 XXX 你看了吗？”

他每次都只能尴尬地摇头。

看他确实挺惨的，我决定帮他一把。

给论文装上「推荐算法」

论文和新闻一样，已经从专业的媒体时代到了现在的自媒体时代。

那，自然就需要推荐算法。

但其实，推荐算法还需要个内容冷启动的过程，在我看来这效率还是太低了。

于是，我决定给他做一个更厉害的，就是基于让 AI 主动的为他进行论文挑选。

所以这周末，我就在家给他捣鼓了一个出来。

（原来想着可能要花很久，但过程比我想象的要顺利多了）

除了必备工具 Claude Code，我还用了科大讯飞最近开源的星辰 Agent 社区版：Astron Agent。

选它主要是因为部署简单，诚意比coze 多，性能比dify 好，上手比 n8n 容易，还比 OpenAI 更开放已经开源了，文档也写得清楚，我之前在它刚放出来时就有简单跑过一次。

于是，我先用 Docker Compose 把环境跑起来：

git clone https://github.com/iflytek/astron-agent.gitcd docker/astronAgentcp .env.example .envvim .env  # 配置一下 API Keydocker compose -f docker-compose-with-auth.yaml up -d

很快，服务就起来了：

我的想法是，给他做一个像刷短视频一样刷论文的工具。

就是那种会越刷越上瘾，越刷越精准的推荐系统。你懂的。

而我设想的整个系统的逻辑是这样的：

研究生输入研究方向后，每天会收到 5 篇论文推荐。看到感兴趣的就点个赞或者收藏，不感兴趣的直接划走。系统通过数据库 MCP 协议把这些行为记录下来，传回给 Agent 分析，每次刷完都会更新一次偏好模型。

这里我还有个设计：Agent 会悄悄学习你的阅读口味。如果你总是跳过纯理论的论文，它就会推荐更多实验性的内容。你喜欢看 Transformer 相关的？就会给出模型架构相关的改进论文。

然后就是搭建工作流。Astron 的可视化编辑器还挺好用的，拖拖拽拽就能把流程串起来：

开始节点 → 接收用户输入的研究方向
Agent 节点 → 分析用户画像，生成搜索策略
知识库节点 → 匹配历史偏好，计算推荐分数
代码节点 → 调用 ArXiv API，拉取最新论文
LLM 节点 → 生成论文摘要和推荐理由
结束节点 → 输出推荐卡片

接下来，我就开始琢磨怎么把它和前端接起来。

总不能让弟弟对着黑框框看日志吧？毕竟我可是想让他能像刷短视频一样刷论文。

为了节省点时间（想睡觉了）我干脆直接在 Claude Code 里把整套前端界面做出来。

把卡片组件、交互动画、收藏逻辑全都拖进去，再加上一点 JS 脚本，就成了一个能滑动、能点赞、还能保存的论文推荐界面。

前端负责展示，后端的 Flask 服务负责和Astron Agent 通信——接收研究方向、调用工作流、拿到推荐结果，再返回给前端渲染。整个过程就像在刷短视频，又像在刷 Tinder，只不过这里其实是一篇篇的学术论文。

而点赞收藏的数据也能被同步记录，在程序里切个 Tab 就能看到「今天又水了哪些论文」，相当于学术版的「浏览历史」，不过这个你敢给导师看，也敢给女朋友看。

值得一提的是，开发过程踩了个小坑：ArXiv API 有频率限制，一开始请求太频繁被封了 IP。后来我加了延迟和缓存机制后才恢复正常。

意外发现的「杀手锏」

过程中我发现，Astron Agent 有个特别牛的功能：原生 RPA 集成。

这是什么概念呢？

很多学校的文献系统还停留在上个世纪，界面丑得让人怀疑人生，还没有 API。以前下载论文得像考古一样：登录 VPN（密码忘了重置半天）、进入图书馆系统（界面加载 3 分钟）、搜索文献（搜索框在哪？）、一篇篇点击下载（下到一半断网了）。

现在有了 RPA，Agent 可以帮你完成这套「仪式」。它会自动登录、搜索、下载、整理，还贴心地按「年份-会议-标题」重命名。就差帮你读了。

这个功能 Dify 和 n8n 都没有原生支持，得调用外部服务，配置起来非常麻烦。

选型考虑

在选择 Astron Agent 之前，我也对比了其他几个常见平台。

Dify 属于豪华（臃肿）型，27+ 种节点类型，支持 33 个向量数据库，还支持 27 种语言，国际化做得可以说比联合国还全。GitHub 上有 5 万多的 star，社区也是很热闹。

不过， Dify 全是 Python 写的，性能方面……确实有些堪忧。甚至逻辑上也有各种问题，比如我看到调用历史里有个搜索功能，于是便搜了一下，结果服务直接卡死了……最后动用了重启大法才得以恢复。

n8n 的优势是集成多，几百个现成的集成，界面也漂亮得能让人忍不住多看两眼。

但 Astron Agent 的独特优势在于：

RPA 原生集成（刚才说过了，这个是真的香）
中文场景优化

毕竟是讯飞出品，中文 NLP 能力明显更强。特别是处理中文论文摘要时，Astron的效果比其他平台好不少。

Token 智能管理

有个 Chat History v2 功能，会自动感知 Token 使用量，避免上下文太长导致 AI「失忆」。这个细节对于需要长对话的场景特别有用。

真正的 Apache 2.0

完全开源，没有任何商业限制。不像某些项目，开源版阉割一堆功能。

当然，如果你要做复杂的 RAG 应用，Dify 的向量数据库支持确实更全面。如果需要大量第三方集成，n8n 会更方便。

选哪个，还是看具体需求，因场景而异了。

老弟的反馈

上周三，弟弟给我发消息：

神了，哥！我老板今天竟然说我今天组会的选题还不错。

看来这工具是真的帮到他了。不过这小子又开始得寸进尺：

「能不能再加个功能？自动生成文献综述那种。」

我：「GitHub 地址给你了，自己动手。」

然后甩给他链接：https://github.com/iflytek/astron-agent

没想到半小时后，他甚至还提了个 issue：https://github.com/iflytek/astron-agent/issues/507，看来这小子也是真上道了，手速也挺快。

开源一起玩

这个工具我已经整理好开源了：https://github.com/qwwzdyj/Xfind(安卓端＋html+workflow)

核心代码其实不多，主要是工作流配置和一些数据处理逻辑。感兴趣的可以直接 git clone 下来按自己的喜好随意改，也欢迎提 pr。

比如我想的几个可以改进的点：

加入更多论文源（现在只有 ArXiv）
支持团队协作（实验室共享论文池）
论文关系图谱可视化
自动生成周报月报

如果你也被论文淹没，或者有其他信息筛选的需求，这个思路都能用。核心就是：让 AI 学习你的偏好，而不是你去适应 AI。

对了，Astron Agent 团队如果看到这篇文章，有个小建议：能不能加个 Web Clipper 功能？现在只能处理论文，如果能把知乎、公众号的优质内容也纳入进来就更完美了。

最后，工具只是工具，真正的研究还是要靠自己。

但如果工具能帮你节省时间，让你专注在真正重要的事情上，那就是好工具。

P.S. 弟弟昨天又来问：

哥，能不能让 AI 直接帮我写论文？

我只回了三个字：

你说呢？

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

MCP 或将成弃子

作者: admin
时间: 2026-01-05
分类: 分类
评论

Anthropic 的工程师们上周发了篇博客，可以说是直接把自家的 MCP 给「背刺」了。

而这时间点，也好巧不巧，正好就是 MCP 推出刚刚一年之际。

文章中提出了一个方案，能让 token 消耗从 150,000 降到 2,000，直接节省 98.7%！

在我看来，这个方案其实说的就是：别用 MCP 了，写代码吧！

此话怎讲？且往下看——

Token 黑洞

MCP（Model Context Protocol）的设计思路很简单：把工具们的「说明书」塞进 Claude 的 context window，然后让模型决定要不要用，怎么用。

但这就好像，给一位工人配了一套工具箱，但要求他必须把所有工具的使用手册都摊在工作台上。

于是，问题来了：

假设你有 100 个工具，每个工具定义占 150 tokens. 然后还没开始干活，context 就被占了 15,000 tokens 了。

如果是大型企业场景的 1000 个工具呢？

那就是 150,000 tokens！

工作台都被说明书占满了，哪还有地方干活呢？

别急，还有另一个更要命的：数据「过路费」：

比如你要把 Google Drive 的文档同步到 Salesforce，传统 MCP 的流程是这样的：

Claude 调用 Google Drive API，10KB 的文档返回到 context（消耗 10,000 tokens）。Claude 读取内容，再调用 Salesforce API，把这 10KB 发出去（又消耗 10,000 tokens）。

在这里，Claude 就是个搬运工的角色而已，但却付了两次过路费。

Claude 模型价格

Anthropic 的文章里提到，复杂工作流可能消耗 150,000+ tokens。处理 50 个客户反馈生成报告，光 token 成本就要 $0.225，还要等 100 秒。

又慢又贵，极其浪费。

从调工具到写代码

Anthropic 团队表示，他们发现了一个被忽视的事实：Claude 写代码的能力远超调用工具的能力。

想让 Claude 从 100 个工具中找到正确的，理解参数格式，正确调用，这很难。

但让 Claude 写段 Python 代码？

那 Claude 可就高兴了：这题我会。

from tools import db, email
# 查询数据users = db.query("SELECT * FROM users WHERE last_active > '2024-01-01'")
# 筛选活跃用户（在代码中处理，不经过 context）active_users = [u for u in users if u.login_count > 10]
# 批量发送for user in active_users:    email.send(user.email, "您是我们的活跃用户...")

而这里的关键在于：代码在沙箱执行，中间数据不经过 context。

MCP 变成文件系统

新的方案是把 MCP 服务器转换成了代码文件来运行。

MCP 方案：

所有工具定义加载到 context，Claude 需要理解这些定义，然后调用。

新的代码方案：

servers/├── google-drive/│   ├── getDocument.ts      # 可执行的代码文件│   └── index.ts├── salesforce/│   ├── updateRecord.ts│   └── index.ts

Claude 只需要看到文件结构，然后写代码导入：

import { getDocument } from './servers/google-drive'import { updateRecord } from './servers/salesforce'

然后执行，然后完事。

上下文很干净，token 也很少，一切都很美好。

来做一下数字对比

同样是「把 Google Drive 文档同步到 Salesforce」：

MCP：

工具定义加载：15,000 tokens
文档数据传输：20,000 tokens
总计：35,050 tokens
往返次数：4 次

代码：

文件结构理解：500 tokens
Claude 写代码：200 tokens
结果返回：20 tokens
总计：720 tokens
往返次数：1 次

节省：97.9% tokens，75% 时间。

Skills 或成 MCP 的替代品

Skills 是 Anthropic 上个月在 Claude Code 中引入的功能（网页版中也能使用），见：Claude 推出 Skills 功能，及 Agent Skills 开发指南。

而 Skills 在本质上，可以理解为就是一个包含知识、代码和最佳实践的文件夹，例如：

/mnt/skills/user/my-tools/├── SKILL.md          # 简短的说明文档└── src/              # 实际的代码文件    ├── github.ts    ├── database.ts    └── utils.ts

而在我看来，上个月推出的 Skills 其实是上周文章的伏笔，二者的组合之下，MCP 可能要成弃子了。

再看个例子对比

MCP 方式

即使用户只问「帮我搜索 AI 相关的仓库」，12 个工具定义也全在 context 中（~2,400 tokens）。

执行后返回 20 个仓库的完整数据（~5,000 tokens）。

总计约 8,000 tokens。

Skills 方式

Claude 读取 SKILL.md（100 tokens），写代码（150 tokens），代码在沙箱执行，20 个仓库数据在沙箱内处理，只返回格式化的 Top 10 列表（500 tokens）。

总计 750 tokens。

而还有一个重要的，是代码的可组合性。

处理「分析 TypeScript 生态中最活跃的 10 个项目」这种复杂任务，Skills 方式下 Claude 可以写一段完整的分析代码，50+ API 调用在沙箱完成，数据处理、分析、图表生成都在沙箱，Claude 的 context 只看到最终结果。

Token 消耗约 2,000，而不是 100,000+。

实战迁移

如果你看到了这里，那你可能要心动了。你可能想问：

那是不是可以把 MCP Server 转换成代码和 Skills 的方式呢？

答案当然是肯定且简单的。

假定原 MCP Server 的 tool handler 长这样：

server.addTool({  name: 'query_database',  description: 'Query PostgreSQL database',  parameters: {...},  handler: async (params) => {    // 数据库查询逻辑  }})

转换为 Skills 则是这样：

// /mnt/skills/user/data-tools/src/database.tsexport async function queryDatabase(sql: string): Promise<any[]> {  // 同样的数据库查询逻辑扔这里}

再写个简洁的 SKILL.md，完成。

使用时，Claude 只需要读取 SKILL.md（100 tokens），写代码调用这些函数（200 tokens），执行（数据不经过 context），返回结果（10 tokens）。

总 tokens：310，而 MCP 方式要 12,000，节省 97.4%。

问题出在哪里？

传统 MCP 的问题本质是：计算发生在错误的地方。

所有数据必须经过 context，而 context 是很「贵」的（每个 token 都要钱都要经过计算），有大小限制（100K-200K tokens），往返延迟高。

而代码 + Skills 的方案，则把计算下沉到了沙箱之中。

数据处理在沙箱中，不经过 context，Context 只有代码和结果，干净简单。

而为什么 LLM 写代码比调用工具更高效呢？

因为代码是 LLM 的「母语」，是 Claude 的一直 bet 的超强项。

LLM 训练数据中有数十亿行代码样本，想出错已经很难了，但 API 调用定义只有数百万个。

在 LLM 写出 const filtered = users.filter(u => u.age > 18) 时，它隐式知道 JavaScript 数组方法、异步操作、类型推断，并且这些知识不需要在 context 中明确说明，它早已内化于心了。

而对于工具调用，则需要大量 tokens 来描述 LLM 不那么知道的东西。

MCP 还有未来吗？

那么……MCP 是不是要 deprecated 了？

虽然我已经让 Claude Code 自己把我的几个大 MCP 转成 Skills 在用了，但也不能说 MCP 从此就完了，至少目前 MCP 还有些有价值的场景：

大型组织需要统一的工具接入标准
复杂协议实现（LSP、DAP）
权限和安全控制
第三方生态

只是目前来看，大多数场景下，Skills + 代码 > MCP.

至于未来，MCP 则可能变成一种「中间格式」，还会有些自动转换工具可以把 MCP Server 转成 Skill 代码。

我其实可以（让 Claude Code）做一个，只是我最近确实太忙了，你若有兴趣就交给你了，我还在看 Claude Agent SDK 混乱的文档。

也可能会是混合式的架构：部分用 Skills（大量的长尾工具），另一部分则保留 MCP（核心的高频工具）。

MCP 倒不一定就会此终结，而是可能会从此进化，作为标准协议的价值依然存在，但实际使用形态接下来会逐渐发生改变。

Anthropic 想必不会明说“别用 MCP 了”，但在我看来，这篇文章实际上是把 MCP 调用改造成了基于文件系统的 Skills.

未来 = 代码执行 + MCP as filesystem（Skills）

可能很快，之前狂跟 MCP 的，马上都要开始搬家了！

[1]使用 MCP 执行代码：构建更高效的智能体: https://www.anthropic.com/engineering/code-execution-with-mcp

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

也欢迎加群和10000+群友交流。

标签 分类 下的文章

Skills 登场：AI 搞科研的「技能包」

Claude 直接懂生物学了

接入科研生态系统

从基因组学到临床试验

制药巨头 AI 转型

学术界伙伴

生物技术创业公司的加速器

医疗数据分析新范式

AI 科学家的诞生

咨询巨头的加入

AI for Science 计划

如何使用

限时特惠

参与活动

利益相关

离谱

背锅的 FAIR 团队

启示

Excel 插件

连接金融数据的神经中枢

华尔街巨头纷纷入局

金融 AI 的未来

概念注入实验

意图与执行的一致性检查

认知控制的证据

不同模型的表现差异

研究的意义与局限

社区反响

超越 GPT-5

唯一不足是……

来看几个数据：

海外开发者再次沸腾

会思考的 Agent 架构

比人类更会搜索

原生 INT4 量化

部署使用

实测

评分这么高，说了这么多，网友也赞了这么多，最后还是得看实操。我也用 K2 Thinking 和最强模型做了些对比测试。

先说一下用到的工具，这里有意思的是，Anthropic 和 Moonshot 目前都推出了命令行工具，我也就让他们各自用自家的的家伙来干活：Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.

实测一：谁更懂 Three.js？

第一轮：3D 水族箱挑战 🐠

第二轮：语义空间可视化 🧠

我决定

一只耳聪目明的猫

技术创新

多项 SOTA

网友热议

部署使用

开源 vs 闭源

「沉浸式」播客助手

写在最后

给论文装上「推荐算法」

意外发现的「杀手锏」

选型考虑

开源一起玩

Token 黑洞

从调工具到写代码

MCP 变成文件系统

来做一下数字对比

Skills 或成 MCP 的替代品

再看个例子对比

实战迁移

问题出在哪里？

MCP 还有未来吗？

分类

其它

标签分类下的文章