吴恩达：自动化测试在 AI 编程时代将变得极其重要

AI 写代码爽归爽，但删库跑路也是真的会发生！

Andrew Ng Launches A Campaign For Data-Centric AI

吴恩达最新分享了他们团队使用 AI 编程助手的血泪史：

一个 Agent 竟然执行了 rm *.py 命令，把整个项目的代码全删了！

更离谱的是，当被质问时，这个 AI 还道歉说：「那确实是个极其愚蠢的错误。」

虽然道歉多少让人感觉好了一点，但，代码已经没了啊！

在 AI Fund 和 DeepLearning.AI 最近举办的 Buildathon 活动上，吴恩达分享了他对 Agentic Testing（智能体测试）的最新思考。

他认为，在 AI 辅助编程时代，自动化测试正变得前所未有的重要。

网友 David(@DavidSHolz) 预言：

“
AI 将重写所有软件库、编程语言和硬件子单元，清除掉人类文明的工程债和技术债。我称之为「大重构」——再见 JavaScript，欢迎回归三进制处理器！

但……

如果 Agent 写的代码不可靠，它们写的测试就真的会可靠吗？

反正我目前是没信心的。

我的 Claude Code 就曾经干过把没通过的测试 case 删除来达到通过的目标（之前的文章有写）。

测试很重要，但代码 review 也同样重要。

就目前而言，我仍然会 review 几乎每一行在生产环境中运行的代码。

吴恩达原文：

自动化软件测试在 AI 辅助编程时代正变得越来越重要。

智能体编程系统加速了开发，但也不可靠。

智能体测试（让 AI 编写测试并检查你的代码）正在发挥作用。

自动测试你打算在其之上构建的基础设施软件组件特别有帮助，能够带来更稳定的基础设施和更少的下游调试。

软件测试方法论如测试驱动开发（TDD：一种测试密集型方法，先编写严格的正确性测试，然后通过编写能通过这些测试的代码来推进）是发现 bug 的重要方式。

但编写测试可能需要大量工作（我个人因为这个原因从未采用 TDD）。由于 AI 非常擅长编写测试，智能体测试正受到越来越多的关注。

首先，编程 Agent 确实会出问题！

我的团队大量使用它们，我们见过：

Agent 引入的大量 bug，包括需要人类花费数周才能发现的微妙基础设施 bug
当编程 Agent 为了简化开发而让密码重置变得更容易时，在我们的生产系统中引入了安全漏洞
奖励黑客攻击，编程 Agent 修改测试代码使其更容易通过测试
Agent 在工作目录中运行「rm *.py」，导致删除了项目的所有代码（幸运的是，在 GitHub 上有备份）

在最后一个例子中，当被追问时，Agent 道歉并同意：那是一个极其愚蠢的错误」。这让我们感觉好了一些，但损害已经造成了！

尽管有这些错误，我仍然喜欢编程 Agent，并看到它们让我们的生产力大幅提升。

为了让它们更可靠，我发现优先考虑在哪里进行测试很有帮助。

我很少编写（或指导 Agent 编写）前端代码的大量测试。

如果有 bug，希望它很容易被看到，并且造成的持久损害很小。例如，我发现生成代码的前端 bug，比如网页上信息的显示问题，相对容易发现。当网站的前端看起来不对时，你会立即看到，你可以告诉 Agent 并让它迭代修复。

（更高级的技术：使用 MCP 让 Agent 与 Playwright 等软件集成，自动截图，这样它可以自主查看是否有问题并进行调试。）

相比之下，后端 bug 更难发现。

我见过微妙的基础设施 bug，例如，只在某些特殊情况下导致数据库记录损坏的 bug，这需要很长时间才能发现。

为你的基础设施代码设置严格的测试可能有助于更早发现这些问题，并为你节省许多小时的艰难调试。

你打算在其之上构建的软件组件中的 bug 会导致难以发现的下游 bug。

此外，深入软件栈中的组件（你在其上构建多个抽象层）的 bug 可能只在几周或几个月后才浮现，远在你忘记构建这个特定组件时在做什么之后，并且真的很难识别和修复。

这就是为什么测试软件栈深处的组件特别重要。

Meta 的座右铭「快速移动，保持稳定的基础设施」（取代了「快速移动，打破常规」）今天仍然适用。

智能体测试可以帮助你确保你有良好的基础设施供你和他人构建！

在 AI Fund 和 DeepLearning.AI 最近的 Buildathon 活动中，我们举行了一场与智能体编程专家的小组讨论（Michele Catasta，Replit 总裁；Chao Peng，Trae 首席研究科学家；Paxton Maeder-York，Anthropic 风险投资合作伙伴；由 AI Fund 的 Eli Chen 主持），演讲者分享了最佳实践。

测试是讨论的主题之一。

那次小组讨论是我在 Buildathon 的亮点之一，你可以在 YouTube 上观看视频。

参考资料

[1]

原文链接: https://www.deeplearning.ai/the-batch/issue-319/

[2]

youtube讨论: https://www.youtube.com/watch?v=9VxB8ewCHN0

关于 Claude Code 和 Codex 的使用/交流，欢迎进《Claude Codex》群交流，任何相关问题都有热心群友第一时间解答（禁广告，中转谢绝入内）~

由于群满（超200人）了不能直接进，请先进临时群（见评论区）后加我，备注"CC" 即可，我稍后会拉你进群。

👇

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）

欢迎加入！

也欢迎加群和5000+群友交流。

吴恩达：自动化测试在 AI 编程时代将变得极其重要

参考资料

添加新评论

分类

其它