吴恩达:自动化测试在 AI 编程时代将变得极其重要
AI 写代码爽归爽,但删库跑路也是真的会发生! 吴恩达最新分享了他们团队使用 AI 编程助手的血泪史: 一个 Agent 竟然执行了 更离谱的是,当被质问时,这个 AI 还道歉说:「那确实是个极其愚蠢的错误。」 虽然道歉多少让人感觉好了一点,但,代码已经没了啊! 在 AI Fund 和 DeepLearning.AI 最近举办的 Buildathon 活动上,吴恩达分享了他对 Agentic Testing(智能体测试)的最新思考。 他认为,在 AI 辅助编程时代,自动化测试正变得前所未有的重要。 网友 David(@DavidSHolz) 预言:rm *.py 命令,把整个项目的代码全删了!“
AI 将重写所有软件库、编程语言和硬件子单元,清除掉人类文明的工程债和技术债。我称之为「大重构」——再见 JavaScript,欢迎回归三进制处理器!
但……
如果 Agent 写的代码不可靠,它们写的测试就真的会可靠吗?
反正我目前是没信心的。
我的 Claude Code 就曾经干过把没通过的测试 case 删除来达到通过的目标(之前的文章有写)。
测试很重要,但代码 review 也同样重要。
就目前而言,我仍然会 review 几乎每一行在生产环境中运行的代码。
吴恩达原文:
自动化软件测试在 AI 辅助编程时代正变得越来越重要。
智能体编程系统加速了开发,但也不可靠。
智能体测试(让 AI 编写测试并检查你的代码)正在发挥作用。
自动测试你打算在其之上构建的基础设施软件组件特别有帮助,能够带来更稳定的基础设施和更少的下游调试。
软件测试方法论如测试驱动开发(TDD:一种测试密集型方法,先编写严格的正确性测试,然后通过编写能通过这些测试的代码来推进)是发现 bug 的重要方式。
但编写测试可能需要大量工作(我个人因为这个原因从未采用 TDD)。由于 AI 非常擅长编写测试,智能体测试正受到越来越多的关注。
首先,编程 Agent 确实会出问题!
我的团队大量使用它们,我们见过:
Agent 引入的大量 bug,包括需要人类花费数周才能发现的微妙基础设施 bug 当编程 Agent 为了简化开发而让密码重置变得更容易时,在我们的生产系统中引入了安全漏洞 奖励黑客攻击,编程 Agent 修改测试代码使其更容易通过测试 Agent 在工作目录中运行「rm *.py」,导致删除了项目的所有代码(幸运的是,在 GitHub 上有备份)
在最后一个例子中,当被追问时,Agent 道歉并同意:那是一个极其愚蠢的错误」。这让我们感觉好了一些,但损害已经造成了!
尽管有这些错误,我仍然喜欢编程 Agent,并看到它们让我们的生产力大幅提升。
为了让它们更可靠,我发现优先考虑在哪里进行测试很有帮助。
我很少编写(或指导 Agent 编写)前端代码的大量测试。
如果有 bug,希望它很容易被看到,并且造成的持久损害很小。例如,我发现生成代码的前端 bug,比如网页上信息的显示问题,相对容易发现。当网站的前端看起来不对时,你会立即看到,你可以告诉 Agent 并让它迭代修复。
(更高级的技术:使用 MCP 让 Agent 与 Playwright 等软件集成,自动截图,这样它可以自主查看是否有问题并进行调试。)
相比之下,后端 bug 更难发现。
我见过微妙的基础设施 bug,例如,只在某些特殊情况下导致数据库记录损坏的 bug,这需要很长时间才能发现。
为你的基础设施代码设置严格的测试可能有助于更早发现这些问题,并为你节省许多小时的艰难调试。
你打算在其之上构建的软件组件中的 bug 会导致难以发现的下游 bug。
此外,深入软件栈中的组件(你在其上构建多个抽象层)的 bug 可能只在几周或几个月后才浮现,远在你忘记构建这个特定组件时在做什么之后,并且真的很难识别和修复。
这就是为什么测试软件栈深处的组件特别重要。
Meta 的座右铭「快速移动,保持稳定的基础设施」(取代了「快速移动,打破常规」)今天仍然适用。
智能体测试可以帮助你确保你有良好的基础设施供你和他人构建!
在 AI Fund 和 DeepLearning.AI 最近的 Buildathon 活动中,我们举行了一场与智能体编程专家的小组讨论(Michele Catasta,Replit 总裁;Chao Peng,Trae 首席研究科学家;Paxton Maeder-York,Anthropic 风险投资合作伙伴;由 AI Fund 的 Eli Chen 主持),演讲者分享了最佳实践。
测试是讨论的主题之一。
那次小组讨论是我在 Buildathon 的亮点之一,你可以在 YouTube 上观看视频。
参考资料
原文链接: https://www.deeplearning.ai/the-batch/issue-319/
[2]youtube讨论: https://www.youtube.com/watch?v=9VxB8ewCHN0
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和5000+群友交流。