OpenAI 发布GDPval,可真实评估现实世界经济价值。Claude Opus 4.1 拿下第一
AI 被用来算经济账了! 刚刚,OpenAI 推出了 GDPval,一个专门评估 AI 在真实经济价值任务上表现的新基准。 这次,OpenAI 不玩虚的了,直接把 AI 拉到经济战场上—— 看看你到底能创造多少 GDP! 以前评估 AI,要么让它做数学题,要么让它写代码,就像让博士生去考高考。 现在不一样了,GDPval 直接从美国 GDP 贡献最大的 9 个行业里挑出 44 种职业,让 AI 去做这些职业的真实工作。 <<< 左右滑动见更多 >>> 从软件开发到法律文书,从机械工程到护理计划,总共 1320 个任务(开源版本包含 220 个),每个任务都来自真实的工作场景。 这些任务并非随便找找找来的。 OpenAI 请来了平均有 14 年工作经验的专业人士来设计任务。每个任务平均经过 5 轮专家审核,确保它真的代表了日常工作。 评估结果出来了! 有意思的是,Claude Opus 4.1 表现最好:近一半的输出被评为与人类专家工作相当或更好。 OpenAI 大方地公布了这个自己并非第一的结果,倒是显得挺诚信啊。 自家的 GPT-5 则在准确性上表现突出,特别是在查找特定领域知识方面,而 Claude Opus 4.1 则在美观性上更胜一筹——文档格式、幻灯片布局这些方面做得更好。 虽然不是第一,但其模型的进步速度则是很让人振奋: OpenAI 的前沿模型在一年内几乎翻倍了胜率。 从 GPT-4o 到 GPT-5,性能提升超过一倍,呈现清晰的线性增长趋势。 GDPval 还揭示了另一个重要事实: 前沿模型完成任务的速度比人类专家快 100 倍,成本只有百分之一。 当然,这只是纯粹的模型推理时间和 API 计费,没有算上人类监督、迭代和集成等实际工作中需要的步骤。 但即便如此,在模型表现特别强的任务子集上,先让模型试试再让人类介入,确实能省时省钱。 GDPval 的任务设计也很讲究。 它们并非简单的文本提示,而是带有参考文件和上下文,交付物包括文档、幻灯片、图表、电子表格和多媒体内容。 每个任务都基于真实的工作产品,可能是一份法律简报、一张工程蓝图、一段客户支持对话,或者一份护理计划。 这种现实感让 GDPval 成为更贴近实际的测试。 OpenAI 选择这 44 个职业的方式也同样很有讲究。 他们先从美国联邦储备银行圣路易斯分行的数据中找出对 GDP 贡献超过 5% 的行业,然后从每个行业中选出工资总额贡献最大的 5 个职业。 关键是,这些职业必须是知识工作为主。 他们用 O*NET 数据库(美国劳工部赞助的职业信息数据库)来判断,如果一个职业至少 60% 的任务不涉及体力劳动,就算作「以知识工作为主」。 这个 60% 的门槛是 GDPval 第一版的起点,聚焦于 AI 可能对现实生产力产生最大影响的职业。 OpenAI 称,GDPval 还只是早期版本。 目前的评估是一次性的,没有捕捉到需要建立上下文或通过多次修改来改进的情况。 比如根据客户反馈修改法律简报,或发现异常后迭代数据分析。 现实世界中,任务并不总是有明确的提示和参考文件。 律师可能需要在决定起草法律简报之前,先处理模糊性并与客户交谈。 OpenAI 计划扩展 GDPval,包括更多职业、行业和任务类型,增加交互性,以及更多涉及处理模糊性的任务,长期目标是更好地衡量多样化知识工作的进展。 OpenAI 还在积极寻求社区参与。 如果你是行业专家,可以申请为 GDPval 做贡献;如果你是 OpenAI 的客户,也可以参与未来的 GDPval 评估。 他们还开源了 GDPval 的黄金子集和公共评分服务,让其他研究者可以在此基础上继续研究。 评估工具可以在 evals.openai.com 上找到。 此外,OpenAI 还训练了一个「自动评分器」—— 一个 AI 系统,用来预测人类专家如何评判特定的交付物。虽然还不如专家评分可靠,但作为实验性研究服务已经发布。 此次GDPval 的推出,也标志着 AI 评估进入了新阶段。 从学术测试到经济价值,这将让我们能更清楚地看到 AI 对现实世界的影响。 如 OpenAI 所说,历史表明,从互联网到智能手机,重大技术从发明到广泛应用通常需要十多年时间。 像 GDPval 这样的评估,有助于将关于未来 AI 改进的讨论建立在证据而非猜测的基础上。 (注:本文由Claude Code 排版) 👇 👇 👇 另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。 这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间) 欢迎加入! 也欢迎加群和7000+群友交流。 gdpval: https://openai.com/index/gdpval/ real-world-knowledge-work: https://openai.com/form/real-world-knowledge-work/ DataSet at huggingface: https://huggingface.co/datasets/openai/gdpval◆从考试到干活◆
◆Claude 暂时领先◆
◆速度和成本的碾压◆
◆真实工作的复杂性◆
◆职业选择逻辑◆
◆未来改进方向◆
◆开放合作◆
参考资料