AGI 进入评测时代:OpenAI、Anthropic 在重写开发者的工作定义
我最近的直观感受是:AI 时代的开发者竞争力,正在从“写得快”转向“定义评测、约束系统、稳定交付”。这篇写我对 OpenAI 与 Anthropic 近期动作的工程化判断。
最近两周我一直在复盘一个问题:
在 AGI 叙事越来越宏大的时候,开发者到底该把时间投在哪里?
我现在的答案很明确:从“写功能”切到“做评测驱动的交付系统”。
这不是抽象口号,而是我看完 2026 年几条官方动态后形成的工程判断。
1) 从“会调用模型”到“能稳定交付”:评测成了主战场#
OpenAI 在 2026-02-11 发布了《Building a reliable coding agent with an eval-driven loop》,核心不是再教你怎么 prompt,而是强调用 eval loop 把可靠性做成闭环。
到了 2026-04-16,《Codex for almost everything》把这个趋势进一步放大:编码代理不再是 demo,而是要进入日常工程流。
我自己的体感也一样:
- 以前我最关心“模型能不能答对”
- 现在我最关心“系统是否可回归、可观测、可兜底”
也就是说,开发者价值在往评测与系统约束上迁移。
2) 企业采用加速后,技术工作不再只是“接 API”#
OpenAI 在 2026-03-05 发布《Introducing the OpenAI Adoption Channel》。
这条信号在我看来很关键:AI 落地进入组织层以后,开发者不只是实现者,还要承担“把能力嵌入流程”的责任。
具体到日常工作,变化通常是:
- 需求定义从“功能列表”变成“能力边界 + 风险边界”
- 技术交付从“上线”变成“持续校准 + 运营治理”
- 个人产出从“代码量”变成“系统长期稳定产能”
3) AGI 竞争上移到基础设施,工程决策开始被算力约束主导#
OpenAI 在 2026-01-15 发布《Strengthening the U.S. AI Supply Chain》。
我从这类动作里读到的不是政策新闻,而是工程现实:
未来架构设计会越来越受算力供给、成本、延迟和配额影响。
这意味着开发者需要更早引入这些能力:
- 成本可观测(按任务与链路细分)
- 模型与工具路由(按质量/时延目标动态切换)
- 降级策略(在资源紧张时保持可用)
4) Anthropic 的节奏提醒我:安全与治理会前置到开发流程#
Anthropic 在 2026-04-02 更新了《Anthropic's Responsible Scaling Policy》,并在 2026-03-13 发布了《Introducing web search on the Anthropic API》。
对我来说,这两条放在一起看,结论很直接:
- 一边是能力外扩(更多外部信息接入)
- 一边是治理前置(更明确的风险边界)
开发者未来的“硬实力”,会同时包含两件事:
- 把系统做得更强
- 把系统做得可控
我的当前行动:把“评测系统”当主产品来做#
所以我现在给自己的工作重排是这样的:
- 先定义评测集与失败模式
- 再做 agent/tool/workflow 编排
- 最后做体验优化
过去我会把评测当 QA 附属;现在我把它当核心资产。
如果你也在做 AGI 时代的应用,我的建议只有一句:
别只优化模型调用,先把你的评测与交付系统产品化。
这件事决定的,不只是今天的效果,而是你明年还能不能稳定放大产能。