AGI 进入评测时代：OpenAI、Anthropic 在重写开发者的工作定义

最近两周我一直在复盘一个问题：

在 AGI 叙事越来越宏大的时候，开发者到底该把时间投在哪里？

我现在的答案很明确：从“写功能”切到“做评测驱动的交付系统”。

这不是抽象口号，而是我看完 2026 年几条官方动态后形成的工程判断。

1) 从“会调用模型”到“能稳定交付”：评测成了主战场#

OpenAI 在 2026-02-11 发布了《Building a reliable coding agent with an eval-driven loop》，核心不是再教你怎么 prompt，而是强调用 eval loop 把可靠性做成闭环。

到了 2026-04-16，《Codex for almost everything》把这个趋势进一步放大：编码代理不再是 demo，而是要进入日常工程流。

我自己的体感也一样：

也就是说，开发者价值在往评测与系统约束上迁移。

这条信号在我看来很关键：AI 落地进入组织层以后，开发者不只是实现者，还要承担“把能力嵌入流程”的责任。

具体到日常工作，变化通常是：

我从这类动作里读到的不是政策新闻，而是工程现实：

未来架构设计会越来越受算力供给、成本、延迟和配额影响。

这意味着开发者需要更早引入这些能力：

对我来说，这两条放在一起看，结论很直接：

开发者未来的“硬实力”，会同时包含两件事：

所以我现在给自己的工作重排是这样的：

过去我会把评测当 QA 附属；现在我把它当核心资产。

如果你也在做 AGI 时代的应用，我的建议只有一句：

别只优化模型调用，先把你的评测与交付系统产品化。

这件事决定的，不只是今天的效果，而是你明年还能不能稳定放大产能。