Agent Runtime Observability：我从“会调用工具”走到“可观测交付”的四个改造#

这周我把一个结论写在了白板最上面：

2026 年 AI 工程的核心分水岭，不再是模型会不会调用工具，而是你的 Agent 运行时能不能被观测、被回放、被拦截。

过去一年里，“Agent + MCP + 工作流编排”已经从热点变成标配。问题是，很多团队把注意力放在“能跑起来”，却没把精力放在“出问题时怎么快速定位并阻断”。

我自己在内容自动化和代码自动化里踩过几次坑之后，最近把系统改成了一个更硬核但更省心的方向：Runtime First。下面是我做的四个改造。

1) 把工具调用从“黑盒函数”变成“可审计事件”#

以前我的日志里只有最终结果，例如“发布成功”或“任务失败”。这类日志最大的问题是：

我现在把每一次工具调用都记录成结构化事件，至少带这几类字段：

这一步带来的收益非常直接：线上出问题时，我不再看“故事”，而是看“证据链”。

另一个高频坑是上下文漂移。很多时候不是模型变笨，而是输入上下文在悄悄变化。

我现在会把关键上下文拆成三层，并显式版本化：

每次执行都记录 context_version，并在失败时优先比较“同任务不同版本”的差异。这个动作看起来麻烦，但它能明显降低“玄学故障”的排查时间。

过去我做 Small Model First，主要目的是降成本和稳延迟。现在我更看重另一件事：把模型路由和风险分级绑在一起。

我在生产里用的一条简单规则是：

其中 high risk 包括所有不可逆动作，例如发布、删除、批量写入、权限变更。这个规则让系统行为更稳定，也让团队协作时更容易达成共识。

很多团队会做离线评测，但线上依然靠“人工感觉”放行。我最近的改动是把最小评测集直接挂到运行时门禁：

只要一项不通过，就直接 block，并返回可解释原因。我的体感是，这比事后复盘省太多成本。

如果你也在搭 Agent 系统，我建议先做到下面这份最小清单：

这五条不炫技，但非常抗风险。

AI 时代的热点每天都在变，今天是新模型，明天是新 Agent 框架，后天又是新的工具协议。

但对我来说，真正长期有效的竞争力是：

当能力变化很快时，你的系统是否还能稳定交付。

所以我现在做技术决策时，会先问一句：

这个改动能不能提升可观测性、可回放性和可拦截性？

如果答案是能，那它大概率就值得做。