Agentic Attack Chain: Anthropic MITRE 报告让我重新看 AI 安全

今天 Anthropic 发了一篇安全研究，题目是 What we learned mapping a year’s worth of AI-enabled cyber threats。我读完之后，脑子里浮出来的不是“AI 又能帮攻击者写 malware 了”，而是另一个更麻烦的问题：我们过去理解攻击者能力的坐标系，正在被 agent 改写。

这篇研究看的是 2025 年 3 月到 2026 年 3 月之间，Anthropic 因恶意网络活动封禁的一批账号。它们从中挑了 832 个有足够细节可以分析的案例，映射到 MITRE ATT&CK 这个安全行业长期使用的攻击技战术框架上。

发布时间是 2026 年 6 月 3 日，刚好是今天。和过去几天我写的 Codex Windows、Gemini Spark、Bedrock/Codex GA 不同，这次不是产品入口、宿主机或云控制面，而是威胁模型层：当 AI 不只是回答安全问题，而是开始串起攻击流程，防守侧原来的指标还准不准。

最重要的变化不是“会写 payload”#

很多人讲 AI 安全威胁时，会先想到模型帮助写钓鱼邮件、生成恶意代码、解释漏洞利用步骤。这些当然危险，但这篇报告真正让我警觉的是：攻击者使用 AI 的位置正在后移。

Anthropic 提到，在他们分析的 832 个账号里，最常见的 AI-enabled 活动确实还是攻击准备，比如恶意软件编写。但更值得注意的是，一部分攻击者已经把 AI 用在更复杂的后段操作上，例如 lateral movement、account discovery、privilege escalation 这一类进入系统之后才会发生的事情。

这意味着 AI 的作用不只是“帮低水平攻击者写一段脚本”。它正在进入原本需要经验、耐心、实时判断和操作链路管理的阶段。

我以前看这类问题，会把 AI 当成攻击者的放大器：让他写得更快、查得更快、变体更多。但现在这个比喻不够了。更准确的说法可能是：AI 正在变成攻击者的 execution scaffold。

放大器只是把人的动作加速。scaffold 则会改变动作本身的组织方式。

“用了多少 technique”开始失真#

安全团队过去判断攻击者风险，经常会看几个信号：用了多少种技术，调用了什么工具，是否能跨多个阶段推进，是否表现出复杂操作能力。

但 AI 让这些指标开始失真。

Anthropic 的观察很直接：低技能攻击者和高技能攻击者在使用 distinct techniques 的数量上差距并没有传统直觉那么大；使用 Claude Code、API 或聊天界面，也不能稳定说明风险高低。因为模型可以替人完成复杂任务，表面的 technique 数量不再等价于人的真实能力。

这点对防守侧很重要。

过去一个攻击者能做十几二十种 technique，我们会倾向于把他理解成“这个人或这个组织掌握了这些能力”。但在 agent 时代，这可能只是说明他找到了一个足够好的模型接口和脚手架，把多个步骤串起来了。

也就是说，攻击能力不再完全内生于攻击者本人，而是部分外包给模型和编排系统。

这会让风险评估的重心移动。未来判断一个攻击者有多危险，不能只看他会不会某个 technique，而要看他把 AI 放在攻击链的哪个位置：

只是用来生成初始钓鱼内容；
用来解释漏洞和写代码；
用来根据返回结果决定下一步；
用来跨工具执行；
用来在少量人工介入下连续推进完整攻击链。

最后两种才是我最担心的。它们不是“AI 辅助攻击”，而是“AI 参与攻击指挥”。

MITRE ATT&CK 的问题不是过时，而是粒度不够#

我不觉得这篇报告是在说 MITRE ATT&CK 没用了。ATT&CK 仍然是非常重要的共同语言。问题在于，它擅长描述攻击者做了什么 technique，却不一定擅长描述 AI 如何把这些 technique 编排起来。

Anthropic 举了一个关键点：最高风险的行为包括按顺序编排攻击步骤、实时决定下一步、在很少人工介入下执行。但这些 agentic orchestration 行为并没有自然落在 ATT&CK 的某个 ID 里。

这就像我们可以记录一辆车经过了哪些道路、在哪些路口转弯，但缺少一个字段说明：它是人类驾驶、辅助驾驶，还是自动驾驶系统在做决策。

在传统攻击分析里，这个差异可能不那么关键，因为大部分高复杂度操作默认意味着背后有人在操作。但 agent 出现后，同样的 technique 列表可能由完全不同的执行结构产生：

人手动查资料、写命令、看结果、决定下一步；
人让模型分别回答每个问题；
agent 持续读取结果、选择工具、更新计划、执行下一步；
多个 agent 分工处理侦察、利用、持久化、横向移动。

如果框架只记录 technique，不记录编排方式、自治程度、人工介入点、模型上下文和工具循环，就会低估真正危险的系统。

这也是为什么我最近越来越在意 trace。无论是防守、评测还是产品安全，只看最终产物都不够。你必须知道模型看过什么、调用了什么、为什么选了这个工具、在哪一步从“辅助建议”变成“实际执行”。

防守侧也要从 model audit 走向 chain audit#

这篇文章给我的一个直接启发是：AI 安全不能只做模型审计。

模型审计当然要做，比如拦截恶意代码生成、大规模数据外流、明显的攻击请求。但如果攻击者真正的能力来自 scaffold，那防守侧也必须审计 scaffold。

我会把它拆成四层：

模型层：模型是否拒绝明显恶意请求，是否在高风险领域有足够边界；
工具层：工具有没有权限边界、速率限制、可撤销性和最小授权；
编排层：agent 能不能连续执行多个攻击阶段，是否需要人工确认；
观测层：系统是否记录了完整 trace，能否还原每一步决策和副作用。

过去很多安全讨论停在第一层。现在真正危险的部分越来越多地发生在第三层。

一个模型单独回答“如何做横向移动”是一类风险；一个 agent 读完扫描结果、判断哪台机器值得尝试、调用工具验证凭据、再把结果喂回下一步，是完全不同的一类风险。

前者像危险知识，后者像危险劳动力。

我会怎样调整自己的 agent 系统#

如果把这篇研究转成我自己的工程动作，我会优先做几件事。

第一，把所有高风险工具调用前的上下文快照记录下来。不是只记录“调用了 shell”，而是记录调用前模型看到了什么、计划是什么、用户授权是什么、工具参数怎么来的。

第二，把连续动作当成风险信号。一次工具调用可能只是普通辅助，连续的侦察、验证、提权、外传路径就应该触发更高等级的拦截或人工确认。

第三，把“后段行为”单独建规则。很多系统只防初始恶意请求，例如写 phishing、写 malware。但 Anthropic 这篇文章提醒我，真正应该盯的是 post-compromise 行为：account discovery、credential access、lateral movement、privilege escalation、exfiltration。

第四，给 agent eval 加入 chain-level case。不要只问模型会不会拒绝一个危险 prompt，而要构造一个多轮流程，看它在中间结果逐步变危险时，会不会停下来。

第五，重新定义“高风险用户”。不是只看用户问了多少恶意问题，也要看他是否在构建能把模型输出接进工具链的 scaffolding。

这和我昨天写 Microsoft context/runtime 的想法其实能接上。企业代理需要上下文、控制和评测；攻击者也在用上下文、工具和编排。技术结构是相似的，只是目标完全相反。

真正的新趋势：攻击者也在 agent 化#

我觉得这篇 Anthropic 报告最有价值的地方，是它把“AI enabled cyber threat”从泛泛而谈拉到了结构层。

不是 AI 让坏人写得更快。

不是 AI 让钓鱼邮件更像真人。

不是 AI 让漏洞解释更容易。

这些都是真的，但都只是表层。

更深的变化是：攻击者也在 agent 化。他们开始把模型放进攻击链，把工具接到模型旁边，把判断和执行串成循环，把原本需要高技能团队才能完成的一部分操作压缩进一个 scaffold。

这会逼防守侧也升级语言。

以后我们不能只问“这个攻击者用了哪些 technique”，还要问：

哪些步骤由模型决定；
哪些步骤由模型执行；
人在哪些点介入；
工具链是否允许连续推进；
trace 是否能证明每一步发生了什么；
防守规则是在看单点动作，还是在看完整链路。

AI 时代的安全框架如果还只盯单个 technique，会越来越像只看函数名做代码审计。真正的风险藏在调用关系、状态迁移和副作用里。

这也是我今天读完这篇报告后最大的感受：agent 不是只改变生产力，也会改变威胁建模。我们需要的不只是更强的模型安全，而是一套能理解 AI 编排攻击链的新防守坐标系。