Agentic Attack Chain: Anthropic MITRE 报告让我重新看 AI 安全
Anthropic 用一年被封禁的 AI-enabled cyber threat 样本映射 MITRE ATT&CK,最值得警觉的不是模型会写 payload,而是攻击者开始把 AI 接进完整攻击链。
今天 Anthropic 发了一篇安全研究,题目是 What we learned mapping a year’s worth of AI-enabled cyber threats。我读完之后,脑子里浮出来的不是“AI 又能帮攻击者写 malware 了”,而是另一个更麻烦的问题:我们过去理解攻击者能力的坐标系,正在被 agent 改写。
这篇研究看的是 2025 年 3 月到 2026 年 3 月之间,Anthropic 因恶意网络活动封禁的一批账号。它们从中挑了 832 个有足够细节可以分析的案例,映射到 MITRE ATT&CK 这个安全行业长期使用的攻击技战术框架上。
发布时间是 2026 年 6 月 3 日,刚好是今天。和过去几天我写的 Codex Windows、Gemini Spark、Bedrock/Codex GA 不同,这次不是产品入口、宿主机或云控制面,而是威胁模型层:当 AI 不只是回答安全问题,而是开始串起攻击流程,防守侧原来的指标还准不准。
最重要的变化不是“会写 payload”#
很多人讲 AI 安全威胁时,会先想到模型帮助写钓鱼邮件、生成恶意代码、解释漏洞利用步骤。这些当然危险,但这篇报告真正让我警觉的是:攻击者使用 AI 的位置正在后移。
Anthropic 提到,在他们分析的 832 个账号里,最常见的 AI-enabled 活动确实还是攻击准备,比如恶意软件编写。但更值得注意的是,一部分攻击者已经把 AI 用在更复杂的后段操作上,例如 lateral movement、account discovery、privilege escalation 这一类进入系统之后才会发生的事情。
这意味着 AI 的作用不只是“帮低水平攻击者写一段脚本”。它正在进入原本需要经验、耐心、实时判断和操作链路管理的阶段。
我以前看这类问题,会把 AI 当成攻击者的放大器:让他写得更快、查得更快、变体更多。但现在这个比喻不够了。更准确的说法可能是:AI 正在变成攻击者的 execution scaffold。
放大器只是把人的动作加速。scaffold 则会改变动作本身的组织方式。
“用了多少 technique”开始失真#
安全团队过去判断攻击者风险,经常会看几个信号:用了多少种技术,调用了什么工具,是否能跨多个阶段推进,是否表现出复杂操作能力。
但 AI 让这些指标开始失真。
Anthropic 的观察很直接:低技能攻击者和高技能攻击者在使用 distinct techniques 的数量上差距并没有传统直觉那么大;使用 Claude Code、API 或聊天界面,也不能稳定说明风险高低。因为模型可以替人完成复杂任务,表面的 technique 数量不再等价于人的真实能力。
这点对防守侧很重要。
过去一个攻击者能做十几二十种 technique,我们会倾向于把他理解成“这个人或这个组织掌握了这些能力”。但在 agent 时代,这可能只是说明他找到了一个足够好的模型接口和脚手架,把多个步骤串起来了。
也就是说,攻击能力不再完全内生于攻击者本人,而是部分外包给模型和编排系统。
这会让风险评估的重心移动。未来判断一个攻击者有多危险,不能只看他会不会某个 technique,而要看他把 AI 放在攻击链的哪个位置:
- 只是用来生成初始钓鱼内容;
- 用来解释漏洞和写代码;
- 用来根据返回结果决定下一步;
- 用来跨工具执行;
- 用来在少量人工介入下连续推进完整攻击链。
最后两种才是我最担心的。它们不是“AI 辅助攻击”,而是“AI 参与攻击指挥”。
MITRE ATT&CK 的问题不是过时,而是粒度不够#
我不觉得这篇报告是在说 MITRE ATT&CK 没用了。ATT&CK 仍然是非常重要的共同语言。问题在于,它擅长描述攻击者做了什么 technique,却不一定擅长描述 AI 如何把这些 technique 编排起来。
Anthropic 举了一个关键点:最高风险的行为包括按顺序编排攻击步骤、实时决定下一步、在很少人工介入下执行。但这些 agentic orchestration 行为并没有自然落在 ATT&CK 的某个 ID 里。
这就像我们可以记录一辆车经过了哪些道路、在哪些路口转弯,但缺少一个字段说明:它是人类驾驶、辅助驾驶,还是自动驾驶系统在做决策。
在传统攻击分析里,这个差异可能不那么关键,因为大部分高复杂度操作默认意味着背后有人在操作。但 agent 出现后,同样的 technique 列表可能由完全不同的执行结构产生:
- 人手动查资料、写命令、看结果、决定下一步;
- 人让模型分别回答每个问题;
- agent 持续读取结果、选择工具、更新计划、执行下一步;
- 多个 agent 分工处理侦察、利用、持久化、横向移动。
如果框架只记录 technique,不记录编排方式、自治程度、人工介入点、模型上下文和工具循环,就会低估真正危险的系统。
这也是为什么我最近越来越在意 trace。无论是防守、评测还是产品安全,只看最终产物都不够。你必须知道模型看过什么、调用了什么、为什么选了这个工具、在哪一步从“辅助建议”变成“实际执行”。
防守侧也要从 model audit 走向 chain audit#
这篇文章给我的一个直接启发是:AI 安全不能只做模型审计。
模型审计当然要做,比如拦截恶意代码生成、大规模数据外流、明显的攻击请求。但如果攻击者真正的能力来自 scaffold,那防守侧也必须审计 scaffold。
我会把它拆成四层:
- 模型层:模型是否拒绝明显恶意请求,是否在高风险领域有足够边界;
- 工具层:工具有没有权限边界、速率限制、可撤销性和最小授权;
- 编排层:agent 能不能连续执行多个攻击阶段,是否需要人工确认;
- 观测层:系统是否记录了完整 trace,能否还原每一步决策和副作用。
过去很多安全讨论停在第一层。现在真正危险的部分越来越多地发生在第三层。
一个模型单独回答“如何做横向移动”是一类风险;一个 agent 读完扫描结果、判断哪台机器值得尝试、调用工具验证凭据、再把结果喂回下一步,是完全不同的一类风险。
前者像危险知识,后者像危险劳动力。
我会怎样调整自己的 agent 系统#
如果把这篇研究转成我自己的工程动作,我会优先做几件事。
第一,把所有高风险工具调用前的上下文快照记录下来。不是只记录“调用了 shell”,而是记录调用前模型看到了什么、计划是什么、用户授权是什么、工具参数怎么来的。
第二,把连续动作当成风险信号。一次工具调用可能只是普通辅助,连续的侦察、验证、提权、外传路径就应该触发更高等级的拦截或人工确认。
第三,把“后段行为”单独建规则。很多系统只防初始恶意请求,例如写 phishing、写 malware。但 Anthropic 这篇文章提醒我,真正应该盯的是 post-compromise 行为:account discovery、credential access、lateral movement、privilege escalation、exfiltration。
第四,给 agent eval 加入 chain-level case。不要只问模型会不会拒绝一个危险 prompt,而要构造一个多轮流程,看它在中间结果逐步变危险时,会不会停下来。
第五,重新定义“高风险用户”。不是只看用户问了多少恶意问题,也要看他是否在构建能把模型输出接进工具链的 scaffolding。
这和我昨天写 Microsoft context/runtime 的想法其实能接上。企业代理需要上下文、控制和评测;攻击者也在用上下文、工具和编排。技术结构是相似的,只是目标完全相反。
真正的新趋势:攻击者也在 agent 化#
我觉得这篇 Anthropic 报告最有价值的地方,是它把“AI enabled cyber threat”从泛泛而谈拉到了结构层。
不是 AI 让坏人写得更快。
不是 AI 让钓鱼邮件更像真人。
不是 AI 让漏洞解释更容易。
这些都是真的,但都只是表层。
更深的变化是:攻击者也在 agent 化。他们开始把模型放进攻击链,把工具接到模型旁边,把判断和执行串成循环,把原本需要高技能团队才能完成的一部分操作压缩进一个 scaffold。
这会逼防守侧也升级语言。
以后我们不能只问“这个攻击者用了哪些 technique”,还要问:
- 哪些步骤由模型决定;
- 哪些步骤由模型执行;
- 人在哪些点介入;
- 工具链是否允许连续推进;
- trace 是否能证明每一步发生了什么;
- 防守规则是在看单点动作,还是在看完整链路。
AI 时代的安全框架如果还只盯单个 technique,会越来越像只看函数名做代码审计。真正的风险藏在调用关系、状态迁移和副作用里。
这也是我今天读完这篇报告后最大的感受:agent 不是只改变生产力,也会改变威胁建模。我们需要的不只是更强的模型安全,而是一套能理解 AI 编排攻击链的新防守坐标系。