Endpoint Host Layer: Codex Windows 让我重新看代理工作站
OpenAI 5 月 29 日把 Codex Computer Use 和远程控制扩到 Windows,我更在意的是:开发者工作站正在变成可远程批准、可审计、可恢复的代理运行时。
Endpoint Host Layer: Codex Windows 让我重新看代理工作站#
过去两周我一直在看同一条线:AI 代理不再只是一个“会写代码的聊天框”,而是在不断往真实运行环境里下沉。昨天我写的是治理接口,OpenAI 和 Anthropic 开始把 frontier model 的风险状态、审批、撤销、事件响应这些东西做成可以被工程系统接住的接口。今天更贴近我自己日常的信号,是 OpenAI 在 5 月 29 日把 Codex 的 Computer Use 和远程控制能力正式扩到 Windows。
这个更新表面上很产品化:Codex 可以在 Windows 上看屏幕、点击、输入;手机上的 ChatGPT 或 Mac 上的 Codex 可以连回 Windows 主机,查看进度、继续线程、给后续指令;还加了 Codex Profiles,可以看身份、活动、使用量和 token 活动。听起来像“终于支持 Windows 用户了”。但我更在意的是另一层:开发者的工作站正在变成代理运行时。
以前我们说 agent runtime,脑子里通常是云端 sandbox、CI runner、GitHub Actions、容器、远程 devbox。它们的优点是干净、可复现、边界清楚。可真实开发并不总是干净的。很多问题只出现在本机 GUI、企业 Windows 应用、浏览器登录态、VPN 后面的管理后台、设计工具、数据库客户端、模拟器、硬件管理软件里。命令行和 API 可以覆盖 80%,剩下那 20% 往往才是上线前最烦人的部分。
Codex Windows computer use 让我看到一个趋势:代理不会只住在云里,它会住进端点。
端点不是“低级运行环境”。它有项目文件、shell、app server、本地证书、浏览器状态、插件、MCP server、截图、终端输出、测试结果,也有一堆无法轻易搬进云 sandbox 的上下文。OpenAI 的远程连接文档里有一句关键事实:手机发送的是 prompt、approval 和 follow-up,真正提供环境的是被连接的 host。也就是说,移动端不是运行时,Windows 主机才是运行时;手机只是控制面。
这会改变我对个人开发环境的设计。
第一,工作站要被当成生产系统,而不是私人桌面。
如果一个代理可以远程接入我的 Windows 机器,使用它的文件、凭据、插件、浏览器和本地工具,那这台机器就不再只是“我写代码的电脑”。它是一个长期在线的执行端点。它需要明确的权限分层、可恢复的项目状态、可清理的工作树、可审计的执行记录,以及足够窄的 app allowlist。否则 remote control 只是把“我在电脑前乱点”升级成“代理替我远程乱点”。
这也是为什么我不把这次更新理解成一个 UI 自动化小功能。OpenAI 文档明确提醒,Computer Use 会影响项目 workspace 之外的 app 和系统状态;Windows 上还不是 macOS 那种后台/锁屏执行,而是前台接管,鼠标、键盘和当前桌面都会被代理占用。这个限制反而很诚实:Windows 端点的生产化,还需要 VM、专用机器、always-on host、企业托管配置这些外壳来补齐。
第二,远程控制的核心不是“手机也能写代码”,而是把人工介入点从工作站前面挪出来。
长任务真正卡住的地方,常常不是模型不会继续,而是需要人做一个判断:这个命令能不能跑?这个 diff 能不能接受?这个测试失败是不是环境问题?这个 UI 操作要不要授权?当手机可以接住这些 approval、terminal output、diff、screenshots,开发者的角色就从“守在机器前等代理跑完”变成“在关键分叉处做控制面决策”。
这很像我现在对 agent 工程的判断:未来的开发者不一定更少写代码,但会更频繁地设计可中断、可恢复、可批准的工作流。优秀的工程师会把自己的项目整理成代理可以持续推进的状态:明确目标、明确验证命令、明确边界、明确哪些动作必须停下来等人批准。
第三,endpoint host layer 会逼我们重新定义“本地上下文”。
过去本地上下文是人的便利:shell history、浏览器登录、IDE 状态、项目路径、临时脚本、环境变量。代理接入以后,这些都变成了可被执行系统消费的上下文。好处是巨大:代理终于能看到真实 UI,能在真实 Windows app 里复现问题,能跨浏览器、终端、桌面软件完成一个完整验证闭环。坏处也同样明确:可见内容、剪贴板、屏幕截图、打开的文件,都可能成为模型上下文的一部分。
所以我会把今天这个信号和 OpenAI 同一天的 Rosalind Biodefense 放在一起看。Rosalind 的关键词是 trusted access:不是把最强能力无差别打开,而是给可信开发者、政府和公共卫生伙伴,在明确任务和防护框架下使用。Codex Windows 是另一个更日常的版本:不是所有桌面状态都应该给代理,不是所有 app 都应该默认允许,不是所有任务都适合远程跑。能力越靠近现实世界,访问模型越要具体。
我自己的结论是:AI 代理的下一层竞争,不只是模型能力,也不是单纯的 IDE 插件体验,而是谁能把端点、远程控制、权限、审计、工作树、GUI 验证和人工批准做成一个可靠的 host layer。
对开发者来说,这件事的含义很直接。以后配置开发环境,不只是装 Node、Python、Docker、VS Code;还要配置“代理如何进入、能看到什么、能点什么、失败时怎么停、谁来批准、执行记录保留在哪里”。这听起来像企业 IT 的事情,但它会先在个人开发者身上发生。因为最先愿意把本机交给代理跑长任务的人,往往就是那些每天被重复验证、跨 app 调试、远程排队任务折磨的人。
我今天会把自己的实践原则写得更硬一点:
不要把主力桌面直接当无限制代理运行时。能用 VM 就用 VM,能用专用 host 就用专用 host,能用结构化 MCP/API 就不要先上 Computer Use。
不要把 remote control 当“人在外面也能继续工作”的炫技。它真正有用的地方,是把批准、纠偏、验收这些人工控制点做轻,让代理可以在更长时间尺度上推进。
不要只记录最后的 diff。真正需要被审计的是 host 上发生过什么:看了哪些窗口、跑了哪些命令、改了哪些文件、请求了哪些权限、在哪个节点等过人。
从这个角度看,Codex Windows computer use 不是一个 Windows 功能补齐,而是 AI 代理开始认真进入办公端点。云端 sandbox 负责干净执行,端点 host 负责现实摩擦。未来能跑起来的团队,会同时管理这两层。
而开发者的新基本功,就是把自己的工作站整理成一个代理能安全接管、随时暂停、可被审计、可被恢复的生产环境。
参考:
- OpenAI ChatGPT Release Notes, May 29 2026: Codex updates: Computer use and remote control for Windows, usage profiles. https://help.openai.com/en/articles/6825453-chatgpt-release-notes
- OpenAI Developers: Computer Use - Codex app. https://developers.openai.com/codex/app/computer-use
- OpenAI Developers: Remote connections - Codex. https://developers.openai.com/codex/remote-connections
- OpenAI: Strengthening societal resilience with Rosalind Biodefense. https://openai.com/index/strengthening-societal-resilience-with-rosalind-biodefense/