本地、VM、容器,哪一种会成为 AI 执行层的主战场?

过去大家讨论 Agent,讨论的是模型会不会更聪明;但到了今天,更决定 Agent 能不能进生产环境的,已经不是会不会想,而是跑在哪里、拿什么权限、出了事怎么隔离OpenAI 已经把 computer use 放进官方 built-in tools,而且明确说明它和普通内建工具不同:模型给出动作后,动作必须在虚拟电脑或浏览器上执行,再把截图回传;与此同时,ChatGPT agent 已经被官方定义为能用自己的虚拟电脑替用户完成任务;Anthropic  computer use 也把截图、鼠标、键盘、桌面自动化做成了标准能力。执行环境因此不再是边缘问题,而是 Agent 产品定义的一部分。

 

截至 2026 月,从头部产品的公开设计看,路线其实已经明显分化:OpenAI  Codex 云端任务运行在隔离容器里;Anthropic  Claude Code 同时覆盖 terminalIDEdesktop app  browser,并专门给出 devcontainer 方案;AWS  AgentCore Browser 提供容器化、隔离的远程浏览器环境,而 AgentCore Runtime 的会话则直接落在 dedicated microVM 上;E2B 则把按需创建的 Linux VM  Firecracker microVM 明确放到自己的执行底座叙事里。OXYZ资本认为,这个问题真正该问的,不是本地、VM、容器谁会赢,而是:AI 执行层到底会如何分工。

 

先把三个概念说清楚。本地,争的不是更先进,而是最短的信任半径:最靠近用户身份、最靠近真实操作系统、最靠近本地文件和最终确认权。容器,争的不是最安全,而是把依赖、工具链和运行环境打包成标准化 workload 的能力:它最适合复制、编排、扩缩容和工程化。VM,尤其是 microVM,真正卖点也不是更重,而是隔离边界更强,适合不可信代码、多租户、长任务和高风险执行。

 

如果只看哪里会先成为最热闹的主战场,答案几乎是容器。原因很简单:最先规模化的,不会是通用电脑使用,而是编码、脚本、工具调用、CI/CD、数据处理这类标准化执行任务。OpenAI 明确写到,Codex agent 在云端“entirely within a secure, isolated container”运行;Codex cloud 的安全文档又补了一层,两阶段运行模型里只有 setup 阶段能按配置联网安装依赖,agent phase 默认离线。Anthropic 则直接给了 Claude Code  devcontainer 参考实现,并强调 isolation  firewall rulesDaytona 的执行环境也明显是容器世界的工程语言:OCI 镜像、snapshotLinux namespaces,以及每个 sandbox 的独立 CPU、内存和磁盘资源。容器不是因为绝对安全而先赢,而是因为它最符合今天开发者对可复现、可编排、可工程化的默认想象。

 

但如果问,哪一种会拿走最贵的安全预算,答案更像 VM,尤其是 microVME2B 在文档里把 Sandbox 定义成按需创建的安全 Linux VM”,在自己的案例和技术文章里又明确把 Firecracker microVM 作为运行不可信代码的底层选择;AWS 更直接,AgentCore Runtime 的官方文档写明,每个 session 都运行在 dedicated microVM 中,CPU、内存、文件系统完全隔离,会话最长可持续小时,终止后整个 microVM 会被销毁并清理内存。越靠近生产系统、越靠近敏感权限、越靠近多租户和不可信输入,隔离失败的代价就越高于冷启动和资源开销,这时安全边界自然会向 VM 化倾斜。OXYZ资本观点是,容器会先吃到开发者流量,但 VM / microVM 更可能吃到企业最贵的那部分放行预算。

 

真正把这场战争推复杂的,是浏览器和电脑使用。因为浏览器型 Agent 并不是再跑一个脚本,而是在云里托管一台可被模型操控的半电脑。OpenAI  computer use 官方说明已经说得很清楚:模型给出动作参数后,需要你在虚拟电脑或浏览器里执行,再把截图送回去;ChatGPT agent 则进一步把这个概念产品化成自己的虚拟电脑Anthropic  computer use 直接提供 screenshot capturemouse controlkeyboard input  desktop automationAWS  AgentCore Browser 也不是简单的网页抓取工具,而是一个 containerizedsecureisolated  browser environment,并自带 session isolationCloudTraillive view  replay。与此同时,Browserbase 从浏览器基础设施角度指出,Chromium 一旦从开发者本机搬进容器和共享 cloud runner,运行时本身就会变成新的运维问题,这也是“serverless browser”开始独立成层的原因。换句话说,浏览器型 Agent 往往既不像普通容器任务,也不完全等于一台传统 VM,它更像被平台托管的浏览器计算单元

 

这也是为什么本地不会消失。很多人把本地理解成落后路线,其实恰恰相反:本地会越来越像高信任入口。Claude Code 之所以同时覆盖 terminalIDEdesktop app  browser,不是因为 Anthropic 没选云,而是因为人机接力必须发生在最接近用户的地方;它默认严格只读,执行 bash 等高风险动作需要显式许可。OpenAI  Codex app 也没有把答案写成纯云:它明确给出 LocalWorktreeCloud 三种模式,其中 Local  Worktree 都运行在用户自己的电脑上;worktree 用来隔离改动,automations 也可以在本地 app 里以后台 worktree 方式持续运行。这里最有价值的,不是本地那点算力,而是用户身份、本地文件、本地应用、最终审批权和随时接管能力。OXYZ资本内部认为,本地不会是唯一主战场,但它会成为 Agent 最重要的信任前台。

 

真正的分水岭,不是技术偏好,而是任务类型。代码与工具链任务——依赖标准、命令标准、结果可复现、适合并发调度——天然更偏容器;浏览器与桌面任务—— GUI、有会话状态、有真实账户、有审计与回放要求——更偏远程浏览器、VM 或强隔离沙箱;个人助手和高隐私任务——涉及本地文件、本地 app、即时交互和用户接管——则更偏本地。不是哪一种执行层会统一世界,而是哪一类任务会把哪一种执行层推成默认选项。

 

所以,如果非要押一个答案,我更愿意给出一个三层分工而不是三选一。表层答案是容器,因为它最符合今天开发者的工作流,也最容易与镜像、CIK8sDev Containerssnapshot 和已有工程体系接轨;深层答案是 VM / microVM,因为真正决定企业敢不敢把 Agent 放进生产的,是更强的隔离边界和更低的越界后果;真实答案则是本地容器 + VM 的复合栈:本地做入口、审批、接管,容器做默认 workloadVM 做高风险包裹层。OXYZ资本在这个问题上的判断是:AI 执行层真正的主战场,表面看是容器,深处看是 VM,入口看是本地。

 

更值得警惕的是,未来真正值钱的未必不是 runtime 本身,而是 runtime 之上的控制面。AWS AgentCore 已经把 RuntimeBrowserIdentityMemoryPolicyObservability 做成平台化组合,其中 Policy 明确支持用自然语言或 Cedar 写细粒度规则,并在工具调用前拦截;Browser  session replay 则把审计、调试和训练闭环补上。OpenAI Codex 的安全设计也不只是起个容器而已,而是把 setup/agent 两阶段、网络边界、secret 生命周期和 approvals 一起纳入运行模型。行业真正有壁垒的,不是谁能起一台 VM,谁能拉一个容器,而是谁能把快照、恢复、长会话状态、权限编排、网络边界、日志、回放和多 Agent 并发管理这些事情管起来。

 

这也是创业者和投资人真正该盯的方向。不要只盯我们也能跑容器”“我们也能起 VM”“我们也支持本地,更该盯的是:执行环境切换成本高不高,会话状态能不能持久化,风险任务能不能安全隔离,浏览器/代码/本地工具三类执行能不能被统一抽象,以及 observabilitypolicyidentityreplay 这一层是不是已经成形。执行层的机会,不在算力盒子本身,而在可信执行可控运行可审计放权这一整层。

 

OXYZ资本认为,本地会成为 Agent 的高信任入口,容器会成为最显性的执行 workload 格式,VM——尤其 microVM——会成为高风险、高价值场景下的默认安全边界。最终赢家不是某一种形态,而是能把三者编排成一个可信执行体系的那一方。