本地、VM、容器，哪一种会成为 AI 执行层的主战场？

2026-03-09 11:21:51

过去大家讨论 Agent，讨论的是模型会不会更聪明；但到了今天，更决定 Agent 能不能进生产环境的，已经不是“会不会想”，而是“跑在哪里、拿什么权限、出了事怎么隔离”。OpenAI 已经把 computer use 放进官方 built-in tools，而且明确说明它和普通内建工具不同：模型给出动作后，动作必须在“虚拟电脑或浏览器”上执行，再把截图回传；与此同时，ChatGPT agent 已经被官方定义为能用“自己的虚拟电脑”替用户完成任务；Anthropic 的 computer use 也把截图、鼠标、键盘、桌面自动化做成了标准能力。执行环境因此不再是边缘问题，而是 Agent 产品定义的一部分。

截至 2026 年 3 月，从头部产品的公开设计看，路线其实已经明显分化：OpenAI 的 Codex 云端任务运行在隔离容器里；Anthropic 的 Claude Code 同时覆盖 terminal、IDE、desktop app 和 browser，并专门给出 devcontainer 方案；AWS 的 AgentCore Browser 提供容器化、隔离的远程浏览器环境，而 AgentCore Runtime 的会话则直接落在 dedicated microVM 上；E2B 则把按需创建的 Linux VM 和 Firecracker microVM 明确放到自己的执行底座叙事里。OXYZ资本认为，这个问题真正该问的，不是“本地、VM、容器谁会赢”，而是：AI 执行层到底会如何分工。

先把三个概念说清楚。本地，争的不是“更先进”，而是最短的信任半径：最靠近用户身份、最靠近真实操作系统、最靠近本地文件和最终确认权。容器，争的不是“最安全”，而是把依赖、工具链和运行环境打包成标准化 workload 的能力：它最适合复制、编排、扩缩容和工程化。VM，尤其是 microVM，真正卖点也不是“更重”，而是隔离边界更强，适合不可信代码、多租户、长任务和高风险执行。

如果只看哪里会先成为最热闹的主战场，答案几乎是容器。原因很简单：最先规模化的，不会是“通用电脑使用”，而是编码、脚本、工具调用、CI/CD、数据处理这类标准化执行任务。OpenAI 明确写到，Codex agent 在云端“entirely within a secure, isolated container”运行；Codex cloud 的安全文档又补了一层，两阶段运行模型里只有 setup 阶段能按配置联网安装依赖，agent phase 默认离线。Anthropic 则直接给了 Claude Code 的 devcontainer 参考实现，并强调 isolation 和 firewall rules；Daytona 的执行环境也明显是容器世界的工程语言：OCI 镜像、snapshot、Linux namespaces，以及每个 sandbox 的独立 CPU、内存和磁盘资源。容器不是因为“绝对安全”而先赢，而是因为它最符合今天开发者对可复现、可编排、可工程化的默认想象。

但如果问，哪一种会拿走最贵的安全预算，答案更像 VM，尤其是 microVM。E2B 在文档里把 Sandbox 定义成“按需创建的安全 Linux VM”，在自己的案例和技术文章里又明确把 Firecracker microVM 作为运行不可信代码的底层选择；AWS 更直接，AgentCore Runtime 的官方文档写明，每个 session 都运行在 dedicated microVM 中，CPU、内存、文件系统完全隔离，会话最长可持续 8 小时，终止后整个 microVM 会被销毁并清理内存。越靠近生产系统、越靠近敏感权限、越靠近多租户和不可信输入，隔离失败的代价就越高于冷启动和资源开销，这时安全边界自然会向 VM 化倾斜。OXYZ资本观点是，容器会先吃到开发者流量，但 VM / microVM 更可能吃到企业最贵的那部分放行预算。

真正把这场战争推复杂的，是浏览器和电脑使用。因为浏览器型 Agent 并不是“再跑一个脚本”，而是在云里托管一台可被模型操控的半电脑。OpenAI 的 computer use 官方说明已经说得很清楚：模型给出动作参数后，需要你在“虚拟电脑或浏览器”里执行，再把截图送回去；ChatGPT agent 则进一步把这个概念产品化成“自己的虚拟电脑”；Anthropic 的 computer use 直接提供 screenshot capture、mouse control、keyboard input 和 desktop automation。AWS 的 AgentCore Browser 也不是简单的网页抓取工具，而是一个 containerized、secure、isolated 的 browser environment，并自带 session isolation、CloudTrail、live view 和 replay。与此同时，Browserbase 从浏览器基础设施角度指出，Chromium 一旦从开发者本机搬进容器和共享 cloud runner，运行时本身就会变成新的运维问题，这也是“serverless browser”开始独立成层的原因。换句话说，浏览器型 Agent 往往既不像普通容器任务，也不完全等于一台传统 VM，它更像“被平台托管的浏览器计算单元”。

这也是为什么本地不会消失。很多人把“本地”理解成落后路线，其实恰恰相反：本地会越来越像高信任入口。Claude Code 之所以同时覆盖 terminal、IDE、desktop app 和 browser，不是因为 Anthropic 没选云，而是因为人机接力必须发生在最接近用户的地方；它默认严格只读，执行 bash 等高风险动作需要显式许可。OpenAI 的 Codex app 也没有把答案写成纯云：它明确给出 Local、Worktree、Cloud 三种模式，其中 Local 和 Worktree 都运行在用户自己的电脑上；worktree 用来隔离改动，automations 也可以在本地 app 里以后台 worktree 方式持续运行。这里最有价值的，不是本地那点算力，而是用户身份、本地文件、本地应用、最终审批权和随时接管能力。OXYZ资本内部认为，本地不会是唯一主战场，但它会成为 Agent 最重要的信任前台。

真正的分水岭，不是技术偏好，而是任务类型。代码与工具链任务——依赖标准、命令标准、结果可复现、适合并发调度——天然更偏容器；浏览器与桌面任务——有 GUI、有会话状态、有真实账户、有审计与回放要求——更偏远程浏览器、VM 或强隔离沙箱；个人助手和高隐私任务——涉及本地文件、本地 app、即时交互和用户接管——则更偏本地。不是哪一种执行层会统一世界，而是哪一类任务会把哪一种执行层推成默认选项。

所以，如果非要押一个答案，我更愿意给出一个三层分工而不是三选一。表层答案是容器，因为它最符合今天开发者的工作流，也最容易与镜像、CI、K8s、Dev Containers、snapshot 和已有工程体系接轨；深层答案是 VM / microVM，因为真正决定企业敢不敢把 Agent 放进生产的，是更强的隔离边界和更低的越界后果；真实答案则是本地 + 容器 + VM 的复合栈：本地做入口、审批、接管，容器做默认 workload，VM 做高风险包裹层。OXYZ资本在这个问题上的判断是：AI 执行层真正的主战场，表面看是容器，深处看是 VM，入口看是本地。

更值得警惕的是，未来真正值钱的未必不是 runtime 本身，而是 runtime 之上的控制面。AWS AgentCore 已经把 Runtime、Browser、Identity、Memory、Policy、Observability 做成平台化组合，其中 Policy 明确支持用自然语言或 Cedar 写细粒度规则，并在工具调用前拦截；Browser 的 session replay 则把审计、调试和训练闭环补上。OpenAI Codex 的安全设计也不只是“起个容器”而已，而是把 setup/agent 两阶段、网络边界、secret 生命周期和 approvals 一起纳入运行模型。行业真正有壁垒的，不是谁能起一台 VM，谁能拉一个容器，而是谁能把快照、恢复、长会话状态、权限编排、网络边界、日志、回放和多 Agent 并发管理这些事情管起来。

这也是创业者和投资人真正该盯的方向。不要只盯“我们也能跑容器”“我们也能起 VM”“我们也支持本地”，更该盯的是：执行环境切换成本高不高，会话状态能不能持久化，风险任务能不能安全隔离，浏览器/代码/本地工具三类执行能不能被统一抽象，以及 observability、policy、identity、replay 这一层是不是已经成形。执行层的机会，不在算力盒子本身，而在“可信执行 + 可控运行 + 可审计放权”这一整层。

OXYZ资本认为，本地会成为 Agent 的高信任入口，容器会成为最显性的执行 workload 格式，VM——尤其 microVM——会成为高风险、高价值场景下的默认安全边界。最终赢家不是某一种形态，而是能把三者编排成一个可信执行体系的那一方。