AI 浏览器执行层：该作为基础设施主战场，还是 OXYZ资本的技术期权雷达？

2026-03-25 18:07:37

在 AI 应用进入真实业务流程的阶段后，一个越来越值得重视、但又容易被误判的方向，正在浮出水面：浏览器执行基础设施。它不是单纯的“让模型会点网页”，而是连接模型能力与网页工作流之间的执行、治理与可观测层。对 OXYZ资本来说，这个方向当前更适合被放入“技术期权雷达 + 邻近控制点研究”，而不是立刻升级为主战场。

原因很简单。今天市场上大量 browser agent 叙事，仍停留在 demo 层。它们展示了模型“可以操作网页”，却没有真正回答投资上最关键的问题：这种能力是否会沉淀为稳定、可复用、可治理的底层基础设施；以及它究竟在垂直场景中扮演“锦上添花”，还是正在成为决定交付边界的关键底座。

从我们内部的研究框架看，我们把赛道切成五层：模型、computer use 协议/MCP、framework、browser runtime/cloud、vertical app。我们认为这个骨架非常重要，因为大量项目会有意无意地把多层能力混在一起讲。有人把模型能力包装成 infra，有人把 workflow 产品包装成通用 agent，也有人把一个招聘、电商或客服里的浏览器自动化能力，外推成跨行业通用平台。若没有分层意识，我们认为尽调时很容易被叙事带偏。

进一步看，这个领域真正的“物理规律”并不性感，但决定了投资价值。包括成功率、延迟、执行步数、调试效率、错误恢复、回放能力、登录态管理、验证码与风控处理、多标签页和多站点协同，以及 DOM、vision agent、deterministic script 三种路径之间的边界。凡是不能穿透这些约束的项目，基本都还停留在演示层，而不是生产层。尤其在企业场景里，浏览器执行一旦进入关键流程，企业真正购买的不是“模型会操作”，而是“这套执行是否可控、可审计、可追责、可复盘”。

这也是 OXYZ资本当前最关注的一点：未来若真出现可投窗口，优先看“受约束的执行层”，也就是 runtime + governance + replay，而不是先追“纯通用 agent 梦想”。因为通用 agent 的上限很高，但商业闭环往往太远；反过来，执行层如果能在复杂网页环境中实现稳定调度、状态管理、异常恢复、权限隔离与全链路回放，就可能成为跨垂直复用的真实控制点。它未必最显眼，却最接近企业愿意持续付费的价值。

我们认为，从投资判断出发，研究 browser execution 的关键，不是去问“这个故事够不够大”，而是去问“钱离哪里最近”。不是所有 browser automation 都值得投，真正值得追踪的，是那些高频、跨系统、重复、价值高、审批链强、API 又不完整、且今天仍然依赖人工点击完成的动作包。招聘、电商运营、客服、BPO、营收工具等领域，都可能出现这样的切口。因为这些场景天然存在大量网页工作流，且流程高度碎片化、系统割裂、人工成本高，一旦浏览器执行能力成熟，最先形成的不是一个宏大平台，而是一组被验证能带来 ROI 的任务集合。

因此，在看具体公司时，OXYZ资本会特别警惕一种常见叙事：公司在某个垂直场景跑通后，便声称自己未来可以抽象成“通用 browser agent / infra”。这未必是错的，但必须追问：比如，拿招聘领域来说，它当前证明的，到底是“在招聘里有很强的浏览器工程能力”，还是“已经出现跨行业可复用的执行抽象”？前者说明团队有扎实交付能力，后者才意味着潜在的平台化路径。两者差别极大。很多公司其实只在一个垂直里深度适配了页面结构、流程约束与人工规则，却尚未跨出行业边界；这类 optionality 可以记账，但不能提前按平台估值。

以 OXYZ资本的视角，这个方向现阶段最好的研究顺序，永远不是先看公司，而是先看赛道控制点：先搭认知骨架，再研究执行层的物理规律，再判断价值最靠近现金流的场景，最后才去看谁占住了哪一层。只有这样，才能避免把一个“会做浏览器自动化的垂直应用”，误判成“即将成为通用基础设施的平台型公司”。

我们的阶段性结论是：AI 浏览器执行基础设施值得持续跟踪，但暂不宜整体性押注。它更像一个正在成形的邻近控制点，而非已经清晰成立的独立大赛道。真正值得优先研究和布局的，是受约束的执行层能力是否在多个高价值垂直中同时成为必要底座。一旦答案逐步变成“是”，下一轮可投窗口才会打开。届时，最稀缺的也许不是最会讲 agent 故事的人，而是最早把执行、治理、回放和可观测做成标准件的人。