AI 浏览器执行层:该作为基础设施主战场,还是 OXYZ资本的技术期权雷达?
在 AI 应用进入真实业务流程的阶段后,一个越来越值得重视、但又容易被误判的方向,正在浮出水面:浏览器执行基础设施。它不是单纯的“让模型会点网页”,而是连接模型能力与网页工作流之间的执行、治理与可观测层。对 OXYZ资本来说,这个方向当前更适合被放入“技术期权雷达 + 邻近控制点研究”,而不是立刻升级为主战场。
原因很简单。今天市场上大量 browser agent 叙事,仍停留在 demo 层。它们展示了模型“可以操作网页”,却没有真正回答投资上最关键的问题:这种能力是否会沉淀为稳定、可复用、可治理的底层基础设施;以及它究竟在垂直场景中扮演“锦上添花”,还是正在成为决定交付边界的关键底座。
从我们内部的研究框架看,我们把赛道切成五层:模型、computer use 协议/MCP、framework、browser runtime/cloud、vertical app。我们认为这个骨架非常重要,因为大量项目会有意无意地把多层能力混在一起讲。有人把模型能力包装成 infra,有人把 workflow 产品包装成通用 agent,也有人把一个招聘、电商或客服里的浏览器自动化能力,外推成跨行业通用平台。若没有分层意识,我们认为尽调时很容易被叙事带偏。
进一步看,这个领域真正的“物理规律”并不性感,但决定了投资价值。包括成功率、延迟、执行步数、调试效率、错误恢复、回放能力、登录态管理、验证码与风控处理、多标签页和多站点协同,以及 DOM、vision agent、deterministic script 三种路径之间的边界。凡是不能穿透这些约束的项目,基本都还停留在演示层,而不是生产层。尤其在企业场景里,浏览器执行一旦进入关键流程,企业真正购买的不是“模型会操作”,而是“这套执行是否可控、可审计、可追责、可复盘”。
这也是 OXYZ资本当前最关注的一点:未来若真出现可投窗口,优先看“受约束的执行层”,也就是 runtime + governance + replay,而不是先追“纯通用 agent 梦想”。因为通用 agent 的上限很高,但商业闭环往往太远;反过来,执行层如果能在复杂网页环境中实现稳定调度、状态管理、异常恢复、权限隔离与全链路回放,就可能成为跨垂直复用的真实控制点。它未必最显眼,却最接近企业愿意持续付费的价值。
我们认为,从投资判断出发,研究 browser execution 的关键,不是去问“这个故事够不够大”,而是去问“钱离哪里最近”。不是所有 browser automation 都值得投,真正值得追踪的,是那些高频、跨系统、重复、价值高、审批链强、API 又不完整、且今天仍然依赖人工点击完成的动作包。招聘、电商运营、客服、BPO、营收工具等领域,都可能出现这样的切口。因为这些场景天然存在大量网页工作流,且流程高度碎片化、系统割裂、人工成本高,一旦浏览器执行能力成熟,最先形成的不是一个宏大平台,而是一组被验证能带来 ROI 的任务集合。
因此,在看具体公司时,OXYZ资本会特别警惕一种常见叙事:公司在某个垂直场景跑通后,便声称自己未来可以抽象成“通用 browser agent / infra”。这未必是错的,但必须追问:比如,拿招聘领域来说,它当前证明的,到底是“在招聘里有很强的浏览器工程能力”,还是“已经出现跨行业可复用的执行抽象”?前者说明团队有扎实交付能力,后者才意味着潜在的平台化路径。两者差别极大。很多公司其实只在一个垂直里深度适配了页面结构、流程约束与人工规则,却尚未跨出行业边界;这类 optionality 可以记账,但不能提前按平台估值。
以 OXYZ资本的视角,这个方向现阶段最好的研究顺序,永远不是先看公司,而是先看赛道控制点:先搭认知骨架,再研究执行层的物理规律,再判断价值最靠近现金流的场景,最后才去看谁占住了哪一层。只有这样,才能避免把一个“会做浏览器自动化的垂直应用”,误判成“即将成为通用基础设施的平台型公司”。
我们的阶段性结论是:AI 浏览器执行基础设施值得持续跟踪,但暂不宜整体性押注。它更像一个正在成形的邻近控制点,而非已经清晰成立的独立大赛道。真正值得优先研究和布局的,是受约束的执行层能力是否在多个高价值垂直中同时成为必要底座。一旦答案逐步变成“是”,下一轮可投窗口才会打开。届时,最稀缺的也许不是最会讲 agent 故事的人,而是最早把执行、治理、回放和可观测做成标准件的人。

