别再把它叫 Browser Agent:真正值得投的,是网页世界的执行控制平面
今天如果还把这条赛道笼统叫作“browser agent”,大概率已经慢了一拍。模型会看屏幕、会判断下一步动作,这件事本身已经不是稀缺能力。真正稀缺的,不是“AI 会不会点按钮”,而是“它能不能在真实网站里,带着权限、状态、策略和审计要求,把事稳定、低错、可追责地做完”。在 OXYZ资本看来,这才是这条赛道真正的名字:Web Execution Control Plane。
这句话的分量在于,它直接改写了行业的观察角度。我们并不否认模型层的重要性。恰恰相反,模型层决定了智能上限;但它不天然决定交付能力,更不天然决定商业价值。协议层解决“怎么接、怎么控”,framework 解决“怎么更快开发”,这些都重要,但都不是最后的利润池。真正能沉淀价值的,是更不性感、也更难啃的那一层:会话治理、身份与权限、密钥与凭证、代理与反 bot、失败恢复、日志回放、审批策略、成本控制,以及把网页动作包装成稳定工作流的产品能力。
换句话说,这不是一个“让模型多想一步”的故事,而是一个“让系统对结果负责”的故事。谁拥有网页执行的控制平面,谁就拥有 agent 时代网页世界里的基础设施权力。谁还停留在“observe/extract/act”的抽象层上讲故事,谁就很可能在下一轮标准化里被迅速压缩成开源组件或开发者便利层。行业里最大的误判之一,就是把模型进步误认成基础设施壁垒;第二个误判,是把开发者抽象误认成企业护城河。这两件事,未来都会被时间教育。
OXYZ资本的判断很明确:价值不会长期沉淀在低层协议,也不会长期沉淀在通用 agent loop。 协议天然走向标准化,框架天然走向开源化,模型能力天然走向平台化。真正不容易被吃掉的,是那些带状态、带身份、带策略、带审计的执行能力;以及在其之上,把高频网页动作压缩成 workflow API、skill API、function endpoint 的产品化能力。前者让 agent 能在企业世界里活下来,后者让它开始创造收入。
因此,我们对“纯 browser minutes”并不兴奋。卖浏览器小时,本质上是供给;而供给一旦被云厂商补齐,价格就会往下走。企业真正愿意付费的,从来不是“浏览器开了多久”,而是“流程有没有完成、错误率有没有下降、是否可审计、出了问题谁能复盘、能不能规模化复制”。如果一个公司只能证明自己把浏览器跑起来了,它最多证明了自己能参与比赛;它还没有证明自己值得赢。
这也解释了为什么最先跑出 PMF 的,大概率不是“万能浏览代理”,而是deterministic-first,AI-fallback 的执行系统。真正成熟的产品不会让模型统治整个闭环,而会把 AI 放在少数必要决策点:理解非结构化页面、处理异常分叉、补全上下文缺口、在置信度不足时触发人机协作。除此之外,能规则化的就规则化,能流程化的就流程化,能回放的就回放,能审计的就审计。企业不是为“看起来像人”买单,而是为“结果像系统”买单。
所以我们看团队,也不会只看谁最懂 frontier model。这个赛道最后拼的,不是 demo 智商,而是生产责任。最有机会赢的团队,往往同时具备三种能力:第一,懂浏览器、runtime、分布式系统,知道真实执行环境里会出什么脏活累活;第二,懂安全、身份、权限、合规,知道企业到底在怕什么;第三,懂企业工作流,知道什么该交给模型,什么绝不能交给模型。纯研究背景不够,纯 agent framework 背景也不够。这个市场最终奖励的,是能为结果签字的人,而不是只会为技术炫技的人。
GTM 上,我们也不迷信单纯 PLG 的浪漫叙事。开发者 wedge 当然重要,它是最低成本的入口,是验证需求、积累使用数据、建立生态认知的最快路径。但这条赛道真正的收入爆发,不会来自“有多少开发者注册”,而会来自 enterprise expansion:当产品开始承接认证体系、权限边界、跨部门审批、日志回放、风险策略、合规要求时,它才真正从工具预算进入系统预算。说得再直白一点:开发者会把你带进门,但只有控制平面能力,才能把你带进利润表。
这也是我们对“窗口期”的态度。窗口当然存在,但位置已经变了。今天再去做一层轻飘飘的 wrapper,很难称得上机会;去跟大厂比谁的模型更会点网页,也不是聪明打法。真正的机会,在 runtime 之上,在控制平面之中,在 workflow API 与垂直 action layer 的交界处。因为那里既有技术复杂度,又有企业预算,还足够贴近结果。更重要的是,那一层一旦建立起来,就不只是“跑浏览器”,而是在占据网页世界里的行动入口。
因此,OXYZ资本不会把这条赛道泛泛地归为“browser agent”。我们更愿意把它看成 agent-native stack 里最关键、也最容易被误读的一层:网页世界的执行控制平面。我们的投资立场也很清楚:不会为协议本身付高溢价,不会为开源 wrapper 付高溢价,也不会为纯 browser minute 供给付高溢价。我们真正关注两类公司:一类是围绕 stateful execution、policy、identity、audit 构建控制平面的平台;另一类是在其之上,把高价值网页流程压缩成稳定 API 与可复用工作流的产品。前者决定谁有控制权,后者决定谁吃到规模化收入。
未来两到三年,这个赛道最大的赢家,很可能既不是“最强通用代理”,也不是“最红的开源框架”,而是最早把网页工作流变成可治理、可复用、可审计、可结算的团队。行业真正的分水岭,不是 AI 会不会操作浏览器,而是谁能让浏览器第一次像企业系统一样,对结果负责。

