龙虾之后别急着做 AI 员工:一个 Agent 项目在融资前必须回答的 7 个问题

最近科技圈有个很形象的说法,叫龙虾化。它源自 OpenClaw 的龙虾 logo,也被拿来指代这一轮 Agent 热潮:AI 不再只是对话框里的回答机器,而是开始自己规划、调用工具、执行任务、交付结果。与此同时,Stanford HAI 统计显示,78% 的组织已在至少一个业务职能中使用 AIMcKinsey  2025 全球调查则显示,23% 的受访组织已在至少一个职能中扩展部署 agentic AI,另有 39% 正在试验,但从 pilot 走到规模化影响,仍远没有外界想象得那么顺滑。热度是真的,钱也真的在进来,但资本已经不再为一句“AI 员工轻易买单。

 

这也是今天很多创业者最容易踩空的地方:看见行业在狂奔,就以为最重要的是把叙事喊大;看见一只龙虾能调十几个 Agent,就以为自己也该先画一张 AI 组织架构图。但融资现场从来不信热闹,只信可验证性。OXYZ资本在看一些相关项目时,最常追问的不是你能替代多少人,而是你到底吃掉了哪一段工作,谁会为这个结果付钱,出了错谁负责

 

1. 你切的是岗位想象,还是工作流 wedge”

Bessemer  Vertical AI 的一个核心判断非常值得创业者反复咀嚼:这类公司争夺的,不只是传统 IT 预算,而是在触碰更大的 labor budget;与此同时,supporting workflows 往往比 core workflows 更容易被 AI 接管,因为它们更辅助、更重复,用户委派意愿更强、落地阻力也更小。换句话说,融资前你不能只说我要做 AI 法务”“我要做 AI 审计师,而要说清楚自己先吃掉的是保单初审、退款分流、底稿整理,还是线索清洗。岗位是叙事单位,工作流才是购买单位。

 

创业者最容易犯的错,是把职业名称当产品定义。职业名称听起来市场大、故事性感,但对投资人来说,那只是一个模糊容器。OXYZ资本观点很明确:真正能打动人的,从来不是我们要替代一个岗位的宏大口号,而是我们先把这个岗位里最脏、最累、最频繁的一刀切下来的具体路线。你不是先证明自己能替代一个人,而是先证明自己能稳定吃掉一段被反复购买的工作流。

 

2. 你现在到底是 L2L3,还是在拿 L4 的故事融资?

Bessemer  autonomy scale 很适合直接放进融资 deck。按照这套框架,L2 仍是 human-in-the-loop  copilotL3 才是在强可靠性保证下自主完成任务,L4 才能算 fully autonomous、真正意义上的“perform job”。很多项目今天其实还只是建议系统或半自动执行系统,却在 pitch 里直接自称“AI 员工。这在投资人眼里,几乎等于把风险藏在修辞里。

 

OXYZ资本内部认为,创业者最该诚实的不是愿景,而是阶段。你完全可以告诉投资人:我们今天只做到 L2.5,能在退款、排程、质检这类限定场景里高自治执行,但进入财务系统发起付款、对外承诺 SLA、改动核心业务配置,仍然必须人工审批。越把权限边界讲清楚,越像一家知道自己在做什么的公司。融资不是奖励你会讲未来,而是奖励你敢不敢把今天说真。

 

3. 没有 eval,你的会干活只是演示,不是产品

OpenAI  agent 实践指南里给出的建议非常务实:先用最强模型为每个任务建立性能 baseline,再通过 eval 判断哪些环节可以换成更小、更快的模型;同时,真正有意义的 eval 必须是 contextual 的,要贴着具体业务流程,用真实样本和高代价 edge case 去测。OpenAI 后续关于 eval 的文章也强调,eval 的价值在于把模糊目标变成可衡量结果,并持续从真实错误里倒逼系统改进。

 

所以融资前,你至少要拿出一套自己的工作证明。任务成功率怎么定义?严重错误率怎么记?升级到人工的比例是多少?失败后如何复盘?哪些 case 永远不能自动化?OXYZ资本在内部讨论时常说,demo 解决的是像不像eval 解决的才是能不能一直这样。一家公司是否配得上融资,很多时候就看它有没有把好像有效翻译成可以验证

 

4. 一旦出错,谁兜底?你的责任边界是不是画出来了?

McKinsey  2025 全球调查发现,是否定义清楚何时需要人工验证,是 AI 高绩效组织和其他组织拉开差距的重要实践之一。OpenAI 也明确建议,把人类介入设计成正式机制:当 agent 超过失败阈值,或者准备执行不可逆、高风险动作时,必须触发人工接管或审批。

Agent 创业来说,真正昂贵的不是一次回答不漂亮,而是一次不可逆的正确性事故。

 

这也是 OXYZ资本在看一些 Agent 项目时几乎必问的一组问题:你的高风险动作有哪些?写权限和读权限是否分级?什么时候自动 rollback?谁来审日志?如果客户把付款、退款、调度、合规判断交给你,你不能只展示成功路径,更要展示失败路径。你真正欠投资人的,不是一张流程图,而是一份责任说明书。融资从来不只看上限,也在看下限。

 

5. 你有没有真正接进系统?没有 system of record,就没有 AI 员工

很多创始人把 Agent 想成一个更聪明的聊天框,但企业真正买单的,是能进入系统、读取上下文、调用工具、把结果写回流程的执行层。McKinsey 指出,不少 agentic AI 落地受阻,并不是缺模型,而是缺成熟的 packaged solutions,或者 AI 团队与业务、IT、数据团队彼此割裂,导致集成和规模化都很困难;Bessemer 也把专有数据、产品集成深度和经济价值,视为 AI 应用的重要差异化来源。

 

OXYZ资本认为,Agent 的价值不在对话框里,而在权限表里。你接的是 CRMERPEHR、工单系统,还是只能读一个知识库?你有没有事件触发、状态回写、审计日志、权限隔离?没有这些,产品再像员工,也只是个会说话的前台。创始人必须尽早明白:在企业场景里,系统接入不是技术细节,它就是产品本身。

 

6. 你的架构复杂度,会不会把毛利和体验一起吃掉?

Anthropic 总结自己和客户的实践时说,最成功的 agent 实现往往不是靠复杂框架,而是靠简单、可组合的模式。OpenAI 也建议按复杂度匹配编排方式:先从单 agent 出发,确有必要时再进入多 agent;并且在达到准确率目标之后,再逐步用更小模型优化成本和延迟。Bessemer 对一批 LLM-native 垂类 AI 公司的分析则显示,软件化毛利并非不可能,但那是克制设计出来的,不是靠堆更多 agent 堆出来的。

 

龙虾之后最容易出现的一种幻觉,就是每个人都想先搭一个 AI 公司组织图:CEO agent、销售 agent、分析 agent、执行 agent……看起来很像未来,算账时却像灾难。融资前你要先回答一个更粗粝的问题:一次完整任务到底要多少 token、多少 tool call、多少人工复核、多少延迟、多少重试?OXYZ资本内部认为,很多项目不是死在能力不够,而是死在 orchestration 过度、成本失控,最后只能靠人工在后台悄悄补洞。你以为自己在卖软件,实际上卖成了一个被模型成本和人工兜底双重挤压的服务生意。

7. 为什么是你,不是模型厂商、现有 SaaS,或者一个更便宜的服务团队?

Bessemer 一方面指出,supporting workflows 确实更容易切入;但另一方面也提醒,这些领域里 tech-forward  horizontal incumbents 已经在把 AI 加进平台,垂直创业公司必须做出显著更好的方案。同时,incumbents 也在 build as well as buy,窗口是真实存在的,竞争压力也同样真实。

 

所以最后一个问题,其实也是融资里最核心的问题:你的护城河到底是什么?是数据闭环、行业 know-how、系统集成、合规能力、结果责任,还是独特分发?OXYZ资本观点是,Agent 时代最危险的不是被说成 wrapper,而是你真的只有 wrapper。模型能力会越来越像公共品,真正能留下来的,是那些把行业上下文、执行权限、反馈数据和客户流程牢牢绑在一起的人。

 

说到底,“AI 员工不是产品定义,而是阶段性终局。它不是融资起点,更不是一句把估值抬上去的魔法词。真正能拿到钱、也真正值得拿钱的 Agent 公司,往往都更克制:先切一个高频工作流,诚实标注自治等级,用 eval 建立可信度,用人机闭环承接风险,用系统集成拿到执行权,再把一次次交付过的结果沉淀成数据、毛利和复利。

 

站在 OXYZ资本 的投研视角,我们越来越相信一件事:融资现场真正打动人的,从来不是我们做了一个 AI 员工,而是我们知道它今天能做什么、不能做什么、出了错怎么收、明天为什么会更强。别急着把那只龙虾招进公司。先把这个问题答到让自己都无法回避,再去谈融资。因为资本最终买单的,不是想象力,而是可验证、可审计、可扩张的结果

 

如果你现在就在改 deck,最有效的做法其实很简单:把这个问题各做成一页。能写清这页,你的项目才会从像个趋势故事,变成像一家公司