10亿/百亿美金AI应用的“硬门槛清单”:一张评分卡让争论结束

01真正会害死一家AI公司的,不是模型不够强,而是你把看错了

站在CEO的位置,最危险的事,从来不是模型不够聪明。

最危险的,是你被自己的聪明骗了。

参数更强,于是你提前签了扛不起的SLA
Demo更炫,于是你把掌声误当成预算。
增长更快,于是你用实施堆收入、用人工遮故障、用明年模型会更便宜掩盖今天的负毛利。

最后公司不是死于不聪明。
而是死于上线后失真、交付失控、权限事故和毛利塌陷。

OXYZ资本认为,10亿/100亿美金级AI应用,不是更聪明,而是能规模化且不崩

所以我们在看项目时,不先听故事,先上《OXYZ_10B识别评分卡_v130项)》。

这张评分卡不是用来帮助创始人讲得更好的。
它是用来结束争论的。

它只问三件事:

第一,你的收入是不是真的。
第二,你的PMF是不是稳定的。
第三,你的增长能不能在不崩、不亏、不出事故的前提下继续放大。

30项评分卡分成七组:

K01-K04,看需求与预算。
K05-K08,看PMF
K09-K12,看分发。
K13-K16,看单位经济。
K17-K21,看工程化。
K22-K24,看组织学习速度。
K25-K30,看安全合规。

每项05分。
0分,代表只有故事。
3分,代表有证据闭环。
5分,代表跨客户稳定成立。

OXYZ资本内部讨论时有一条很硬的规则:

Top5硬门槛里,任意一项低于3分,先别谈规模化。
Top5总分低于18分,不进下一轮。

 

02为什么10亿/100亿AI应用,和还不错的AI工具是两码事

很多人看AI项目,还在用产品经理视角看。
能不能跑出来,能不能演示,够不够惊艳。

但真正的10B/100B公司,必须用系统公司视角看。

因为还不错的AI工具,只需要在演示里赢。
10B/100B AI应用,必须在五张桌子上同时赢:

业务桌、财务桌、采购桌、IT桌、安全桌。

第一,可靠性不是答得像不像,而是错了会不会出事

一个AI工具,大家最容易盯着准确率看。
但一个能规模化的AI应用,核心不是单次准确率,而是:

它在真实流量下会不会失稳。
它出错后会不会引发业务事故。
它能不能灰度、回滚、止损。

证据口径不能是我们benchmark很好
证据口径必须是:

SLA报表。
P95延迟。
失败样本分桶。
人工接管率。
线上回放记录。
回滚日志。

OXYZ资本在尽调时,只要看到一家公司只有离线准确率,没有线上错误闭环,基本就知道它离规模化还远。

第二,交付不是接上API”,而是接进责任链

很多AI项目把集成成功当成交付成功

这是错的。

真正的交付,不是把模型接进系统。
而是把模型接进权限、流程、审批、责任链

只要责任链没接住,项目就永远停留在能演示、不能放权

所以必须看的,不是一个漂亮架构图。
而是:

上线队列表。
实施runbook
系统集成清单。
角色权限矩阵。
平均上线周期。
实施人天和支持工时。

能不能复制,不看嘴。
看是不是已经从项目制交付走到模板化交付

第三,毛利不是模型便宜了多少,而是越做越大时还能不能赚钱

这是AI应用里最容易被讲错的一件事。

很多团队谈成本,只谈token成本。
这几乎一定会高估生意。

因为真正吞噬利润的,往往不是模型本身。
而是人工复核、客户支持、实施、异常处理、长尾故障和客户定制。

所以单位经济要看的,不是一个平均毛利数字。
而是:

COGS拆解。
客户级毛利。
场景级毛利。
峰值周成本。
人工接管日志。
不同复杂度任务的压力测试。

OXYZ资本认为,AI应用如果一放量就靠加人顶住,那不是规模化,那只是披着软件外衣的服务公司。

第四,分发不是线索很多,而是预算owner清晰,采购链能过,扩张路径能复制

增长快,不等于增长健康。

有些项目增长快,是因为创始人强、关系深、试点预算多。
这不叫可规模化分发。

真正能往10B/100B走的项目,必须能回答:

谁拍板?
谁付款?
谁续费?
谁负责扩量?

所以要看的不是线索数或者意向客户数
而是:

POC到付费到扩张的漏斗。
回款对账。
采购周期。
预算归属。
客户回本周期。
无创始人参与签单占比。

一句话:
增长不是签得快,而是签下来之后,能稳定交付、稳定续费、稳定扩量。

 

03真正能决定10B/100B分水岭的,不是30项全卡,而是这5个硬门槛

30项评分卡都重要。
OXYZ资本在尽调时,最常用来一票否决的,是下面5项:

K04|预算归属与ROI对账闭环
K08|关键工作流稳定嵌入
K14|贡献毛利经压力测试为正
K19|评测集回放回归灰度闭环
K27|权限审计与客户准入

5项,分别对应五种生死线:

真钱。
真依赖。
真毛利。
真提质。
真准入。

少一项,都很难走到10B
缺两项,几乎不可能走到100B

 

04硬门槛一:K04 预算归属与ROI对账闭环

这条门槛,到底在拦什么

拦的是有单无预算、试点热闹但不可续费的假商业。

很多AI项目的问题不是卖不出去。
而是客户愿意试,却不愿意长期买。
原因往往很简单:它没有进入明确预算项,也没有形成可对账的ROI

必须提供的可复核证据

第一,合同首页或PO里,明确写出预算科目和付款节点。
第二,上线前后的基线对比表,比如人时、班次、外包成本、SLA罚金、处理时长。
第三,发票、回款、CRM阶段与usage能够对上。
第四,客户内部立项邮件或预算审批记录。
第五,客户能明确说出:这个系统停掉后,谁的KPI会坏掉。

OXYZ如何核验

第一,抽3单做合同、usage、回款、业务结果的闭环。
第二,同时访谈业务owner和采购/IT,避免只听一个人。
第三,用历史运营数据和排班表反推ROI
第四,看次年预算是否预留。

常见伪证据与红旗

战略合作写得很好看,但没有预算项。
一直强调效率提升,但拿不出基线。
收入主要来自实施费,不是订阅费。
客户证言全部来自创始人转述,没有原始访谈记录。

 

05硬门槛二:K08 关键工作流稳定嵌入

这条门槛,到底在拦什么

拦的是好玩但不常用的伪PMF

很多AI产品看起来很惊艳。
但惊艳不等于依赖。
依赖的标准只有一个:客户主流程里有没有你。

必须提供的可复核证据

第一,7天、30天、90天按角色划分的活跃和任务渗透率。
第二,核心动作日志,包括建议、采纳、回退、升级人工和最终完成。
第三,两类高频场景的评测回放。
第四,客户内部SOP和培训材料。
第五,从一个流程扩展到相邻流程的扩科记录。

OXYZ如何核验

第一,抽两家客户,看一周真实回放。
第二,直接问一线用户:明天停掉,你会不会切回旧流程?
第三,对比登录活跃和任务完成活跃,防止把打开过当成依赖过
第四,看90天后覆盖率是否上升。

常见伪证据与红旗

DAU很高,但采纳率很低。
只报生成次数,不报执行次数。
POC期间有人陪跑,上线后快速坍塌。
续约靠低价,不靠流程依赖。

 

06硬门槛三:K14 贡献毛利经压力测试为正

这条门槛,到底在拦什么

拦的是收入越多,亏得越快的假规模化。

AI应用最危险的假象,不是没增长。
而是增长很快,但越做越薄。

必须提供的可复核证据

第一,完整COGS拆解:推理、检索、存储、人工复核、支持、云资源。
第二,分客户、分场景的毛利表。
第三,高并发、长文本、复杂任务三档压力测试。
第四,模型切换前后的成本对比。
第五,实施人天和支持工时记录。

OXYZ如何核验

第一,抽一个客户一个月原始日志,重算成本。
第二,去掉未来会优化的假设,只算当前贡献毛利。
第三,压测峰值周,而不是平稳周。
第四,看不同客户间毛利分布,而不是只看平均数。

常见伪证据与红旗

只报token成本,不报人工和实施。
把实施费算进订阅毛利。
用平均值掩盖最差客户亏损。
未来模型会降价当成今天的经济性。

 

07硬门槛四:K19 评测集回放回归灰度闭环

这条门槛,到底在拦什么

拦的是今天能演,明天一升级就坏的伪工程能力。

模型会变。
数据会变。
客户流程会变。
真正的工程门槛,不是今天做对一次,而是每次变化后都还能稳定。

必须提供的可复核证据

第一,版本化评测集。
第二,线上失败样本回流队列和标签字段。
第三,发布前后回归结果、灰度比例、回滚记录。
第四,成功率、人工接管率、误操作率、P95延迟。
第五,模型供应商切换实验。

OXYZ如何核验

第一,抽一版历史发布,追溯一个bug从出现到修复的全过程。
第二,随机回放20条失败样本。
第三,对比宣传准确率和线上成功率的定义口径。
第四,看是否存在不敢升级模型的冻结期。

常见伪证据与红旗

只有离线benchmark,没有线上回放。
只报总准确率,不拆高风险子集。
demo数据永远干净。
失败样本靠人工删掉,没有进入系统学习。

 

08硬门槛五:K27 权限审计与客户准入

这条门槛,到底在拦什么

拦的是能做,但进不去大客户;进去了也扛不住事故的准入风险。

到了大客户,AI能力不是第一道门。
权限、安全、责任边界,才是第一道门。

必须提供的可复核证据

第一,RBACABAC权限矩阵。
第二,审计日志字段:用户、对象、动作、时间、前后状态、审批链。
第三,租户隔离与数据保留/删除机制。
第四,高风险动作白名单或双确认机制。
第五,安全问卷、DPA和责任边界条款。

OXYZ如何核验

第一,现场演示最低权限账号。
第二,抽一条高风险动作,追到责任人和审批记录。
第三,让客户IT或安全负责人复述是否过线。
第四,检查测试环境是否混用真实数据。

常见伪证据与红旗

“SOC2在做了,但权限模型还是空的。
只谈加密,不谈谁能做什么。
员工默认可以看生产数据。
高风险动作只靠prompt不要做

 

09用一个ToB案例,跑一遍评分卡

案例公司叫:**智能

它做的是跨境电商大客户售后工单自动化。
目标客户是年工单量100万以上、多语种客服中心的品牌和平台。
产品形态是RAG + 工作流受限Agent

它可以做四件事:

查订单。
读取政策。
生成回复。
提交退款建议。

当前经营数据大致是这样:

12家付费客户。
ARR600万到800万元。
月处理工单90万到120万。
自动完结率24%31%
建议采纳率58%68%
人工复核率36%46%
P95响应1012秒。
平均上线周期68周。

它的问题也很典型:

峰值周毛利接近零。
复杂退款场景误判偏高。
两家头部客户卡在权限审查。

OXYZ资本在尽调时,会这样打分:

K044

原因是:8家合同明确挂在客服运营预算上;3家客户能拿出AHT下降20%-27%、外包班次减少的前后对账。
但它还没完整跨过一轮续费周期,所以预算稳定性还没完全被验证。

K083

原因是:30天任务渗透率大约73%;但90天后仍主要集中在物流查询、退款进度这两类场景。
说明它有PMF苗头,但还不够深。

K142

原因是:正常周贡献毛利大约12%-18%;峰值周在高并发和人工QA叠加下掉到-3%+4%
这不是还有优化空间
这是规模化警报。

K194

原因是:它有1800条版本化评测集、失败分桶、灰度和回滚记录。
但多模型切换只在单一租户上验证,跨客户鲁棒性还不够。

K272

原因是:读取权限做得比较细,但动作权限比较粗;退款建议有日志,但真实执行缺审批链;安全支持仍可接触部分生产数据。

最终结论很清楚:

不进入下一轮,只进入补证轮。

原因也很清楚:

Top5K14K27都低于3分。
按规则,先别谈规模化。

它接下来必须补的,不是故事,而是证据:

第一,一个峰值月的工单级成本与ROI对账。
第二,动作级RBAC、全链路审计日志和红队测试结果。
第三,两家客户90天扩科队列,证明它不是只吃一个窄场景。

 

10投前尽调,两周就够:关键不是看多少材料,而是怎么抽查

很多投资人尽调AI项目,材料看了一大堆,但最后还是看不透。
原因不是材料不够。
而是没有验证顺序。

OXYZ资本在尽调时,两周通常就能把核心问题看清。

Day 1-2:先统一口径,看这家公司能不能被审计

要的材料是:合同、回款记录、指标字典、原始日志、系统架构图。

这两天不急着下判断。
先做一件事:统一所有指标定义,列出缺口清单。

结论只有一个:
这家公司到底是有数据,还是有口径

Day 3-4:先看客户,不先听创始人

样本最好是68个客户,覆盖付费客户、流失客户、输单客户。

访谈对象最好同时包括:预算owner、一线用户、IT、采购。

这一步不是为了听好话。
而是为了确认三件事:

是谁推动的。
是谁付钱的。
是谁最怕它停掉。

这两天主要解决K04K08的初判。

Day 5-6:做商业真实性对账

3个客户样本,把合同、CRM、回款、usage和业务结果全部拉出来对一遍。

目的不是验证有没有收入
而是验证这笔收入是不是真的建立在业务价值上

很多项目就是死在这里。
因为一对账就会发现:签约是真的,使用是弱的,回款是慢的,ROI是虚的。

Day 7-8:做评测和线上回放核验

要看评测集、成功样本、失败样本、发布记录、回滚记录。

重点不是看它对了多少。
而是看它错了以后,能不能进入工程闭环。

这一步解决的是K19

Day 9-10:做成本和毛利压力测试

COGS表、token和调用日志、人工工时、峰值周数据、支持记录。

这两天最重要的是重算。
不要用创始人给你的毛利数字。
要用原始日志自己重算。

这一步解决的是K14

Day 11-12:做权限与准入检查

要看RBAC、审计日志、DPA、安全问卷、保留和删除策略。

最有效的动作不是问。
而是演示。

让对方拿最低权限账号现场操作。
再随机追一条高风险动作,看看有没有审批链和责任人。

这一步解决的是K27

Day 13:看规模化条件

看销售漏斗、上线队列、实施runbook、团队分工和rep数据。

重点是三个问题:

签单是否脱离创始人。
交付是否模板化。
扩张是否可复制。

这一天看的是K09K11K18

Day 14:收口,出Go / No-Go

最后一天不做新发现,只做收口。

把评分卡、红旗列表、补证清单全部归拢。
明确哪些是Go,哪些是No-Go,哪些是条件推进。

真正高质量的尽调,不是看完很复杂
而是最后能非常简单地说出一句话:

这家公司现在能不能规模化。不能,是卡在哪。

 

11三类最常见的市场误判,应该在这里结束

误判一:模型更强壁垒

错。

能被API替代的,不叫壁垒,叫原料采购。

模型强,只能解释能力上限。
解释不了毛利。
解释不了交付。
解释不了安全准入。
更解释不了流程依赖。

正确口径是看:K19K14K08K27

最短核验动作有三条:

第一,同一流程换模,对比成功率和毛利。
第二,随机回放失败样本。
第三,检查回滚记录和供应商切换记录。

结论阈值也很简单:

硬门槛任一项低于3分,就别谈护城河。

误判二:Demo惊艳 = PMF

也错。

Demo是烟花,不是预算。

Demo天然会挑数据、挑场景、挑操作员。
PMF不是演得出来,而是客户90天后还离不开

正确口径是看:K04K08

最短核验动作有三条:

第一,抽3个付费客户做合同、usage、回款闭环。
第二,看90天任务渗透率,不看登录数。
第三,直接问一线用户:停掉后会不会切回旧流程。

结论阈值:

没有预算owner,或者90天关键场景渗透不升,Demo再惊艳也只是售前素材。

误判三:增长很快可规模化

还是错。

增长快,可能只是你把实施队伍和外包队伍排得更满。

签单快,可以靠创始人、低价、关系、手工服务。
但规模化不是签更多单。
规模化是边际成本不失控、毛利不塌、交付不炸、安全不过线也不掉。

正确口径是看:K11K18K14K19K27

最短核验动作有三条:

第一,抽最近3个项目,看上线周期和实施人天。
第二,用峰值周数据重算毛利。
第三,检查安全审查通过率和卡点。

结论阈值:

K14K18K19K27任一项低于3分,就别把增长叫规模化。

 

12CEO的两张清单,才是这篇文章最值钱的部分

想被OXYZ当作10B候选,至少准备这10样材料

第一,客户清单:包含ARR、续费日期、预算owner、采购链角色。
第二,3份合同或PO首页:能看到预算科目、数据权限、责任边界。
第三,回款、发票、CRM阶段对账表。
第四,上线前后业务基线与ROI表。
第五,7天、30天、90天的按角色cohort和任务渗透率。
第六,原始动作日志:建议、采纳、回退、升级人工、最终结果。
第七,COGS拆解,以及客户级、场景级毛利表。
第八,版本化评测集,以及最近两次回归和回滚记录。
第九,实施runbook、上线队列、实施人天和支持工时。
第十,RBAC矩阵、审计日志样本、DPA和安全问卷。

一句话:
你越想讲故事,越应该先把这些材料准备好。
因为真正决定你值不值得被高估的,不是故事,而是证据密度。

再给投资人:最容易被骗的6个点

第一种骗法:把生成量当价值。
该要的证据:采纳、执行、最终结果日志。
该做的抽查:随机抽30条,看生成过有没有变成完成过

第二种骗法:把试点收入当PMF
该要的证据:合同预算项、续费预算、业务基线。
该做的抽查:看次年预算是否预留,而不是只看今年有没有签单。

第三种骗法:把平均毛利当可规模化。
该要的证据:客户级毛利、峰值周成本、人工工时。
该做的抽查:重算最差10%客户,而不是看整体平均数。

第四种骗法:把benchmark当可靠性。
该要的证据:线上失败回放、错误分桶、SLA
该做的抽查:抽20条失败样本,看有没有进入修复闭环。

第五种骗法:把安全在做当能进大客户。
该要的证据:RBAC、审计链、DPA
该做的抽查:现场演示最低权限账号。

第六种骗法:把创始人销售当分发系统。
该要的证据:rep或渠道漏斗、POC转付费率、上线周期。
该做的抽查:看无创始人参与签单占比。

OXYZ资本在尽调时,真正防的不是公司没能力
而是公司有能力,但能力还没被组织化、系统化、财务化

 

13附录:可直接复制使用的《评分卡摘要卡》

下面这份不是表格版,而是更适合发布平台和内部转发的摘要卡

类别一:需求商业真实性

K04|预算归属与ROI对账闭环
必备证据:合同、回款、ROI基线表、客户预算或审批记录。
一句话核验:抽3单,做合同、usage、回款、业务结果闭环。

类别二:PMF稳定性

K08|关键工作流稳定嵌入
必备证据:7/30/90cohort、动作日志、客户SOP、扩科记录。
一句话核验:随机看一周真实回放,并问一线用户停掉后会不会回旧流程。

类别三:单位经济

K14|贡献毛利经压力测试为正
必备证据:COGS拆解、客户级毛利、峰值周测试、人工工时。
一句话核验:用原始日志重算最差一周,而不是看平均周。

类别四:工程化持续提质

K19|评测集回放回归灰度闭环
必备证据:版本化评测集、失败队列、回滚记录、发布记录。
一句话核验:随机抽20个失败样本,追到修复与复测。

类别五:安全合规准入

K27|权限审计与客户准入
必备证据:RBAC、审计日志、DPA、隔离和保留策略。
一句话核验:现场演示最低权限,并追一条高风险操作到审批链。

使用规则

每项05分。
0分,只有故事。
3分,有证据闭环。
5分,跨客户稳定成立。

只记两条规则就够:

Top5硬门槛任一项低于3分,先不谈规模化。
Top5总分低于18分,不进下一轮。

 

OXYZ资本认为,真正的10亿/100亿美金AI应用,不是回答更像人

而是上线之后,像系统。
像基础设施。
像一套能持续吃掉工作流、同时又不把自己吃崩的商业机器。

它必须同时满足五件事:

收入可对账。
PMF可复核。
毛利可承压。
能力可持续提质。
安全可进入大客户。

所以,模型更强,不等于壁垒。
Demo惊艳,不等于PMF
增长很快,也不等于可规模化。

真正该结束争论的,不是观点。
而是证据。

谁拿不出证据,谁就先别谈10B
谁不能把证据组织成系统,谁就更别谈100B