10亿/百亿美金AI应用的“硬门槛清单”：一张评分卡让争论结束

2026-03-13 17:30:33

01真正会害死一家AI公司的，不是模型不够强，而是你把“强”看错了

站在CEO的位置，最危险的事，从来不是模型不够聪明。

最危险的，是你被自己的“聪明”骗了。

参数更强，于是你提前签了扛不起的SLA。
Demo更炫，于是你把掌声误当成预算。
增长更快，于是你用实施堆收入、用人工遮故障、用“明年模型会更便宜”掩盖今天的负毛利。

最后公司不是死于不聪明。
而是死于上线后失真、交付失控、权限事故和毛利塌陷。

OXYZ资本认为，10亿/100亿美金级AI应用，不是“更聪明”，而是“能规模化且不崩”。

所以我们在看项目时，不先听故事，先上《OXYZ_10B识别评分卡_v1（30项）》。

这张评分卡不是用来“帮助创始人讲得更好”的。
它是用来结束争论的。

它只问三件事：

第一，你的收入是不是真的。
第二，你的PMF是不是稳定的。
第三，你的增长能不能在不崩、不亏、不出事故的前提下继续放大。

30项评分卡分成七组：

K01-K04，看需求与预算。
K05-K08，看PMF。
K09-K12，看分发。
K13-K16，看单位经济。
K17-K21，看工程化。
K22-K24，看组织学习速度。
K25-K30，看安全合规。

每项0到5分。
0分，代表只有故事。
3分，代表有证据闭环。
5分，代表跨客户稳定成立。

OXYZ资本内部讨论时有一条很硬的规则：

Top5硬门槛里，任意一项低于3分，先别谈规模化。
Top5总分低于18分，不进下一轮。

02为什么10亿/100亿AI应用，和“还不错的AI工具”是两码事

很多人看AI项目，还在用“产品经理视角”看。
能不能跑出来，能不能演示，够不够惊艳。

但真正的10B/100B公司，必须用“系统公司视角”看。

因为“还不错的AI工具”，只需要在演示里赢。
而10B/100B AI应用，必须在五张桌子上同时赢：

业务桌、财务桌、采购桌、IT桌、安全桌。

第一，可靠性不是“答得像不像”，而是“错了会不会出事”

一个AI工具，大家最容易盯着准确率看。
但一个能规模化的AI应用，核心不是单次准确率，而是：

它在真实流量下会不会失稳。
它出错后会不会引发业务事故。
它能不能灰度、回滚、止损。

证据口径不能是“我们benchmark很好”。
证据口径必须是：

SLA报表。
P95延迟。
失败样本分桶。
人工接管率。
线上回放记录。
回滚日志。

OXYZ资本在尽调时，只要看到一家公司“只有离线准确率，没有线上错误闭环”，基本就知道它离规模化还远。

第二，交付不是“接上API”，而是“接进责任链”

很多AI项目把“集成成功”当成“交付成功”。

这是错的。

真正的交付，不是把模型接进系统。
而是把模型接进权限、流程、审批、责任链。

只要责任链没接住，项目就永远停留在“能演示、不能放权”。

所以必须看的，不是一个漂亮架构图。
而是：

上线队列表。
实施runbook。
系统集成清单。
角色权限矩阵。
平均上线周期。
实施人天和支持工时。

能不能复制，不看嘴。
看是不是已经从“项目制交付”走到“模板化交付”。

第三，毛利不是“模型便宜了多少”，而是“越做越大时还能不能赚钱”

这是AI应用里最容易被讲错的一件事。

很多团队谈成本，只谈token成本。
这几乎一定会高估生意。

因为真正吞噬利润的，往往不是模型本身。
而是人工复核、客户支持、实施、异常处理、长尾故障和客户定制。

所以单位经济要看的，不是一个平均毛利数字。
而是：

COGS拆解。
客户级毛利。
场景级毛利。
峰值周成本。
人工接管日志。
不同复杂度任务的压力测试。

OXYZ资本认为，AI应用如果一放量就靠加人顶住，那不是规模化，那只是披着软件外衣的服务公司。

第四，分发不是“线索很多”，而是“预算owner清晰，采购链能过，扩张路径能复制”

增长快，不等于增长健康。

有些项目增长快，是因为创始人强、关系深、试点预算多。
这不叫可规模化分发。

真正能往10B/100B走的项目，必须能回答：

谁拍板？
谁付款？
谁续费？
谁负责扩量？

所以要看的不是“线索数”或者“意向客户数”。
而是：

POC到付费到扩张的漏斗。
回款对账。
采购周期。
预算归属。
客户回本周期。
无创始人参与签单占比。

一句话：
增长不是签得快，而是签下来之后，能稳定交付、稳定续费、稳定扩量。

03真正能决定10B/100B分水岭的，不是30项全卡，而是这5个硬门槛

30项评分卡都重要。
但OXYZ资本在尽调时，最常用来一票否决的，是下面5项：

K04｜预算归属与ROI对账闭环
K08｜关键工作流稳定嵌入
K14｜贡献毛利经压力测试为正
K19｜评测集—回放—回归—灰度闭环
K27｜权限审计与客户准入

这5项，分别对应五种生死线：

真钱。
真依赖。
真毛利。
真提质。
真准入。

少一项，都很难走到10B。
缺两项，几乎不可能走到100B。

04硬门槛一：K04 预算归属与ROI对账闭环

这条门槛，到底在拦什么

拦的是“有单无预算、试点热闹但不可续费”的假商业。

很多AI项目的问题不是卖不出去。
而是客户愿意试，却不愿意长期买。
原因往往很简单：它没有进入明确预算项，也没有形成可对账的ROI。

必须提供的可复核证据

第一，合同首页或PO里，明确写出预算科目和付款节点。
第二，上线前后的基线对比表，比如人时、班次、外包成本、SLA罚金、处理时长。
第三，发票、回款、CRM阶段与usage能够对上。
第四，客户内部立项邮件或预算审批记录。
第五，客户能明确说出：“这个系统停掉后，谁的KPI会坏掉。”

OXYZ如何核验

第一，抽3单做合同、usage、回款、业务结果的闭环。
第二，同时访谈业务owner和采购/IT，避免只听一个人。
第三，用历史运营数据和排班表反推ROI。
第四，看次年预算是否预留。

常见伪证据与红旗

“战略合作”写得很好看，但没有预算项。
一直强调效率提升，但拿不出基线。
收入主要来自实施费，不是订阅费。
客户证言全部来自创始人转述，没有原始访谈记录。

05硬门槛二：K08 关键工作流稳定嵌入

这条门槛，到底在拦什么

拦的是“好玩但不常用”的伪PMF。

很多AI产品看起来很惊艳。
但惊艳不等于依赖。
依赖的标准只有一个：客户主流程里有没有你。

必须提供的可复核证据

第一，7天、30天、90天按角色划分的活跃和任务渗透率。
第二，核心动作日志，包括建议、采纳、回退、升级人工和最终完成。
第三，两类高频场景的评测回放。
第四，客户内部SOP和培训材料。
第五，从一个流程扩展到相邻流程的扩科记录。

OXYZ如何核验

第一，抽两家客户，看一周真实回放。
第二，直接问一线用户：“明天停掉，你会不会切回旧流程？”
第三，对比登录活跃和任务完成活跃，防止把“打开过”当成“依赖过”。
第四，看90天后覆盖率是否上升。

常见伪证据与红旗

DAU很高，但采纳率很低。
只报生成次数，不报执行次数。
POC期间有人陪跑，上线后快速坍塌。
续约靠低价，不靠流程依赖。

06硬门槛三：K14 贡献毛利经压力测试为正

这条门槛，到底在拦什么

拦的是“收入越多，亏得越快”的假规模化。

AI应用最危险的假象，不是没增长。
而是增长很快，但越做越薄。

必须提供的可复核证据

第一，完整COGS拆解：推理、检索、存储、人工复核、支持、云资源。
第二，分客户、分场景的毛利表。
第三，高并发、长文本、复杂任务三档压力测试。
第四，模型切换前后的成本对比。
第五，实施人天和支持工时记录。

OXYZ如何核验

第一，抽一个客户一个月原始日志，重算成本。
第二，去掉“未来会优化”的假设，只算当前贡献毛利。
第三，压测峰值周，而不是平稳周。
第四，看不同客户间毛利分布，而不是只看平均数。

常见伪证据与红旗

只报token成本，不报人工和实施。
把实施费算进订阅毛利。
用平均值掩盖最差客户亏损。
把“未来模型会降价”当成今天的经济性。

07硬门槛四：K19 评测集—回放—回归—灰度闭环

这条门槛，到底在拦什么

拦的是“今天能演，明天一升级就坏”的伪工程能力。

模型会变。
数据会变。
客户流程会变。
真正的工程门槛，不是今天做对一次，而是每次变化后都还能稳定。

必须提供的可复核证据

第一，版本化评测集。
第二，线上失败样本回流队列和标签字段。
第三，发布前后回归结果、灰度比例、回滚记录。
第四，成功率、人工接管率、误操作率、P95延迟。
第五，模型供应商切换实验。

OXYZ如何核验

第一，抽一版历史发布，追溯一个bug从出现到修复的全过程。
第二，随机回放20条失败样本。
第三，对比宣传准确率和线上成功率的定义口径。
第四，看是否存在“不敢升级模型”的冻结期。

常见伪证据与红旗

只有离线benchmark，没有线上回放。
只报总准确率，不拆高风险子集。
demo数据永远干净。
失败样本靠人工删掉，没有进入系统学习。

08硬门槛五：K27 权限审计与客户准入

这条门槛，到底在拦什么

拦的是“能做，但进不去大客户；进去了也扛不住事故”的准入风险。

到了大客户，AI能力不是第一道门。
权限、安全、责任边界，才是第一道门。

必须提供的可复核证据

第一，RBAC或ABAC权限矩阵。
第二，审计日志字段：用户、对象、动作、时间、前后状态、审批链。
第三，租户隔离与数据保留/删除机制。
第四，高风险动作白名单或双确认机制。
第五，安全问卷、DPA和责任边界条款。

OXYZ如何核验

第一，现场演示最低权限账号。
第二，抽一条高风险动作，追到责任人和审批记录。
第三，让客户IT或安全负责人复述是否过线。
第四，检查测试环境是否混用真实数据。

常见伪证据与红旗

“SOC2在做了”，但权限模型还是空的。
只谈加密，不谈谁能做什么。
员工默认可以看生产数据。
高风险动作只靠prompt说“不要做”。

09用一个ToB案例，跑一遍评分卡

案例公司叫：**智能。

它做的是跨境电商大客户售后工单自动化。
目标客户是年工单量100万以上、多语种客服中心的品牌和平台。
产品形态是RAG + 工作流 + 受限Agent。

它可以做四件事：

查订单。
读取政策。
生成回复。
提交退款建议。

当前经营数据大致是这样：

12家付费客户。
ARR约600万到800万元。
月处理工单90万到120万。
自动完结率24%到31%。
建议采纳率58%到68%。
人工复核率36%到46%。
P95响应10到12秒。
平均上线周期6到8周。

它的问题也很典型：

峰值周毛利接近零。
复杂退款场景误判偏高。
两家头部客户卡在权限审查。

OXYZ资本在尽调时，会这样打分：

K04：4分

原因是：8家合同明确挂在客服运营预算上；3家客户能拿出AHT下降20%-27%、外包班次减少的前后对账。
但它还没完整跨过一轮续费周期，所以预算稳定性还没完全被验证。

K08：3分

原因是：30天任务渗透率大约73%；但90天后仍主要集中在物流查询、退款进度这两类场景。
说明它有PMF苗头，但还不够深。

K14：2分

原因是：正常周贡献毛利大约12%-18%；峰值周在高并发和人工QA叠加下掉到-3%到+4%。
这不是“还有优化空间”。
这是规模化警报。

K19：4分

原因是：它有1800条版本化评测集、失败分桶、灰度和回滚记录。
但多模型切换只在单一租户上验证，跨客户鲁棒性还不够。

K27：2分

原因是：读取权限做得比较细，但动作权限比较粗；退款建议有日志，但真实执行缺审批链；安全支持仍可接触部分生产数据。

最终结论很清楚：

不进入下一轮，只进入补证轮。

原因也很清楚：

Top5里K14和K27都低于3分。
按规则，先别谈规模化。

它接下来必须补的，不是故事，而是证据：

第一，一个峰值月的工单级成本与ROI对账。
第二，动作级RBAC、全链路审计日志和红队测试结果。
第三，两家客户90天扩科队列，证明它不是只吃一个窄场景。

10投前尽调，两周就够：关键不是看多少材料，而是怎么抽查

很多投资人尽调AI项目，材料看了一大堆，但最后还是看不透。
原因不是材料不够。
而是没有验证顺序。

OXYZ资本在尽调时，两周通常就能把核心问题看清。

Day 1-2：先统一口径，看这家公司能不能被审计

要的材料是：合同、回款记录、指标字典、原始日志、系统架构图。

这两天不急着下判断。
先做一件事：统一所有指标定义，列出缺口清单。

结论只有一个：
这家公司到底是“有数据”，还是“有口径”。

Day 3-4：先看客户，不先听创始人

样本最好是6到8个客户，覆盖付费客户、流失客户、输单客户。

访谈对象最好同时包括：预算owner、一线用户、IT、采购。

这一步不是为了听好话。
而是为了确认三件事：

是谁推动的。
是谁付钱的。
是谁最怕它停掉。

这两天主要解决K04和K08的初判。

Day 5-6：做商业真实性对账

拿3个客户样本，把合同、CRM、回款、usage和业务结果全部拉出来对一遍。

目的不是验证“有没有收入”。
而是验证“这笔收入是不是真的建立在业务价值上”。

很多项目就是死在这里。
因为一对账就会发现：签约是真的，使用是弱的，回款是慢的，ROI是虚的。

Day 7-8：做评测和线上回放核验

要看评测集、成功样本、失败样本、发布记录、回滚记录。

重点不是看它对了多少。
而是看它错了以后，能不能进入工程闭环。

这一步解决的是K19。

Day 9-10：做成本和毛利压力测试

要COGS表、token和调用日志、人工工时、峰值周数据、支持记录。

这两天最重要的是重算。
不要用创始人给你的毛利数字。
要用原始日志自己重算。

这一步解决的是K14。

Day 11-12：做权限与准入检查

要看RBAC、审计日志、DPA、安全问卷、保留和删除策略。

最有效的动作不是问。
而是演示。

让对方拿最低权限账号现场操作。
再随机追一条高风险动作，看看有没有审批链和责任人。

这一步解决的是K27。

Day 13：看规模化条件

看销售漏斗、上线队列、实施runbook、团队分工和rep数据。

重点是三个问题：

签单是否脱离创始人。
交付是否模板化。
扩张是否可复制。

这一天看的是K09、K11、K18。

Day 14：收口，出Go / No-Go

最后一天不做新发现，只做收口。

把评分卡、红旗列表、补证清单全部归拢。
明确哪些是Go，哪些是No-Go，哪些是条件推进。

真正高质量的尽调，不是“看完很复杂”。
而是最后能非常简单地说出一句话：

这家公司现在能不能规模化。不能，是卡在哪。

11三类最常见的市场误判，应该在这里结束

误判一：模型更强 = 壁垒

错。

能被API替代的，不叫壁垒，叫原料采购。

模型强，只能解释能力上限。
解释不了毛利。
解释不了交付。
解释不了安全准入。
更解释不了流程依赖。

正确口径是看：K19、K14、K08、K27。

最短核验动作有三条：

第一，同一流程换模，对比成功率和毛利。
第二，随机回放失败样本。
第三，检查回滚记录和供应商切换记录。

结论阈值也很简单：

硬门槛任一项低于3分，就别谈护城河。

误判二：Demo惊艳 = PMF

也错。

Demo是烟花，不是预算。

Demo天然会挑数据、挑场景、挑操作员。
PMF不是“演得出来”，而是“客户90天后还离不开”。

正确口径是看：K04、K08。

最短核验动作有三条：

第一，抽3个付费客户做合同、usage、回款闭环。
第二，看90天任务渗透率，不看登录数。
第三，直接问一线用户：停掉后会不会切回旧流程。

结论阈值：

没有预算owner，或者90天关键场景渗透不升，Demo再惊艳也只是售前素材。

误判三：增长很快 = 可规模化

还是错。

增长快，可能只是你把实施队伍和外包队伍排得更满。

签单快，可以靠创始人、低价、关系、手工服务。
但规模化不是签更多单。
规模化是边际成本不失控、毛利不塌、交付不炸、安全不过线也不掉。

正确口径是看：K11、K18、K14、K19、K27。

最短核验动作有三条：

第一，抽最近3个项目，看上线周期和实施人天。
第二，用峰值周数据重算毛利。
第三，检查安全审查通过率和卡点。

结论阈值：

K14、K18、K19、K27任一项低于3分，就别把增长叫规模化。

12给CEO的两张清单，才是这篇文章最值钱的部分

想被OXYZ当作10B候选，至少准备这10样材料

第一，客户清单：包含ARR、续费日期、预算owner、采购链角色。
第二，3份合同或PO首页：能看到预算科目、数据权限、责任边界。
第三，回款、发票、CRM阶段对账表。
第四，上线前后业务基线与ROI表。
第五，7天、30天、90天的按角色cohort和任务渗透率。
第六，原始动作日志：建议、采纳、回退、升级人工、最终结果。
第七，COGS拆解，以及客户级、场景级毛利表。
第八，版本化评测集，以及最近两次回归和回滚记录。
第九，实施runbook、上线队列、实施人天和支持工时。
第十，RBAC矩阵、审计日志样本、DPA和安全问卷。

一句话：
你越想讲故事，越应该先把这些材料准备好。
因为真正决定你值不值得被高估的，不是故事，而是证据密度。

再给投资人：最容易被骗的6个点

第一种骗法：把生成量当价值。
该要的证据：采纳、执行、最终结果日志。
该做的抽查：随机抽30条，看“生成过”有没有变成“完成过”。

第二种骗法：把试点收入当PMF。
该要的证据：合同预算项、续费预算、业务基线。
该做的抽查：看次年预算是否预留，而不是只看今年有没有签单。

第三种骗法：把平均毛利当可规模化。
该要的证据：客户级毛利、峰值周成本、人工工时。
该做的抽查：重算最差10%客户，而不是看整体平均数。

第四种骗法：把benchmark当可靠性。
该要的证据：线上失败回放、错误分桶、SLA。
该做的抽查：抽20条失败样本，看有没有进入修复闭环。

第五种骗法：把“安全在做”当能进大客户。
该要的证据：RBAC、审计链、DPA。
该做的抽查：现场演示最低权限账号。

第六种骗法：把创始人销售当分发系统。
该要的证据：rep或渠道漏斗、POC转付费率、上线周期。
该做的抽查：看无创始人参与签单占比。

OXYZ资本在尽调时，真正防的不是“公司没能力”。
而是“公司有能力，但能力还没被组织化、系统化、财务化”。

13附录：可直接复制使用的《评分卡摘要卡》

下面这份不是表格版，而是更适合发布平台和内部转发的“摘要卡”。

类别一：需求 / 商业真实性

K04｜预算归属与ROI对账闭环
必备证据：合同、回款、ROI基线表、客户预算或审批记录。
一句话核验：抽3单，做合同、usage、回款、业务结果闭环。

类别二：PMF稳定性

K08｜关键工作流稳定嵌入
必备证据：7/30/90天cohort、动作日志、客户SOP、扩科记录。
一句话核验：随机看一周真实回放，并问一线用户停掉后会不会回旧流程。

类别三：单位经济

K14｜贡献毛利经压力测试为正
必备证据：COGS拆解、客户级毛利、峰值周测试、人工工时。
一句话核验：用原始日志重算最差一周，而不是看平均周。

类别四：工程化持续提质

K19｜评测集—回放—回归—灰度闭环
必备证据：版本化评测集、失败队列、回滚记录、发布记录。
一句话核验：随机抽20个失败样本，追到修复与复测。

类别五：安全合规准入

K27｜权限审计与客户准入
必备证据：RBAC、审计日志、DPA、隔离和保留策略。
一句话核验：现场演示最低权限，并追一条高风险操作到审批链。

使用规则

每项0到5分。
0分，只有故事。
3分，有证据闭环。
5分，跨客户稳定成立。

只记两条规则就够：

Top5硬门槛任一项低于3分，先不谈规模化。
Top5总分低于18分，不进下一轮。

OXYZ资本认为，真正的10亿/100亿美金AI应用，不是“回答更像人”。

而是上线之后，像系统。
像基础设施。
像一套能持续吃掉工作流、同时又不把自己吃崩的商业机器。

它必须同时满足五件事：

收入可对账。
PMF可复核。
毛利可承压。
能力可持续提质。
安全可进入大客户。

所以，模型更强，不等于壁垒。
Demo惊艳，不等于PMF。
增长很快，也不等于可规模化。

真正该结束争论的，不是观点。
而是证据。

谁拿不出证据，谁就先别谈10B。
谁不能把证据组织成系统，谁就更别谈100B。