10亿/百亿美金AI应用的“硬门槛清单”:一张评分卡让争论结束
01真正会害死一家AI公司的,不是模型不够强,而是你把“强”看错了
站在CEO的位置,最危险的事,从来不是模型不够聪明。
最危险的,是你被自己的“聪明”骗了。
参数更强,于是你提前签了扛不起的SLA。
Demo更炫,于是你把掌声误当成预算。
增长更快,于是你用实施堆收入、用人工遮故障、用“明年模型会更便宜”掩盖今天的负毛利。
最后公司不是死于不聪明。
而是死于上线后失真、交付失控、权限事故和毛利塌陷。
OXYZ资本认为,10亿/100亿美金级AI应用,不是“更聪明”,而是“能规模化且不崩”。
所以我们在看项目时,不先听故事,先上《OXYZ_10B识别评分卡_v1(30项)》。
这张评分卡不是用来“帮助创始人讲得更好”的。
它是用来结束争论的。
它只问三件事:
第一,你的收入是不是真的。
第二,你的PMF是不是稳定的。
第三,你的增长能不能在不崩、不亏、不出事故的前提下继续放大。
30项评分卡分成七组:
K01-K04,看需求与预算。
K05-K08,看PMF。
K09-K12,看分发。
K13-K16,看单位经济。
K17-K21,看工程化。
K22-K24,看组织学习速度。
K25-K30,看安全合规。
每项0到5分。
0分,代表只有故事。
3分,代表有证据闭环。
5分,代表跨客户稳定成立。
OXYZ资本内部讨论时有一条很硬的规则:
Top5硬门槛里,任意一项低于3分,先别谈规模化。
Top5总分低于18分,不进下一轮。
02为什么10亿/100亿AI应用,和“还不错的AI工具”是两码事
很多人看AI项目,还在用“产品经理视角”看。
能不能跑出来,能不能演示,够不够惊艳。
但真正的10B/100B公司,必须用“系统公司视角”看。
因为“还不错的AI工具”,只需要在演示里赢。
而10B/100B AI应用,必须在五张桌子上同时赢:
业务桌、财务桌、采购桌、IT桌、安全桌。
第一,可靠性不是“答得像不像”,而是“错了会不会出事”
一个AI工具,大家最容易盯着准确率看。
但一个能规模化的AI应用,核心不是单次准确率,而是:
它在真实流量下会不会失稳。
它出错后会不会引发业务事故。
它能不能灰度、回滚、止损。
证据口径不能是“我们benchmark很好”。
证据口径必须是:
SLA报表。
P95延迟。
失败样本分桶。
人工接管率。
线上回放记录。
回滚日志。
OXYZ资本在尽调时,只要看到一家公司“只有离线准确率,没有线上错误闭环”,基本就知道它离规模化还远。
第二,交付不是“接上API”,而是“接进责任链”
很多AI项目把“集成成功”当成“交付成功”。
这是错的。
真正的交付,不是把模型接进系统。
而是把模型接进权限、流程、审批、责任链。
只要责任链没接住,项目就永远停留在“能演示、不能放权”。
所以必须看的,不是一个漂亮架构图。
而是:
上线队列表。
实施runbook。
系统集成清单。
角色权限矩阵。
平均上线周期。
实施人天和支持工时。
能不能复制,不看嘴。
看是不是已经从“项目制交付”走到“模板化交付”。
第三,毛利不是“模型便宜了多少”,而是“越做越大时还能不能赚钱”
这是AI应用里最容易被讲错的一件事。
很多团队谈成本,只谈token成本。
这几乎一定会高估生意。
因为真正吞噬利润的,往往不是模型本身。
而是人工复核、客户支持、实施、异常处理、长尾故障和客户定制。
所以单位经济要看的,不是一个平均毛利数字。
而是:
COGS拆解。
客户级毛利。
场景级毛利。
峰值周成本。
人工接管日志。
不同复杂度任务的压力测试。
OXYZ资本认为,AI应用如果一放量就靠加人顶住,那不是规模化,那只是披着软件外衣的服务公司。
第四,分发不是“线索很多”,而是“预算owner清晰,采购链能过,扩张路径能复制”
增长快,不等于增长健康。
有些项目增长快,是因为创始人强、关系深、试点预算多。
这不叫可规模化分发。
真正能往10B/100B走的项目,必须能回答:
谁拍板?
谁付款?
谁续费?
谁负责扩量?
所以要看的不是“线索数”或者“意向客户数”。
而是:
POC到付费到扩张的漏斗。
回款对账。
采购周期。
预算归属。
客户回本周期。
无创始人参与签单占比。
一句话:
增长不是签得快,而是签下来之后,能稳定交付、稳定续费、稳定扩量。
03真正能决定10B/100B分水岭的,不是30项全卡,而是这5个硬门槛
30项评分卡都重要。
但OXYZ资本在尽调时,最常用来一票否决的,是下面5项:
K04|预算归属与ROI对账闭环
K08|关键工作流稳定嵌入
K14|贡献毛利经压力测试为正
K19|评测集—回放—回归—灰度闭环
K27|权限审计与客户准入
这5项,分别对应五种生死线:
真钱。
真依赖。
真毛利。
真提质。
真准入。
少一项,都很难走到10B。
缺两项,几乎不可能走到100B。
04硬门槛一:K04 预算归属与ROI对账闭环
这条门槛,到底在拦什么
拦的是“有单无预算、试点热闹但不可续费”的假商业。
很多AI项目的问题不是卖不出去。
而是客户愿意试,却不愿意长期买。
原因往往很简单:它没有进入明确预算项,也没有形成可对账的ROI。
必须提供的可复核证据
第一,合同首页或PO里,明确写出预算科目和付款节点。
第二,上线前后的基线对比表,比如人时、班次、外包成本、SLA罚金、处理时长。
第三,发票、回款、CRM阶段与usage能够对上。
第四,客户内部立项邮件或预算审批记录。
第五,客户能明确说出:“这个系统停掉后,谁的KPI会坏掉。”
OXYZ如何核验
第一,抽3单做合同、usage、回款、业务结果的闭环。
第二,同时访谈业务owner和采购/IT,避免只听一个人。
第三,用历史运营数据和排班表反推ROI。
第四,看次年预算是否预留。
常见伪证据与红旗
“战略合作”写得很好看,但没有预算项。
一直强调效率提升,但拿不出基线。
收入主要来自实施费,不是订阅费。
客户证言全部来自创始人转述,没有原始访谈记录。
05硬门槛二:K08 关键工作流稳定嵌入
这条门槛,到底在拦什么
拦的是“好玩但不常用”的伪PMF。
很多AI产品看起来很惊艳。
但惊艳不等于依赖。
依赖的标准只有一个:客户主流程里有没有你。
必须提供的可复核证据
第一,7天、30天、90天按角色划分的活跃和任务渗透率。
第二,核心动作日志,包括建议、采纳、回退、升级人工和最终完成。
第三,两类高频场景的评测回放。
第四,客户内部SOP和培训材料。
第五,从一个流程扩展到相邻流程的扩科记录。
OXYZ如何核验
第一,抽两家客户,看一周真实回放。
第二,直接问一线用户:“明天停掉,你会不会切回旧流程?”
第三,对比登录活跃和任务完成活跃,防止把“打开过”当成“依赖过”。
第四,看90天后覆盖率是否上升。
常见伪证据与红旗
DAU很高,但采纳率很低。
只报生成次数,不报执行次数。
POC期间有人陪跑,上线后快速坍塌。
续约靠低价,不靠流程依赖。
06硬门槛三:K14 贡献毛利经压力测试为正
这条门槛,到底在拦什么
拦的是“收入越多,亏得越快”的假规模化。
AI应用最危险的假象,不是没增长。
而是增长很快,但越做越薄。
必须提供的可复核证据
第一,完整COGS拆解:推理、检索、存储、人工复核、支持、云资源。
第二,分客户、分场景的毛利表。
第三,高并发、长文本、复杂任务三档压力测试。
第四,模型切换前后的成本对比。
第五,实施人天和支持工时记录。
OXYZ如何核验
第一,抽一个客户一个月原始日志,重算成本。
第二,去掉“未来会优化”的假设,只算当前贡献毛利。
第三,压测峰值周,而不是平稳周。
第四,看不同客户间毛利分布,而不是只看平均数。
常见伪证据与红旗
只报token成本,不报人工和实施。
把实施费算进订阅毛利。
用平均值掩盖最差客户亏损。
把“未来模型会降价”当成今天的经济性。
07硬门槛四:K19 评测集—回放—回归—灰度闭环
这条门槛,到底在拦什么
拦的是“今天能演,明天一升级就坏”的伪工程能力。
模型会变。
数据会变。
客户流程会变。
真正的工程门槛,不是今天做对一次,而是每次变化后都还能稳定。
必须提供的可复核证据
第一,版本化评测集。
第二,线上失败样本回流队列和标签字段。
第三,发布前后回归结果、灰度比例、回滚记录。
第四,成功率、人工接管率、误操作率、P95延迟。
第五,模型供应商切换实验。
OXYZ如何核验
第一,抽一版历史发布,追溯一个bug从出现到修复的全过程。
第二,随机回放20条失败样本。
第三,对比宣传准确率和线上成功率的定义口径。
第四,看是否存在“不敢升级模型”的冻结期。
常见伪证据与红旗
只有离线benchmark,没有线上回放。
只报总准确率,不拆高风险子集。
demo数据永远干净。
失败样本靠人工删掉,没有进入系统学习。
08硬门槛五:K27 权限审计与客户准入
这条门槛,到底在拦什么
拦的是“能做,但进不去大客户;进去了也扛不住事故”的准入风险。
到了大客户,AI能力不是第一道门。
权限、安全、责任边界,才是第一道门。
必须提供的可复核证据
第一,RBAC或ABAC权限矩阵。
第二,审计日志字段:用户、对象、动作、时间、前后状态、审批链。
第三,租户隔离与数据保留/删除机制。
第四,高风险动作白名单或双确认机制。
第五,安全问卷、DPA和责任边界条款。
OXYZ如何核验
第一,现场演示最低权限账号。
第二,抽一条高风险动作,追到责任人和审批记录。
第三,让客户IT或安全负责人复述是否过线。
第四,检查测试环境是否混用真实数据。
常见伪证据与红旗
“SOC2在做了”,但权限模型还是空的。
只谈加密,不谈谁能做什么。
员工默认可以看生产数据。
高风险动作只靠prompt说“不要做”。
09用一个ToB案例,跑一遍评分卡
案例公司叫:**智能。
它做的是跨境电商大客户售后工单自动化。
目标客户是年工单量100万以上、多语种客服中心的品牌和平台。
产品形态是RAG + 工作流 + 受限Agent。
它可以做四件事:
查订单。
读取政策。
生成回复。
提交退款建议。
当前经营数据大致是这样:
12家付费客户。
ARR约600万到800万元。
月处理工单90万到120万。
自动完结率24%到31%。
建议采纳率58%到68%。
人工复核率36%到46%。
P95响应10到12秒。
平均上线周期6到8周。
它的问题也很典型:
峰值周毛利接近零。
复杂退款场景误判偏高。
两家头部客户卡在权限审查。
OXYZ资本在尽调时,会这样打分:
K04:4分
原因是:8家合同明确挂在客服运营预算上;3家客户能拿出AHT下降20%-27%、外包班次减少的前后对账。
但它还没完整跨过一轮续费周期,所以预算稳定性还没完全被验证。
K08:3分
原因是:30天任务渗透率大约73%;但90天后仍主要集中在物流查询、退款进度这两类场景。
说明它有PMF苗头,但还不够深。
K14:2分
原因是:正常周贡献毛利大约12%-18%;峰值周在高并发和人工QA叠加下掉到-3%到+4%。
这不是“还有优化空间”。
这是规模化警报。
K19:4分
原因是:它有1800条版本化评测集、失败分桶、灰度和回滚记录。
但多模型切换只在单一租户上验证,跨客户鲁棒性还不够。
K27:2分
原因是:读取权限做得比较细,但动作权限比较粗;退款建议有日志,但真实执行缺审批链;安全支持仍可接触部分生产数据。
最终结论很清楚:
不进入下一轮,只进入补证轮。
原因也很清楚:
Top5里K14和K27都低于3分。
按规则,先别谈规模化。
它接下来必须补的,不是故事,而是证据:
第一,一个峰值月的工单级成本与ROI对账。
第二,动作级RBAC、全链路审计日志和红队测试结果。
第三,两家客户90天扩科队列,证明它不是只吃一个窄场景。
10投前尽调,两周就够:关键不是看多少材料,而是怎么抽查
很多投资人尽调AI项目,材料看了一大堆,但最后还是看不透。
原因不是材料不够。
而是没有验证顺序。
OXYZ资本在尽调时,两周通常就能把核心问题看清。
Day 1-2:先统一口径,看这家公司能不能被审计
要的材料是:合同、回款记录、指标字典、原始日志、系统架构图。
这两天不急着下判断。
先做一件事:统一所有指标定义,列出缺口清单。
结论只有一个:
这家公司到底是“有数据”,还是“有口径”。
Day 3-4:先看客户,不先听创始人
样本最好是6到8个客户,覆盖付费客户、流失客户、输单客户。
访谈对象最好同时包括:预算owner、一线用户、IT、采购。
这一步不是为了听好话。
而是为了确认三件事:
是谁推动的。
是谁付钱的。
是谁最怕它停掉。
这两天主要解决K04和K08的初判。
Day 5-6:做商业真实性对账
拿3个客户样本,把合同、CRM、回款、usage和业务结果全部拉出来对一遍。
目的不是验证“有没有收入”。
而是验证“这笔收入是不是真的建立在业务价值上”。
很多项目就是死在这里。
因为一对账就会发现:签约是真的,使用是弱的,回款是慢的,ROI是虚的。
Day 7-8:做评测和线上回放核验
要看评测集、成功样本、失败样本、发布记录、回滚记录。
重点不是看它对了多少。
而是看它错了以后,能不能进入工程闭环。
这一步解决的是K19。
Day 9-10:做成本和毛利压力测试
要COGS表、token和调用日志、人工工时、峰值周数据、支持记录。
这两天最重要的是重算。
不要用创始人给你的毛利数字。
要用原始日志自己重算。
这一步解决的是K14。
Day 11-12:做权限与准入检查
要看RBAC、审计日志、DPA、安全问卷、保留和删除策略。
最有效的动作不是问。
而是演示。
让对方拿最低权限账号现场操作。
再随机追一条高风险动作,看看有没有审批链和责任人。
这一步解决的是K27。
Day 13:看规模化条件
看销售漏斗、上线队列、实施runbook、团队分工和rep数据。
重点是三个问题:
签单是否脱离创始人。
交付是否模板化。
扩张是否可复制。
这一天看的是K09、K11、K18。
Day 14:收口,出Go / No-Go
最后一天不做新发现,只做收口。
把评分卡、红旗列表、补证清单全部归拢。
明确哪些是Go,哪些是No-Go,哪些是条件推进。
真正高质量的尽调,不是“看完很复杂”。
而是最后能非常简单地说出一句话:
这家公司现在能不能规模化。不能,是卡在哪。
11三类最常见的市场误判,应该在这里结束
误判一:模型更强 = 壁垒
错。
能被API替代的,不叫壁垒,叫原料采购。
模型强,只能解释能力上限。
解释不了毛利。
解释不了交付。
解释不了安全准入。
更解释不了流程依赖。
正确口径是看:K19、K14、K08、K27。
最短核验动作有三条:
第一,同一流程换模,对比成功率和毛利。
第二,随机回放失败样本。
第三,检查回滚记录和供应商切换记录。
结论阈值也很简单:
硬门槛任一项低于3分,就别谈护城河。
误判二:Demo惊艳 = PMF
也错。
Demo是烟花,不是预算。
Demo天然会挑数据、挑场景、挑操作员。
PMF不是“演得出来”,而是“客户90天后还离不开”。
正确口径是看:K04、K08。
最短核验动作有三条:
第一,抽3个付费客户做合同、usage、回款闭环。
第二,看90天任务渗透率,不看登录数。
第三,直接问一线用户:停掉后会不会切回旧流程。
结论阈值:
没有预算owner,或者90天关键场景渗透不升,Demo再惊艳也只是售前素材。
误判三:增长很快 = 可规模化
还是错。
增长快,可能只是你把实施队伍和外包队伍排得更满。
签单快,可以靠创始人、低价、关系、手工服务。
但规模化不是签更多单。
规模化是边际成本不失控、毛利不塌、交付不炸、安全不过线也不掉。
正确口径是看:K11、K18、K14、K19、K27。
最短核验动作有三条:
第一,抽最近3个项目,看上线周期和实施人天。
第二,用峰值周数据重算毛利。
第三,检查安全审查通过率和卡点。
结论阈值:
K14、K18、K19、K27任一项低于3分,就别把增长叫规模化。
12给CEO的两张清单,才是这篇文章最值钱的部分
想被OXYZ当作10B候选,至少准备这10样材料
第一,客户清单:包含ARR、续费日期、预算owner、采购链角色。
第二,3份合同或PO首页:能看到预算科目、数据权限、责任边界。
第三,回款、发票、CRM阶段对账表。
第四,上线前后业务基线与ROI表。
第五,7天、30天、90天的按角色cohort和任务渗透率。
第六,原始动作日志:建议、采纳、回退、升级人工、最终结果。
第七,COGS拆解,以及客户级、场景级毛利表。
第八,版本化评测集,以及最近两次回归和回滚记录。
第九,实施runbook、上线队列、实施人天和支持工时。
第十,RBAC矩阵、审计日志样本、DPA和安全问卷。
一句话:
你越想讲故事,越应该先把这些材料准备好。
因为真正决定你值不值得被高估的,不是故事,而是证据密度。
再给投资人:最容易被骗的6个点
第一种骗法:把生成量当价值。
该要的证据:采纳、执行、最终结果日志。
该做的抽查:随机抽30条,看“生成过”有没有变成“完成过”。
第二种骗法:把试点收入当PMF。
该要的证据:合同预算项、续费预算、业务基线。
该做的抽查:看次年预算是否预留,而不是只看今年有没有签单。
第三种骗法:把平均毛利当可规模化。
该要的证据:客户级毛利、峰值周成本、人工工时。
该做的抽查:重算最差10%客户,而不是看整体平均数。
第四种骗法:把benchmark当可靠性。
该要的证据:线上失败回放、错误分桶、SLA。
该做的抽查:抽20条失败样本,看有没有进入修复闭环。
第五种骗法:把“安全在做”当能进大客户。
该要的证据:RBAC、审计链、DPA。
该做的抽查:现场演示最低权限账号。
第六种骗法:把创始人销售当分发系统。
该要的证据:rep或渠道漏斗、POC转付费率、上线周期。
该做的抽查:看无创始人参与签单占比。
OXYZ资本在尽调时,真正防的不是“公司没能力”。
而是“公司有能力,但能力还没被组织化、系统化、财务化”。
13附录:可直接复制使用的《评分卡摘要卡》
下面这份不是表格版,而是更适合发布平台和内部转发的“摘要卡”。
类别一:需求 / 商业真实性
K04|预算归属与ROI对账闭环
必备证据:合同、回款、ROI基线表、客户预算或审批记录。
一句话核验:抽3单,做合同、usage、回款、业务结果闭环。
类别二:PMF稳定性
K08|关键工作流稳定嵌入
必备证据:7/30/90天cohort、动作日志、客户SOP、扩科记录。
一句话核验:随机看一周真实回放,并问一线用户停掉后会不会回旧流程。
类别三:单位经济
K14|贡献毛利经压力测试为正
必备证据:COGS拆解、客户级毛利、峰值周测试、人工工时。
一句话核验:用原始日志重算最差一周,而不是看平均周。
类别四:工程化持续提质
K19|评测集—回放—回归—灰度闭环
必备证据:版本化评测集、失败队列、回滚记录、发布记录。
一句话核验:随机抽20个失败样本,追到修复与复测。
类别五:安全合规准入
K27|权限审计与客户准入
必备证据:RBAC、审计日志、DPA、隔离和保留策略。
一句话核验:现场演示最低权限,并追一条高风险操作到审批链。
使用规则
每项0到5分。
0分,只有故事。
3分,有证据闭环。
5分,跨客户稳定成立。
只记两条规则就够:
Top5硬门槛任一项低于3分,先不谈规模化。
Top5总分低于18分,不进下一轮。
OXYZ资本认为,真正的10亿/100亿美金AI应用,不是“回答更像人”。
而是上线之后,像系统。
像基础设施。
像一套能持续吃掉工作流、同时又不把自己吃崩的商业机器。
它必须同时满足五件事:
收入可对账。
PMF可复核。
毛利可承压。
能力可持续提质。
安全可进入大客户。
所以,模型更强,不等于壁垒。
Demo惊艳,不等于PMF。
增长很快,也不等于可规模化。
真正该结束争论的,不是观点。
而是证据。
谁拿不出证据,谁就先别谈10B。
谁不能把证据组织成系统,谁就更别谈100B。

