把尽调做成实验:两周内验证一家AI应用能否规模化

一、为什么很多AI应用不是死在能力不够,而是死在无法规模化

AI应用世界里,最会骗人的,往往不是PPT,而是那几个看起来已经跑通的早期案例。

因为在前十个客户、前一百个大单、前几个月的增长里,太多问题都能被掩盖。创始人亲自上阵,Prompt高手在后台兜底,定制工程师把断点补平,客户因为先试试AI”给出一笔创新预算,团队靠高强度服务把一个结果硬做出来。于是外部看到的是:产品聪明、客户买单、收入在涨、留存也还行。

 

但真正残酷的分水岭,不在这里。

 

真正拉开差距的,是这家公司能不能把一次成功,压缩成一套可以重复出售、重复交付、重复续费、重复扩单的机制。能不能在客户数变多、使用场景变杂、组织层级变深之后,依然把价值稳定交付出去。能不能让收入增长快于复杂度增长,而不是把忙碌放大、把隐性成本放大、把组织摩擦放大。

 

很多AI应用不是死在能力不够,而是死在规模化前夜。死在交付越多越乱,死在客户越多越亏,死在demo惊艳、上线回滚,死在CEO亲自盯才成立,死在每一单都像第一次做项目。

 

所以,早期AI应用的尽调对象,必须换。

 

不是先问它今天看起来聪不聪明。不是先问它的模型栈够不够新。甚至也不是先问它现在的营收曲线好不好看。

而是要问:它能不能在两周内暴露出未来规模化最核心的瓶颈与穿透信号。

 

尽调不是为了确认一家项目优秀
尽调首先是为了尽快找到:它为什么可能无法规模化。

这是更难的问题。也是更有价值的问题。

 

二、重定义问题:AI应用尽调,真正该尽调的不是它好不好,而是它能否被复制、扩张、变厚利润

AI应用来说,规模化不是一个抽象的大词。它不是用户数变多,不是营收变高,也不是媒体声量变大。规模化在商业上至少意味着五件事同时成立:

 

第一,价值交付可复制。
同样的价值,不需要每次都靠创始人亲自解释、亲自配置、亲自救火,才能交到客户手里。

第二,需求可重复出现。
客户不是因为好奇心、试点预算、老板KPI才买,而是因为一个真实、尖锐、反复出现的问题在持续支付。

第三,分发可被放大。
不是今天卖出去,而是下个月还能再卖一遍;不是只靠创始人的资源、内容红利、渠道套利,而是存在可复用的获客与成交路径。

第四,成本不会随着增长一起失控。
模型推理、人工审核、售后支持、客户成功、销售推进、集成部署,这些成本结构要有转正可能。今天不赚钱没关系,未来不可能赚钱才是问题。

第五,组织能承接。
客户从5个变成50个,产品、交付、销售、客户成功、工程、合规之间不会立刻互相拖死。组织知道自己在打什么仗,也知道问题最先出在哪里。

 

OXYZ资本内部讨论时,经常会把规模化翻译成一个更残酷的问题:当客户数从10变成100、收入从100万变成1000万时,公司的复杂度是同步涨10倍,还是只涨2倍、3倍?如果复杂度、人工、例外处理、售后摩擦和创始人依赖跟收入一起线性甚至超线性增长,那不叫规模化,那只是把辛苦放大。

 

这也是为什么一个漂亮demo,不等于一家能长大的公司。

demo证明的是可能性
规模化要求的是稳定性、复制性、经济性、组织性

会做一个惊艳的功能,不等于能把价值标准化交付给更多客户。会解决一个样板客户的问题,不等于能解决一批中位客户的问题。会签下几个定制大单,不等于已经拥有产品化PMF

OXYZ资本认为,早期AI应用真正要尽调的,不是它好不好,而是它能不能把局部奇迹变成组织能力

 

三、为什么传统尽调方法在AI应用上经常失灵

传统尽调并非无用。它擅长看人、看赛道、看市场叙事、看财务轮廓、看客户证明。但AI应用有一个特殊之处:它处在能力快速进化、产品边界尚未稳定、人工兜底高度常见、客户认知也在迁移的阶段。很多原本在其他软件行业里相对可靠的信号,在AI应用这里都容易形成假阳性。

 

1)把单点惊艳体验误判为稳定可复制价值

一场演示能压缩掉太多现实摩擦。它只展示最顺的路径、最干净的数据、最可控的任务、最懂产品的人在操作。可AI应用真正的难点,往往不在最佳路径,而在长尾情况、脏数据、边缘场景、异常流程、多人协同和业务责任边界。

平均效果好,不代表业务可用。
一次惊艳,不代表一百次稳定。
在很多工作流里,最有价值的不是最好时有多聪明,而是最差时会不会出事

因此,demo越惊艳,越要看失败回放。因为AI应用的护城河,从来不在最好的那次输出,而在最差的那批case如何被控制。

 

2)把创始人亲自盯出来的结果误判为组织可复制结果

早期项目最常见的误判,就是把创始人能力当成公司能力

创始人可以亲自卖单,亲自做方案,亲自打磨prompt,亲自对接客户,亲自安抚风险,亲自推动续费。于是前几个客户看起来满意,项目也确实成立。但问题在于,这种结果到底是产品自己交付出来的,还是创始人把所有裂缝都手工补上了?

OXYZ资本在看项目时,会非常警惕这种英雄主义有效、组织化无效的情况。因为创始人亲自上场,可以证明一件事值得做;但不能证明这件事能被放大。

一个项目最脆弱的时候,往往不是没人买,而是只有创始人出面时才有人买,只有创始人盯着时结果才成立。

 

3)把几个大客户定制单误判为产品化PMF”

AI应用早期最容易拿到的收入,常常不是标准产品收入,而是项目收入、实施收入、定制收入、创新预算收入。这些收入不一定是假收入,但它们和产品化PMF之间,隔着很远。

定制单能证明有客户愿意为问题付钱。
但它不能自动证明,这个问题已经被你产品化了。

尤其是在企业场景里,几个大客户很可能买的是你们团队的综合解决能力,而不是一个可标准化交付的产品。如果每个客户都需要重做流程、重做集成、重做知识库、重做评估标准,那公司拿到的可能是现金流,不是可复制性。

对早期AI应用而言,最危险的不是没有收入,而是收入结构掩盖了不可复制性。

 

4)把模型能力提升误判为商业壁垒

模型能力进步当然重要。更强的模型会打开更大的产品空间,也会放大一部分赢家。但模型能力提升,不会自动拯救错误的商业结构。

如果需求不尖锐,模型再强也只是更好的玩具。
如果交付无法标准化,模型再强也只是更昂贵的项目制。
如果分发路径不存在,模型再强也只是更难卖的技术资产。
如果单位经济跑不通,模型再强也只是更快地放大亏损。

模型能力进步会放大赢家,但不会自动拯救错误的产品分发经济结构。把模型变强直接等同于壁垒变深,是AI应用尽调中最常见的幻觉之一。

 

5)把高留存表象误判为真实刚需

留存是好信号,但留存本身并不神圣。

有些留存来自合同周期还没结束。
有些留存来自迁移成本太高。
有些留存来自客户还没来得及换。
有些留存来自服务被打包进了更大的合同。
还有些留存,来自公司内部只有一个强推动者在硬撑。

真正的PMF信号,不是用户说喜欢,也不只是账号没注销,而是组织愿意持续把预算和流程迁过去。谁在用、谁付钱、谁续费、谁推动扩单,这四个问题如果对不上,高留存也可能只是表象。

 

6)把收入增长误判为健康规模化

收入增长很重要,但收入质量更重要。

如果增长主要来自低价试点、一次性实施费、创始人资源单、重度人工交付、过度承诺换签约,那么表面上是增长,底层上却可能是在提前透支组织能力和未来毛利。

OXYZ资本内部判断时,很少因为一条营收曲线本身就兴奋。我们更想知道的是:这条增长曲线下面,订阅收入和服务收入怎么拆?最好客户和中位客户差多少?新签客户和续费客户的贡献毛利差多少?增长是被产品拉动,还是被团队硬推出来的?

很多AI应用真正危险的时刻,不是没收入,而是收入长得太像好消息,以至于团队和投资人都忽略了结构性问题。

 

四、OXYZ资本如何看:把尽调做成两周验证实验

OXYZ资本认为,早期AI应用的高质量尽调,不是问更多问题,而是设计更高信息密度的实验。

这不是措辞变化,而是工作方式变化。

传统的信息收集型尽调,默认逻辑是:材料越多越好、信息越全越好、故事越完整越好。最后拿到一大堆deck、财务表、客户名单、产品演示、市场数据,拼成一个看起来有道理的判断。

 

实验式尽调不是这样。它的起点不是再收集一点,而是先定义:这家公司如果未来规模化失败,最可能死在哪三个变量上?然后围绕这三个变量,设计低成本、高信息增量的核验动作。

这里的关键不是勤奋,而是信息密度。

一个客户logo墙,信息密度很低。
一个客户从签约、上线、usage、工单、回款到续费的完整轨迹,信息密度极高。

一个整体留存数字,信息密度很低。
创始人亲自参与和不参与条件下,不同cohort的留存差异,信息密度极高。

一条“ARR三倍增长的曲线,信息密度很低。


订阅收入、实施收入、最好客户、中位客户、流失客户的贡献毛利拆开看,信息密度极高。

所以,实验式尽调的原则,不是把信息越堆越多,而是把会改变判断的证据优先拿到手。

 

原则一:优先验证最影响规模化的变量,而不是最容易收集的数据

最容易拿到的,往往不是最重要的。
最重要的,往往恰恰藏在失败案例、客户流失、人工兜底、部署返工和中位客户里。

OXYZ资本在看项目时,会先把故事强行翻译成变量:需求是否足够尖锐?产品价值是否稳定?分发路径是否可复制?单位经济有没有转正可能?组织是否能承接?这几个变量里,哪一个一旦不成立,就足以推翻大部分乐观叙事?先验那个。

 

原则二:优先找会推翻判断的证据,而不是支持故事的材料

尽调不是为了把项目讲得更顺。
尽调是为了更快找到故事不成立的地方。

这听起来更像挑刺,但其实更接近真诚。因为真正高质量的判断,不来自支持性证据堆得够多,而来自反证找过之后,结论依然站得住。

 

原则三:优先做交叉核验,而不是接受单线叙述

创始人会从战略视角描述问题,销售会从成交视角描述问题,交付会从现场摩擦描述问题,客户成功会从续费和抱怨描述问题,客户本人会从值不值得继续用描述问题。

如果这些叙述能对上,说明公司在认知上是清醒的。
如果对不上,问题往往不只在业务,更在组织。

因此,OXYZ资本内部讨论时很看重三方一致性:创始人怎么说,一线团队怎么说,客户怎么说。如果三者偏差很大,那不是小问题,而是信息结构本身有裂缝。

 

原则四:优先观察真实使用与真实付费,而不是只听口头反馈

觉得不错是最低信息量反馈。
愿意持续迁移预算和流程才是高信息量反馈。

所以实验式尽调会自然落到具体动作上:抽样看合同、CRM、回款、usage、工单、交付记录是否能对上;看客户到底是谁在用、谁付钱、谁续费、谁推动扩单;访谈已付费客户、流失客户、试点后未转化客户;看上线后的留存、复购、扩席位、扩部门路径。

真实行为,比口头满意更可信。

 

原则五:优先验证复制性,而不是验证单次成功

一个最容易被忽略的事实是:最好客户,未必最有信息量。

真正值得看的,往往不是头部样板客户为什么成功,而是第二梯队客户为什么没有复制成功。因为最好客户常常同时具备最强痛点、最优数据、最强推动者、最高配合度和最多资源。它可以证明上限,却不能证明中位数。

一个项目最该看的,不是最成功的客户,而是第二梯队客户为什么没有复制成功。

这是实验式尽调和传统尽调最本质的区别之一。

 

两周能判断什么,不能判断什么

把尽调做成实验,不意味着两周内就能判断一家AI应用最终能不能成为百亿美金公司。两周做不到终局判断。

两周能做到的,是高质量初判:
哪些关键变量已经被验证,哪些还没有;最大的规模化瓶颈在哪里;当前的正面信号是真穿透,还是被叙事和人工掩盖出来的假象;这家公司值不值得进入更深一层的资本和时间配置。

两周做不到的,是替代长期市场教育、宏观变化、监管演进、技术范式迁移。对于强监管、长部署周期、长采购周期的品类,两周更适合验证的是痛点尖锐度、上线摩擦、关键角色对齐和早期复制条件,而不是仓促要求长期留存答案。

但这不构成把尽调做虚的理由。
恰恰相反。越是周期长、变量多,就越需要在短时间里优先找到最关键的硬问题。

同时也要承认,实验式尽调不只是减少假阳性,也能减少假阴性。很多优秀AI应用早期看上去交付重、毛利差、组织忙,但如果你看到人工介入占比持续下降、部署时间持续缩短、中位客户开始续费扩单,那它很可能不是做不大,而是在经历从项目制向产品化穿越的必要阶段。

交付重不一定差。
重到无法被压缩和标准化,才危险。

 

五、两周内到底验证什么:把规模化拆成几个必须过关的硬问题

1. 需求是否真且足够尖锐:客户是在买止痛药,还是在试维生素

为什么关键。
需求不尖锐,后面的产品、分发、组织再努力,也只是在放大一个可有可无的东西。AI应用尤其容易掉进偏好点陷阱:用户觉得有趣、好用、效率有提升,但没有痛到愿意持续付钱、推动流程迁移、为扩单背书。

真正值得下注的需求,通常至少占一个维度:高频、高价值、高损失。不是一定三者都具备,但至少有一项足够强。比如它可能不是高频,但一旦出错损失极高;可能不是高损失,但频率极高且成本可见。

 

常见假象。
最常见的假象是试点热情被误判为真实需求。尤其在AI预算宽松、管理层有先上AI”压力的时候,很多客户会愿意给一个小预算、一个小场景、一个创新名额。这能证明好奇心,不能自动证明刚需。另一种假象是用户喜欢,但预算不迁移;团队说好用,但采购迟迟不动。

 

投资人和创始人最容易忽略什么。
投资人常忽略替代方案的顽固性。很多旧流程很笨,但已经嵌在组织里,替代成本不在软件费,而在流程改造、责任迁移和人员适应。创始人常忽略的是,自己看到的是问题确实存在,客户感受到的却是旧办法虽然笨,但还能忍

 

两周内最值得做的验证动作。
抽样访谈已付费客户、流失客户、试点后未转化客户,直接问四个问题:过去用什么替代?不用你们会损失什么?谁最痛?谁拍板付钱?再把这些回答和合同、采购流程、上线速度、实际usage对起来。尤其要看:谁在用、谁付钱、谁续费、谁推动扩单,这四个角色是同一个人、同一条线,还是分裂的。

 

看哪些证据。
高信息量证据包括:合同里是否写了明确交付目标,采购是否挂在真实业务预算下,上线后是否快速进入关键流程,usage是否和某个明确KPI挂钩,客户是否能清楚说出关掉这个产品后会退回什么更差的状态

 

什么结果偏正面,什么是危险信号。
偏正面的信号是:客户把它当成止痛药,而不是维生素;不用会明显伤害效率、收入、合规或服务质量;预算有明确归属;多个客户能给出相似的购买理由。危险信号是:用户觉得不错,但老板不愿持续付钱;需求只在头部样板客户强烈存在;试点很多,正式转化少;客户说不出关掉以后会有什么真实损失。

 

2. PMF信号是否已经开始出现,而不是只靠销售推动

为什么关键。
PMF不是客户说喜欢,也不是销售能卖出去。真正的PMF,至少在早期应该表现为某种自发拉力:用户主动复用、组织愿意复购、部门开始扩张、老客户愿意推荐新客户。

如果每一单都要靠销售和创始人硬推、靠重度服务强续,那说明产品更多是在被卖,而不是被需要。

常见假象。
NPS、热情反馈、试点阶段高活跃,都容易形成假象。客户在试点期间会配合测试,内部champion也会积极推动,但一旦进入常规流程,使用频次、预算优先级、跨部门扩张意愿就会急速分化。

投资人和创始人最容易忽略什么。
投资人容易忽略复用扩张的行为证据,只听销售故事。创始人容易忽略自己在客户成功里的隐性投入:到底是产品本身在拉动复购,还是创始人不断用关系、速度和承诺把客户拉住?

两周内最值得做的验证动作。
cohort,不看总盘。看上线后30天、60天、90天的使用深度变化;看复购、扩席位、扩部门是否出现;看有没有来自现有客户的转介绍;看在创始人不贴身服务的客户里,使用和续费是否仍然成立。把最好客户、中位客户、流失客户并排看,信息量会比只看top case大得多。

看哪些证据。
真实usage轨迹、留存、扩席位记录、续费推进记录、推荐来源、客户内部二次传播痕迹,都是高信息量证据。特别要看的是:产品有没有在没有创始人贴身服务的情况下继续成立。

什么结果偏正面,什么是危险信号。
偏正面信号是:客户会主动把更多任务迁给产品,会拉同事进来,会为续费和扩单内部争取预算。危险信号是:使用集中在单一champion,复购依赖大额折扣,扩单总是卡住,或者一旦创始人不介入,客户热度就明显下滑。

真正的PMF信号,往往不是用户说喜欢,而是组织愿意持续把预算和流程迁过去

 

3. 产品/交付是否真的解决问题,且质量足够稳定

为什么关键。
AI应用能不能规模化,很多时候不取决于平均效果,而取决于失败是偶发,还是结构性。因为一旦规模起来,平均分会被尾部问题打穿。客户不会因为你在80%case里不错,就容忍剩下20%在关键节点上掉链子。

常见假象。
最常见的假象是拿平均表现代替业务稳定性,拿最终交付结果代替原始产品结果。很多团队会不自觉地把后台人工审核、Prompt高手修补、工程师临时规则、运营同学二次加工,都算进产品效果里。于是外部看到的是交付成功,实际却看不到交付背后的人工堆砌。

投资人和创始人最容易忽略什么。
投资人容易忽略失败分布和例外处理成本,只关心能不能做。创始人则常常太忙于解决问题,以至于没有系统拆分:哪些失败是噪音,哪些失败其实暴露了产品边界和数据边界。

两周内最值得做的验证动作。
不要只看成功案例,必须看失败回放。选几个成功客户、几个出问题客户,完整回放真实流程:输入是什么、系统哪里断、人工在哪里介入、什么时候回滚、客户什么时候抱怨、最终怎么补救。把工单、交付记录、质量复盘、回滚频率、例外处理比例拉出来看。

看哪些证据。
高信息量证据包括:人工介入占比、例外处理占比、回滚频率、不同场景下的失败类型分布、质量波动是否与数据/流程/客户类型有关。还要看原始输出和最终交付之间差了多少人工修正。

什么结果偏正面,什么是危险信号。
偏正面信号是:失败模式可被识别、可被监控、可被压缩;人工兜底在下降;中位客户也能达到足够稳定的业务结果。危险信号是:每个客户都有不一样的断点;失败不可预测;一旦量上来就靠更多人工审核兜住;回滚并不是偶发,而是日常。

AI应用不是不能有人工。
真正危险的是,人工已经不是过渡性学习机制,而成了永久性商业结构

 

4. 分发路径是否可复制、可放大

为什么关键。
再好的产品,没有分发路径,也长不成大公司。尤其在AI应用里,早期的增长很容易被资源、人脉、内容红利和短期热度放大,看起来像找到了获客机制,实际上只是赶上了一阵顺风。

常见假象。
创始人资源单、朋友介绍单、媒体曝光带来的高质量线索、渠道套利、短期内容爆发,都可能让早期CAC看起来异常漂亮。另一个常见假象是pipeline很满,但真正进入试点、从试点转正式、从正式走向扩单的比例并不好。

投资人和创始人最容易忽略什么。
投资人容易被有很多客户在聊迷惑,而忽略成交路径是否标准化。创始人容易忽略的是,分发不只看签单,还要看试点转正式、扩部门、扩席位路径是否成立。卖出去和留下来,是两回事。

两周内最值得做的验证动作。
直接抽样看CRM,按渠道、客群、销售负责人拆:线索从哪来,谁转化了,谁卡在试点,谁正式签约,谁扩单,谁流失。尤其要分开看:创始人主导成交的客户,和非创始人成交的客户,表现差多少。再看销售周期、采购周期、试点周期,和客户上线后的真实使用节奏是否匹配。

看哪些证据。
高信息量证据包括:CAC、销售周期、试点转正式比例、客户来源结构、创始人依赖度、不同渠道的质量差异、扩席位/扩部门的真实路径、流失和停滞的具体原因。总pipeline金额本身,信息密度并不高。

什么结果偏正面,什么是危险信号。
偏正面信号是:至少有一条非偶然的获客路径已经出现;非创始人也能成交;试点转正式的逻辑清楚;扩张不是靠一次次特批,而是有可复用机制。危险信号是:所有成交都要创始人背书;最强线索来自不可复制的渠道;试点很多但正式很少;每次扩单都像重新卖一次。

模型能力进步会放大分发有效的产品。
它不会替你长出分发。

 

5. 单位经济是否存在转正可能

为什么关键。
早期AI应用今天不赚钱,并不必然是坏事。坏事是:未来也看不到赚钱的路径。规模化最怕的不是暂时亏损,而是规模越大,亏得越快。

常见假象。
很多项目会给出一个看起来不错的毛利数字,但里面没有算进人工审核、售前方案、客户成功、部署支持、异常处理、创始人时间、定制集成。还有些公司把实施收入和产品收入混在一起,把短期模型成本波动当成长期结构的遮羞布。

投资人和创始人最容易忽略什么。
投资人常忽略中位客户的真实贡献毛利,只看总体平均。创始人常忽略的是复杂度税:每加一个大客户,不只是多一点收入,也可能多出一整层支持、集成和组织成本。

两周内最值得做的验证动作。
不要直接接受公司给的经济模型,要重建一版自己的。按客户看,不按整体看;按最好客户、中位客户、最差客户看,不按平均看。把模型/推理成本、人工审核、售前售后、客户成功、销售成本、集成部署、云资源、安全合规和创始人隐性投入都算进去。然后做压力测试:客户数翻三倍、使用量翻十倍时,哪些成本会下降,哪些成本会线性上升,哪些会超线性上升?

看哪些证据。
高信息量证据包括:按客户拆分的收入结构、交付成本、支持成本、续费质量、贡献毛利变化、部署时间是否缩短、人工工时是否下降、模型成本在收入中占比如何演进。

什么结果偏正面,什么是危险信号。
偏正面信号是:人工和部署成本随时间下降;中位客户毛利在改善;更高usage带来更高贡献而不是更高拖累;今天的亏损更像学习成本。危险信号是:越多客户越多人工审核;越多使用越多售后救火;最好客户都不赚钱;毛利好看只是因为成本没算全。

今天不赚钱,不可怕。
未来不可能赚钱,才可怕。

 

6. 团队是否具备非对称优势

为什么关键。
早期AI应用比很多软件更需要复合能力。不是只懂模型,也不是只懂行业,更不是只会讲故事。真正稀缺的是:既知道价值在哪一段产生,又知道哪一段最容易失真,还能把一线经验压成产品、流程和组织能力。

常见假象。
聪明团队不等于能赢。名校背景、顶级履历、技术亮点、行业名片,都可能带来很强的第一印象,但未必能回答:为什么客户会买?为什么会续?为什么会流失?哪一段交付最危险?哪一段分发最脆弱?

投资人和创始人最容易忽略什么。
投资人容易高估创始人的表达能力,低估团队的组织化能力。创始人则容易低估从01和从110之间的能力差异:能把一个东西做出来,不等于能带团队把它持续做出来。

两周内最值得做的验证动作。
不要只见创始人。要见销售、一线交付、客户成功、产品和工程负责人。问同一组问题:最真实的客户为什么买?为什么不买?为什么续?为什么流失?哪里最需要人工?未来半年最可能先爆的瓶颈是什么?如果不同角色的答案高度一致,说明组织在学习;如果彼此相互矛盾,说明公司仍靠局部英雄主义在跑。

看哪些证据。
高信息量证据包括:一线团队是否理解ICP,是否理解客户成功标准,是否知道失败原因,是否能清楚描述产品交付销售客户成功的联动机制;还要看创始人有没有能力把个人经验变成组织节奏和机制。

什么结果偏正面,什么是危险信号。
偏正面信号是:团队对问题有共同语言,创始人既懂客户也懂经济模型,也愿意承认暂时不成立的地方。危险信号是:所有事情都绕不开创始人;每个部门对客户价值的理解不同;没人真正拥有续费、毛利和复制性。

团队的非对称优势,不只是比别人更聪明
而是比别人更早看见问题,更快把问题压成机制

7. 哪些环节会成为未来规模化瓶颈

为什么关键。
规模化不是一路顺滑地增长,而是一场持续的瓶颈管理。真正决定公司上限的,往往不是今天最亮眼的优势,而是明天最先把公司拖住的那一环。

常见假象。
早期因为客户少、创始人强、团队能拼,很多瓶颈还没暴露出来。交付看起来还能顶,合规问题还能手工处理,模型供应还能先用着,客户成功还能靠几个人撑,组织协同还能靠喊。但一旦量起来,这些先放一放的问题会迅速变成天花板。

投资人和创始人最容易忽略什么。
投资人容易在增长期忽略未来的限制因子。创始人则往往不是不知道,而是在资源有限的情况下只能阶段性妥协:先用最贵的方法把客户做下来,再想办法把成本压掉,把流程标准化。这是创业现实,不是认知缺陷。

两周内最值得做的验证动作。
把业务拆成一条链:获客、签约、部署、数据接入、模型运行、人工兜底、客户成功、续费、扩单、合规和组织协同。然后做十倍压力测试:如果客户翻三倍、调用量翻十倍、非创始人销售占比提升、进入更严监管客户,会先爆哪一环?看 backlog、看等待时间、看单点依赖、看外部供应风险、看合规要求和内部升级路径。

看哪些证据。
高信息量证据包括:部署周期是否拉长、支持工单是否激增、质量波动是否扩大、客户成功是否跟不上、关键人才是否单点、模型或数据供应是否过度依赖外部、销售和交付是否相互拖累。

什么结果偏正面,什么是危险信号。
偏正面信号是:团队清楚知道瓶颈在哪里,也已经开始压缩它;瓶颈是可管理、可拆解、可工程化的。危险信号是:没有人说得清最先会爆哪一环;或者每一环都在靠人硬顶,谁都像瓶颈。

先知道会死在哪里,比先证明活得很好更重要。
这不是悲观,而是规模化的基本诚实。

 

六、把尽调落到动作:一套可执行的两周实验式尽调打法

OXYZ资本在看项目时,更愿意把两周尽调看成一个小型验证战役,而不是一次材料审阅。目标不是把公司了解得更全,而是用最少动作拿到足以改变判断的证据

 

Day 1-2:统一口径,识别最值得验证的变量

第一步不是看材料,而是先定命题。

把项目当前的乐观叙事压缩成三到四个最值得被证伪的判断。例如:需求是否足够尖锐、产品是否在中位客户上稳定成立、分发是否能脱离创始人复制、单位经济是否存在转正路径。然后明确每个命题的推翻条件是什么。

这时向项目方要材料,但材料不是越多越好,而是要能连成证据链。最值得要的,不是厚厚的宣传包,而是这些:最近12个月收入拆分;订阅、实施、服务的结构;Top客户名单,以及已付费、流失、试点未转化客户样本;CRM导出;合同与回款样本;usage与留存数据;工单与交付记录;部署周期;单位经济假设;组织结构与关键角色分工。

判断标准很简单:如果这些材料不能把线索来源签约上线使用回款续费/流失连成一条线,那材料再厚,也只是噪音。

Day 1-2 的输出,不是结论,而是一页实验地图:最关键变量是什么,最可能的假阳性是什么,最值得优先抽样的客户和流程是什么。

Day 3-4:访谈内部关键角色,找组织叙事的裂缝

第二步先见内部,不急着见客户。因为你要先知道公司自己怎么理解自己。

创始人要问的不只是愿景,而是最真实的赢单、丢单、续费、流失原因。销售要问最近五个停在试点的项目为什么没有转正式。交付要问哪一类case一定要人工兜底。客户成功要问谁在推动续费、谁嘴上满意却迟迟不扩单。产品和工程要问:失败最多发生在哪些环节?版本迭代后,哪些问题在下降,哪些问题其实没解决?

OXYZ资本内部判断时,很看重一个细节:同一家公司里,不同角色能不能用近似一致的语言描述问题。如果创始人说客户最在意ROI”,销售说客户最在意安全合规,交付说客户最在意准确率,客户成功说客户最在意上线后维护成本,那你需要警惕:这家公司未必在同一个战场上作战。

Day 5-6:做样本抽查,访谈真实客户、流失客户、试点未转化客户

第三步不是挑最满意的客户,而是做分层抽样。

至少要覆盖三类人:正在付费且使用较深的客户,已经流失或明显降温的客户,试点后未转化的客户。最好再加一类:刚开始扩部门或扩席位的客户。因为这四类客户,分别代表价值成立、价值失真、价值没跨过门槛、价值开始复制四种状态。

问客户的问题,不该停留在喜不喜欢产品,而要落到业务现实:
你们原来怎么做?
为什么当时愿意试?
谁最想买,谁最后拍板?
上线后真的替代了什么?
今天是谁在用,谁在推动续费?
如果明天停掉,会退回什么替代方案?
为什么没有扩到更多团队?
为什么最后没转正式?

真正有信息量的,不是表扬,而是犹豫。不是案例,而是阻力。

识别组织说法客户真实体验的偏差,也在这里完成。公司说因为安全合规丢单,你去问未转化客户,发现真正原因其实是用了三周后发现效果不够稳定;公司说客户非常认可价值,你去看usage,发现实际只有一个人偶尔在用。这种偏差,比任何漂亮数据都更能改变判断。

Day 7-8:回放真实流程,只看现场,不看故事

第四步必须做流程回放,而且要同时看成功和失败。

抽两个成功案例、两个失败或回滚案例,完整回放从客户进入、需求确认、部署上线、使用反馈、异常处理到续费决策的全过程。不要只看总结版,要尽可能看真实记录:工单、聊天、版本修改、人工审核、规则补丁、回滚记录。

看什么?看产品在真实使用中的断点在哪里;看人工介入发生在什么环节;看例外处理是不是常态;看失败是偶发、可控、边缘性的,还是会反复出现在中位客户、中位场景里的结构性问题。

很多AI应用最关键的真相,不在宣传材料里,而在失败回放里。
因为成功会被包装,失败更接近系统边界。

如果一个项目的最佳案例非常好,但失败案例暴露出大量人工修补、频繁回滚、客户耐心被快速消耗,那你看到的就不是少数问题,而是未来规模化时会被成倍放大的系统摩擦。

Day 9-10:重建成本与经济模型,不接受报表式毛利

第五步是经济模型核验,而且必须自己重建一版。

不要只看公司给的综合毛利。把模型/推理成本、人工审核、售前方案、客户成功、支持工单、集成部署、销售成本、安全合规、云资源、创始人隐性投入都重新放进模型里。按客户分层看:最好客户、中位客户、最差客户,哪个是真的赚钱,哪个只是看起来赚钱。

更关键的是做压力测试。
如果客户数翻三倍,哪些成本会下降?
如果usage翻十倍,哪些成本会线性增加,哪些会超线性增加?
如果进入更复杂客户,部署和支持会不会吞掉毛利?
如果创始人退出关键流程,成交和交付效率会不会显著下滑?

这里最重要的,不是得出一个精确到小数点后的利润率,而是判断:规模越大,这家公司会越来越像软件,还是越来越像服务;会越来越轻,还是越来越重;会越来越赚钱,还是越来越难赚钱。

Day 11-12:判断复制性与放大性,看第二批、第三批客户能否成立

第六步不是继续看更多材料,而是专门验证复制

把客户按时间和来源拆开:最早一批客户、后续一批客户;创始人关系进入的客户、非创始人渠道进入的客户;头部样板客户、中位客户;顺利扩单的客户、停在试点的客户。然后问一个很直接的问题:当前成功,能否复制到第二批、第三批客户?

如果第一批客户靠的是创始人资源、行业人脉、强背书和高配合度,而第二批客户明显难卖、难交付、难扩单,那说明当前成功很可能带有天时地利人和的成分,还没有沉淀为机制。

OXYZ资本在看项目时,特别在意最好客户中位客户的差异。因为一家公司能不能长大,从来不是由头部样板决定的,而是由中位客户是否成立决定的。

Day 13-14:输出结论,不写看好/不看好,而写变量状态与下一步动作

最后一步不是写一句看好或者不看好

真正有用的尽调结论,至少应该回答四个问题:

第一,哪些变量已经被验证了。
比如需求尖锐度已被验证,部分PMF信号已出现,中位客户也能形成可见价值。

第二,哪些变量还没有被验证。
比如非创始人分发仍弱,单位经济在中位客户上仍未转正,扩部门路径尚不清晰。

第三,最大规模化瓶颈是什么。
是交付中的人工审核占比过高?是分发路径太依赖创始人?是客户成功无法承接扩张?是合规和数据接入太重?

第四,接下来最值得追加验证的动作是什么。
比如继续跟踪三家非创始人成交客户的90usage和毛利;比如观察两家新客户是否能在标准化部署模板下上线;比如验证从单团队到跨部门扩张的具体机制。

这样的结论,才配叫实验式尽调结论
它不是评语,而是证据链状态图。

 

七、为什么真正优秀的创始人,反而欢迎这种实验式尽调

很多创始人并不是不知道问题。他们只是太知道问题了。

他们知道产品还不够稳,所以先用人兜。
他们知道交付还不够轻,所以先靠团队扛。
他们知道分发还没跑通,所以先亲自卖。
他们知道毛利今天不好看,所以先拿客户、拿数据、拿流程控制权。

这不是无知,而是早期创业的现实妥协。真正优秀的创始人,往往不是没有这些问题,而是能诚实地区分:哪些妥协是在换取学习,哪些妥协已经在掩盖结构性问题。

所以,优秀创始人真正怕的,不是投资人尖锐。
他们怕的是,投资人问不到点上。

 

问不到点上,尽调就会奖励表面光滑的公司,惩罚那些对真实摩擦更诚实的团队。问不到点上,投资人以为自己在看商业,实际只是在看表达;创始人以为自己在融资,实际只是在迎合错误问题。

实验式尽调的价值,就在这里。它不是站在岸上评论创业有多难,而是试图和创业者一起识别:规模化前夜最难的那几仗,到底是哪几仗。

OXYZ资本更愿意和这样的团队交流:能把失败案例摊开,能把人工占比说清,能承认哪些客户其实不该卖,能承认哪条分发路径并不成立,能承认哪些收入今天只是过桥收入,而不是长期结构。

这不是扣分项。


这恰恰是顶级团队的信号。

因为真正想做大公司的人,关心的从来不是如何把故事讲得更完整,而是如何更早发现会把自己拖死的那一环

实验式尽调,对投资人当然有价值。它让判断从抽象好坏,升级为证据链、核验动作、实验设计、信息增量优先级。
但它对创始人同样有价值。它逼着公司把哪里是产品问题,哪里是交付问题,哪里是分发问题,哪里是组织问题说清楚,逼着团队把局部成功翻译成系统性认知。

理解创业之难,不等于放弃硬判断。
真正有帮助的资本,不该用温柔的空话代替判断,也不该用高高在上的姿态代替理解。

 

八、把尽调做成实验,本质上是在判断一家AI应用有没有成为大公司的系统能力

早期AI应用最容易制造错觉。
因为能力进步太快,故事空间太大,客户也愿意先试,团队又能靠高强度投入把局部结果做出来。于是很多项目在很长一段时间里,看起来都像有希望

10亿美金、100亿美金级别的AI应用公司,从来不是靠看起来有希望长出来的。

它们长出来,靠的是另一套能力:
能识别真正尖锐的需求;
能把一次成功压成重复成功;
能在失败回放里看见产品边界;
能让分发不只靠创始人;
能让单位经济随着规模改善,而不是恶化;
能让组织承接复杂度,而不是被复杂度吞掉;
更重要的是,能在问题还小的时候,就识别未来会最先爆掉的瓶颈。

这也是为什么,OXYZ资本不是在看一个AI功能,而是在看一个未来是否可能长成10亿/百亿美金公司的系统

把尽调做成实验,本质上不是更聪明地提问。
而是在判断一家公司,是否已经具备三种决定上限的能力:

第一,发现约束的能力。
第二,用证据而不是叙事修正自己的能力。
第三,把局部奇迹变成组织化复制能力。

两周不能给出终局答案。
但两周足以看出,一家公司是在走向规模化,还是只是在把一次次成功演成规模化。

而这,正是早期AI应用尽调最该回答的问题。