AI应用的早期判断:别从模型开始,从“工作流替代率”开始
很多AI应用早期的讨论,都会跑偏到同一件事上:
“你们用的是什么模型?参数多大?RAG怎么做?Agent框架选哪个?”
这些当然重要,但它们更像“发动机型号”。真正决定一辆车能不能跑赢的,不是发动机多炫,而是:它能不能把你从A点稳定送到B点,并且更省时间/省钱/更确定。
在OXYZ资本看AI应用项目时,我们最希望团队先回答的不是“模型多强”,而是——
你到底替代了谁的哪段工作流?替代率有多高?能不能规模化?
OXYZ资本把“工作流替代率”当作AI应用早期判断的第一性指标,给你一套可以直接落地的评估框架:三问、四类关键指标、三种常见陷阱、以及一条从窄场景到扩展的验证路径。最后也给出你可以直接投递的材料清单。
一、AI应用的价值不是“聪明”,是“省时间/省钱/更确定”
早期AI应用最容易被“聪明”迷惑:生成像人、回答像专家、Demo一镜到底。
但真正的价值从来不是“看起来很会”,而是这三件事至少命中一件,并能被复核:
- 省时间:同样结果,时间减少30%/50%/80%?
- 省钱:同样产出,成本下降多少?(人力、外包、返工、沟通)
- 更确定:同样流程,出错率更低?交付更稳定?可预期性更强?
如果AI没有让“交付”变得更快、更便宜、更稳,那它很可能只是一个更高级的内容玩具。
二、核心概念:什么是“工作流替代率”
1)先区分两件事:提效 vs 替代
- 提效:AI让人做得更快(人仍然是主驱动)。
- 替代:AI接管某些步骤,人从“执行者”变成“审核者/例外处理者”。
早期判断AI应用是否有“产品势能”,我更看重替代,因为替代意味着:
- 价值更可量化(省出来的时间/钱可直接核算)
- 复用更可预测(进工作流后会反复发生)
- 规模化更可能(边际成本可被压缩)
2)工作流替代率(可操作定义)
把一个目标岗位/场景的工作拆成若干步骤,每个步骤都有耗时、频次、质量要求。
工作流替代率 = AI在“可接受质量”前提下,替代掉的工作量占比。
一个常用的粗算方式(够早期决策用):
替代率 ≈ Σ(步骤频次 × 可替代耗时 × 质量系数) / Σ(步骤频次 × 总耗时)
- 步骤频次:这一步一周发生几次/一天发生几次
- 可替代耗时:AI接管后,人省掉多少分钟
- 质量系数:0~1(输出能否直接用、需不需要返工、风险可不可控)
关键点:替代率不是“功能覆盖率”,而是“被真实拿走的工作量占比”。
你会惊讶地发现:很多“功能很全”的AI产品,替代率可能只有5%~10%;而一些极窄的AI工具,只要替代率做到30%~50%,就能迅速成为刚需。
三、评估三问:替代谁的哪段流程?节省多少?能否规模化?
这是判断一个AI应用早期成色最有效的“三问”,你可以拿它当作产品内部评审模板。
问题1:你替代谁的哪段流程?
别说“赋能行业”,说清楚三件事:
- 谁:具体到岗位(例如销售运营/招商主管/投手/法务助理/客服班长)
- 在什么场景:例行高频任务还是低频应急任务?
- 替代哪一段:不是“全流程”,而是“哪几个步骤”被接管
实操建议:把目标流程拆到“可交付物级别”。
例如不是“做投放”,而是“把一条投放需求变成可上线的素材+配置+复盘结论”。
早期最忌讳:定义成一个宏大流程,导致替代率永远算不清、证据永远拿不到。
问题2:你节省多少?用什么证据证明?
省多少不靠估算,靠“前后对比”的复核证据。你至少要能拿出其中一种:
- 时间证据:同一类任务,AI前后耗时对比(抽样10~30单就够早期结论)
- 钱的证据:外包费用下降、返工减少、单量提升带来的单位成本下降
- 确定性证据:错误率下降、SLA变稳定、交付一次通过率提升
早期一个很关键的动作是:把“可用”写成可检测的输出标准。
比如:字段是否齐全、格式是否可直接导入、是否符合合规词表、是否达到评分阈值……
没有输出标准,所有“省多少”都会变成主观争论。
问题3:你能否规模化?还是只能小范围“人工魔法”?
AI应用最危险的阶段,是看起来能跑,但只能靠“人肉”撑着:
手工改提示词、人工清洗数据、人工跟客户对齐需求、人工兜底生成错误……
规模化要看四件事:
- 边际成本:每多一个客户/多1000次调用,你的成本怎么变?(算力+人工审核+交付支持)
- 集成成本:能否进入现有工具链(IM、CRM、工单、文档、表格、ERP等)
- 风险与权限:数据安全、审计、可控输出(尤其B2B场景)
- 数据飞轮:使用过程能否沉淀结构化数据,反哺质量提升与自动化程度提升
规模化不是“加机器”,而是:让系统自己越来越能接管更多步骤,人越来越只处理例外。
四、关键指标:别被“调用量”骗了,看这四类
很多团队会用“调用量、生成次数、token消耗”自嗨。
真正能反映AI应用早期产品力的,是下面这些“工作流指标”。
1)激活到首次价值(TTFV)
用户从进入产品到拿到“可交付结果”的时间。
AI应用早期如果TTFV很长,通常意味着两类问题:
- 需要用户提供太多上下文(工作流融入失败)
- 输出标准不清晰(用户不知道什么时候算“可用”)
方向:把价值前置,先给可用模板/默认输出,再让用户修改。
2)复用频率
AI应用的护城河不是“第一次惊艳”,而是“每周离不开”。
看两个指标足够早期判断:
- 每周完成核心任务的次数/人
- 同一用户在同一任务上的回访间隔(多久回来用一次)
方向:让结果可回流(可编辑、可导入、可复盘),而不是一次性生成。
3)边际成本(单位交付成本)
把成本拆开看:
- 模型推理成本(随调用增长)
- 人工审核/交付支持成本(随客户增长还是随单量增长?)
- 集成/运维成本(每个客户是否要定制?)
方向:把高频、可规则化的部分交给系统;把人工沉到“例外处理”,并不断缩小例外占比。
4)数据飞轮(闭环强度)
你要能回答一个具体问题:
用户每完成一次任务,你到底多了什么“可复用资产”?
可复用资产可能是:
- 标注后的样本(通过/不通过、原因)
- 结构化字段(行业、品类、标签、参数)
- 工作流轨迹(哪一步卡、哪类输出返工)
- 模板库/规则库(沉淀最佳实践)
没有数据闭环,你永远在用“通用模型能力”做产品,天花板会非常明显。
五、三类常见陷阱:为什么很多AI应用“看起来很强”,但跑不起来
陷阱1:Demo很好看,但融不进工作流
典型表现:
- 生成结果像样,但格式不对、字段缺失、无法导入现有系统
- 用户还要复制粘贴、二次加工、反复对齐需求
- 最终AI变成“灵感助手”,而不是“交付助手”
自检一句话:
用户用你之后,是不是能少做一段流程,而不是多一个工具?
陷阱2:没有数据闭环,质量提升靠“调参玄学”
典型表现:
- 质量波动大,团队靠更换模型/换提示词救火
- 客户一多,场景一杂,输出不稳定迅速暴露
- 你无法解释“为什么会变好”,更无法复现
解法:把“可用标准”结构化,把“失败原因”结构化,把“返工路径”结构化。
陷阱3:替代率上不去,单位经济性撑不住
典型表现:
- 每单都要人工大量介入(清洗、对齐、改稿、兜底)
- 客户越多,人越累;收入涨,毛利不涨
- 规模化不是增长,是爆炸
解法:早期就把“人工兜底”当作要消灭的对象:
记录每一次人工介入的原因,做成下一轮自动化的目标。
六、早期验证路径:窄场景 → 高频 → 扩展(别反过来)
AI应用早期最稳的路线不是“做大而全”,而是:
Step 1:选一个窄到不能再窄的场景
选择标准(建议同时满足两条):
- 输出可标准化(有明确可用标准)
- 高频发生(周复用能快速跑出趋势)
- 价值明确(省时/省钱能算账)
- 风险可控(可审核、可回滚)
Step 2:做到“高频可替代”
你要追求的是:
- 核心任务的TTFV变短
- 替代率稳步上升(从10%到30%到50%)
- 用户开始把它当作工作流的一部分,而不是偶尔玩玩
这里有个很实用的节奏:
先做“Copilot”(人主导、AI辅助) → 再做“Autopilot”(AI主导、人审核)
别一上来就全自动,容易在可信度与风险上翻车。
Step 3:扩展有两种方式,但要按顺序
- 先扩步骤:同一岗位、同一场景,把前后相邻步骤纳入(替代率更容易提升)
- 再扩人群:同一产出标准,推广到相邻岗位/相邻行业(复用更容易)
扩展不是“加功能”,是把“可替代的那段工作”复制到更多地方,同时保持边际成本可控。
七、实操:一张“工作流拆解图”就能让判断效率翻倍
很多团队讲半小时产品,别人还是听不懂你替代了什么。
最有效的方式是:画工作流拆解图(一张图胜过十页PPT)。
你可以按这个模板画(用飞书文档/白板都行):
- 目标岗位与场景(一句话)
- 工作流分步(从触发到交付,8–15步即可)
- 每步的输入/输出(输出尽量写成交付物)
- 每步耗时与频次(粗估也行)
- AI介入方式(替代/辅助/不碰)
- 风险点与审核点(哪些必须人审)
- 你当前覆盖到哪一步、下一步要吃掉哪一步
画完这张图,你自然就能算替代率,也自然知道下一轮迭代该瞄准哪里。
OXYZ资本认为:AI应用早期的胜负,不在模型上,在“替代率曲线”上
AI应用最真实的竞争,不是“谁的模型更聪明”,而是:
谁能更快把一段真实工作流变成可交付、可复用、可规模化的系统。
当你开始用“工作流替代率”看项目,你会发现很多决策会变简单:
- 功能要不要做?看它能不能提升替代率
- 场景要不要扩?看它会不会拉低复用与边际成本
- 模型要不要换?看它是不是能让“可用标准”更稳定
欢迎投递 工作流拆解图 + 指标口径
如果你愿意,我也欢迎你把材料发来“用证据说话”——
请投递两样东西:
- 工作流拆解图(按文中模板即可)
- 指标口径(至少包含:TTFV、复用频率、替代率、边际成本的定义与时间窗)
我可以按“替代谁的哪段流程/省多少/能否规模化”的框架,帮你做一次早期判断:
- 你的替代率被什么环节拖住
- 哪些指标口径容易导致自嗨
- 下一轮验证应优先做哪些实验,最快把“聪明”变成“交付”

