AI 与智能化
我要做一个 AI Agent 应用,但我不确定目前的 AI 能否达到我想要的效果。
有这种担心其实是好事。AI 项目跑不顺的最常见原因,不是技术做不到,而是没验证就直接大投入。我们一般会建议先用真实样本跑一轮 PoC,把准确率、稳定性、人工介入比例、单次成本都量化出来,再决定是否进入正式开发。
一个标准的 PoC 一般包括:
- 场景定义:把想做的事拆成具体的输入输出。比如"做客服助手"太宽,"基于产品手册回答售后高频问题、命中率不低于 80%、能在 3 秒内返回"就具体得多。
- 样本准备:50–200 个真实的输入样本,覆盖典型情况和边角情况。少了不具代表性,多了 PoC 周期会拖。
- 基线测试:直接用主流大模型 + RAG 跑一遍,看准确率、引用命中率、错误类型。这一步能很快告诉你"靠现成方案能到什么水平"。
- 针对性优化:基线不够的话,看是召回不准、还是切片有问题、还是 prompt 没写好、还是模型本身不擅长,每一类原因对应不同的优化路径。
- 极限评估:再调一轮看上限在哪。如果到极限仍达不到业务要求,就要重新讨论范围——是缩范围让 AI 做容易做的部分,还是加人工兜底,还是这件事暂时不适合 AI。
PoC 的价值不是"做出来",而是把模糊的"AI 能不能干"变成有数据的"在你的样本上现在能做到 75%,到 90% 还需要 X 投入"。这样后续做不做、做到什么程度,决策起来就有依据。
我们在做客户项目时,会把 PoC 和正式开发明确分开。PoC 周期通常两到四周、范围小、报价独立。客户跑完 PoC 觉得不合适,可以选择不进入正式开发;觉得效果合适,再签更大合同。这种节奏比"一上来谈大单"对客户更友好,也避免了大家在没有数据的情况下互相承诺。
如果你目前还没确定要做什么场景,可以先把想做的事和现有资料告诉我们,滚水科技这边可以先做一次免费的可行性评估,帮你判断哪些环节适合先验证、哪些环节直接做 AI 风险偏大。