我要做一个 AI Agent 应用，但我不确定目前的 AI 能否达到我想要的效果。

Question

Accepted Answer

有这种担心其实是好事。AI 项目跑不顺的最常见原因，不是技术做不到，而是没验证就直接大投入。我们一般会建议先用真实样本跑一轮 PoC，把准确率、稳定性、人工介入比例、单次成本都量化出来，再决定是否进入正式开发。

一个标准的 PoC 一般包括：

场景定义：把想做的事拆成具体的输入输出。比如"做客服助手"太宽，"基于产品手册回答售后高频问题、命中率不低于 80%、能在 3 秒内返回"就具体得多。
样本准备：50–200 个真实的输入样本，覆盖典型情况和边角情况。少了不具代表性，多了 PoC 周期会拖。
基线测试：直接用主流大模型 + RAG 跑一遍，看准确率、引用命中率、错误类型。这一步能很快告诉你"靠现成方案能到什么水平"。
针对性优化：基线不够的话，看是召回不准、还是切片有问题、还是 prompt 没写好、还是模型本身不擅长，每一类原因对应不同的优化路径。
极限评估：再调一轮看上限在哪。如果到极限仍达不到业务要求，就要重新讨论范围——是缩范围让 AI 做容易做的部分，还是加人工兜底，还是这件事暂时不适合 AI。

PoC 的价值不是"做出来"，而是把模糊的"AI 能不能干"变成有数据的"在你的样本上现在能做到 75%，到 90% 还需要 X 投入"。这样后续做不做、做到什么程度，决策起来就有依据。

我们在做客户项目时，会把 PoC 和正式开发明确分开。PoC 周期通常两到四周、范围小、报价独立。客户跑完 PoC 觉得不合适，可以选择不进入正式开发；觉得效果合适，再签更大合同。这种节奏比"一上来谈大单"对客户更友好，也避免了大家在没有数据的情况下互相承诺。

如果你目前还没确定要做什么场景，可以先把想做的事和现有资料告诉我们，滚水科技这边可以先做一次免费的可行性评估，帮你判断哪些环节适合先验证、哪些环节直接做 AI 风险偏大。

相关问题