AI 与智能化
专业长文档如何用 AI 做精准校对?
这类场景很适合 AI,但不能按普通对话产品来做。滚水科技在做企业级 AI 项目时,会把校对拆成术语一致性、数据前后文一致性、目录与页码核对、表格与正文交叉验证、格式异常识别、版本差异比对等独立模块,让 AI 把容易漏看的问题先筛出来,再交给专业人员做最终判断。
我们一般会按以下几个维度配置校对能力:
- 术语与口径一致性:检查同一概念在全文是否统一表述、大小写是否一致、缩写是否在首次出现处定义,避免出现同一名词多种写法。
- 数字、单位、币种:核对数字在正文、表格、附注三处是否一致,单位与币种是否漏写或写错。这类错误最难靠肉眼避免。
- 目录、页码、引用:自动比对目录与正文标题、章节编号、图表编号、跨章节引用,看是否对得上。
- 表格与正文交叉:把表格中的数字、总计、占比与正文表述做核对,识别表里说一回事、文里说另一回事的情况。
- 版本差异比对:相比纯 diff 工具,AI 更适合识别"措辞不同但含义未变"或"措辞接近但口径已变"的改动,能为审阅人节省大量时间。
工程上,我们会把每个模块的准确率、召回率、误报率独立追踪,逐步迭代。一开始不会追求一步到位,而是先解决最痛的两三类问题,把人工审阅时间砍下来后,再扩展能力范围。这种思路在我们做过的 AI 项目里效果比较稳定,比如全语通就是用类似拆分模块的方式做多语言学习内容的质量校验。
客户前期需要准备的资料一般包括:典型的待校对文件(可脱敏)、现有的术语表、过往修订记录、内部审校规则,以及对接的业务接口人。资料齐了之后,我们一般在两到三周内就能出第一版可用 Demo,让团队先看到效果再决定下一步往哪深入。