功能与方案
客户订单是 XML、还有 Excel / PDF / 图片等不同格式,系统能不能统一接入?
能统一接入,但不能用一个口子糊死所有格式。我们一般会按"结构稳定走模板、格式松散走识别、人工兜底走复核"三条路并行,把每种来源的订单拆到不同接入器里,最终在系统里落成同一套订单模型。
具体到几种格式怎么处理:
- XML 和 Excel:来源稳定的大客户、ERP 之间打通,优先走结构化导入。每个客户的字段映射做成可配置,新增客户加一份映射模板就行,不用改代码。
- PDF:分两种。如果是导出型 PDF(文字可复制),用版面解析 + 字段抽取能稳定在 95% 以上;如果是扫描型,需要走 OCR + 字段定位。
- 图片和手写单:必须走 OCR,再用业务规则做二次校验,比如金额行小计要等于明细之和、单价 * 数量要对得上。
- 微信群发来的图片 / PDF 截图:单独做个企业微信侧的接收入口,落库前先标"待人工确认"。
不管哪条路进来,最后都要打到同一张订单表。这张表的字段、状态机、操作日志、关联客户档案,全系统只有一套。这样后续的发货、对账、报表才能统一处理。
异常处理是这类项目的关键。我们的做法是给系统一个"待复核池"——任何字段抽取置信度低、关键字段缺失、和历史订单对不上的,统一进池子等人工看一眼。人工改完之后这条记录也会沉淀进训练数据,下次类似情况识别得更准。
具体到时间和成本,订单接入的工作量主要不在抽取本身,而在客户文件的"脏数据治理"。我们之前在一个 智慧赋能-工厂管理数字化 项目里就花了不少时间把客户来源的几十种文件模板归类。建议客户在前期能提供 30 份以上覆盖各种格式的真实样本,我们可以先跑一轮基线测试,把识别率、漏抽率算出来再决定首期投入。