AI 与智能化
PDF 表格如何自动抽取成 Excel?
PDF 转 Excel 看起来简单,真正落地时最头痛的是合并单元格、跨页表、混排版面这些细节。滚水科技的做法是把"识别文字"和"还原结构"分成两步,再叠加业务校验,让最后导出的 Excel 拿来就能用,而不是还得人工再修一遍。
实际处理流程一般包含:
- 版面切分:先把页面上的正文、表格、图、脚注分开,避免脚注被当成表格的一行;
- 表格定位:在每一页里独立框出表格区域,处理无边框表、虚线表、深色背景等特殊样式;
- 结构还原:识别表头层级、合并单元格、跨页续表,把"视觉上的表"翻译回"行列结构";
- 字段标准化:统一日期、金额、单位写法,避免"1,234.56" 和 "1 234.56" 被当成不同值;
- 校验与导出:用合计、子项加总、上下行一致性这类规则做反向校验,疑似抽错的行标红,再导出成 Excel 或推送到业务系统。
一个常见的误区是想找一个"全能"工具一次搞定所有 PDF。我们见到的真实情况是:电子版 PDF 和扫描 PDF 完全是两套技术路线;规则化排版(同一份模板反复出现)和自由排版(每份 PDF 都不一样),投入产出比也差很多。所以滚水科技在接需求时会先要 10–30 份样本,区分一下文档来源、版面规律、识别难度,再给方案。
工程上还有几个值得提醒的点:高并发批量处理时要做异步队列,避免一份大文件把整台机器吃满;扫描质量差的文档要做图像预处理;如果是要导回业务系统的数据,导出 Excel 只是中转格式,最好直接做接口对接,少一道人工搬数据的环节。
对资料体量大、需求长期化的客户,我们会把这类能力做成一个"文档处理中台",统一接入不同来源、不同业务线的文档,新场景过来就是加一类模板配置,不需要每次都从零做一遍。