如何用OCR和文本识别做图文内容初审与分发？

Question

Accepted Answer

做法是"OCR 提取文字 → 关键词与语义规则匹配 → 按置信度分流"。高置信度违规直接拦截、低置信度推给人工复核、剩下的进正常分发。这种分层处理可以把审核人力压到原来的三到四成，同时把社区调性守住。

落地上拆成四步看：

图像文字提取。把图片里的文字识别出来，不只是封面，还包括正文截图、表情包文字、二维码上方的小字。直接接腾讯云、阿里云的 OCR API 就够用，准确率在 90% 以上。涉及多语言的内容（比如海外社区）要选支持多语种的服务。
文本合并与归一化。把图里的文字和帖子标题、正文、标签合并成一个待审字符串，统一处理大小写、繁简、谐音替换（典型的"V x"代"vx"、"+W"代"加微信"这些）。这一步直接决定后续规则能不能命中。
规则与模型分层判别：
- 关键词黑名单（违禁词、广告词、敏感词）走最严格规则，命中直接拦截
- 灰色词、营销诱导走中等规则，进人工队列
- 语义类（暗示赌博、引流到外部平台、软广）用大模型分类，给出置信度
分发策略。审核通过的进正常流量池；待审的暂时不曝光给主流人群，但允许作者本人可见；被拦截的给作者一个明确提示，附申诉入口。

实操上有几个容易忽略的点：审核规则要支持热更新，不能改一个词就发版；人工复核后台要简洁，让审核员能用快捷键 1 秒处理一条；样本要能闭环回流，被人工改判的案例要进训练集，迭代规则和模型。

我们在做社区类项目时通常会先用规则版本上线，跑两到三个月积累真实样本，再考虑训练专门的内容理解模型。如果一开始就奔着模型去做，往往会因为样本不够准确率不达标，反而拖累上线节奏。

相关问题