功能与方案
如何用OCR和文本识别做图文内容初审与分发?
做法是"OCR 提取文字 → 关键词与语义规则匹配 → 按置信度分流"。高置信度违规直接拦截、低置信度推给人工复核、剩下的进正常分发。这种分层处理可以把审核人力压到原来的三到四成,同时把社区调性守住。
落地上拆成四步看:
- 图像文字提取。把图片里的文字识别出来,不只是封面,还包括正文截图、表情包文字、二维码上方的小字。直接接腾讯云、阿里云的 OCR API 就够用,准确率在 90% 以上。涉及多语言的内容(比如海外社区)要选支持多语种的服务。
- 文本合并与归一化。把图里的文字和帖子标题、正文、标签合并成一个待审字符串,统一处理大小写、繁简、谐音替换(典型的"V x"代"vx"、"+W"代"加微信"这些)。这一步直接决定后续规则能不能命中。
- 规则与模型分层判别:
- 关键词黑名单(违禁词、广告词、敏感词)走最严格规则,命中直接拦截
- 灰色词、营销诱导走中等规则,进人工队列
- 语义类(暗示赌博、引流到外部平台、软广)用大模型分类,给出置信度
- 分发策略。审核通过的进正常流量池;待审的暂时不曝光给主流人群,但允许作者本人可见;被拦截的给作者一个明确提示,附申诉入口。
实操上有几个容易忽略的点:审核规则要支持热更新,不能改一个词就发版;人工复核后台要简洁,让审核员能用快捷键 1 秒处理一条;样本要能闭环回流,被人工改判的案例要进训练集,迭代规则和模型。
我们在做社区类项目时通常会先用规则版本上线,跑两到三个月积累真实样本,再考虑训练专门的内容理解模型。如果一开始就奔着模型去做,往往会因为样本不够准确率不达标,反而拖累上线节奏。