1. 威客安全首页
  2. 安全资讯

内容安全那些事之方案篇


上一篇文章主要介绍了内容安全实际工作中遇到的问题,本文主要介绍这些问题衍生的解决方案,没看上一篇文章,或者是忘了的朋友阅读一下问题篇


由于内容安全涉猎广泛,本文就内容安全方面的一些工作的实践和思考做一些简单介绍,一些具体方法大家如果有兴趣可以加我微信(微信号:huangle0914)详细探讨。


内容安全的建设主要从如下几个层面解决:

1、https:针对链路劫持的不二解决方案,各大互联网公均有成功案例,不用赘述。只是如果基础域名体系已经比较庞大了,改造起来会比较费力。

2、爬虫:这是我们最早想到的方法,用于解决内容正确性问题。具体方法是通过爬虫从外部模拟用户抓取页面,与发布系统发布的版本做比较。为了发现部分区域链路篡改的问题爬虫分布点的分布越广越好。为了解决分布式问题笔者曾经试过通过修改DNS的方式模拟各地用户访问,但结果发现很多DNS区域保护导致不能访问,所以目前只能通过布点的方式解决此问题。

但这种情况是由于我们没有实现HTTPS才做的工作,只要实现了HTTPS链路层的问题就可以完全解决。但DNS sever文件被篡改的问题另当别论。

3、比对:爬虫抓取就是为了比对,比对比较简单的说就是hash。但由于需要了解异常出现的位置,所以需要进行更细致的逻辑,下图是我们内容抓取和比对的总体逻辑(这里感谢画图的林工!),比较繁杂,原因是由于我们发布系统的一些具体情况限制,所以这个逻辑并不通用。

内容安全那些事之方案篇


4、发布系统保护:比对只能发现发布系统之外的篡改行为,问题篇中提到的第一种可能性就是发布系统入侵,一旦发布系统被入侵前三项措施统统失效。对发布系统的保护除了攻防级的一系列防护手段(SDL、白名单、漏洞检测、权限控制、审计等等)之外,还需要各类审发流程、意识培训等工作作为保障。但不管怎样发布系统被入侵的可能性总归是有的,所系我们设计了下面三个保底策略。

5、语义识别:这其实是常规敏感字审计策略在AI技术帮助下的一个升级,语义识别从严格意义上说是很复杂的一个工程,尤其是在博大精深的中文语境中。但这不影响我们对该技术的使用,从目前BAT开放的技术看判断情感倾向(正面or负面)方面还是比较准确的。同时也可以针对一些具体需求,利用已有样本进行定制化的训练。

6、图片识别:这是近年来AI领域最火的应用,没有之一。我们测试过多家公司的识别接口,总体来说效果排名如下:色情图片识别、恶心图片识别、暴恐识别、政治敏感识别。我们目前使用的就是这几类能力,但实时上还有很多识别接口可以使用,甚至有定制化训练的接口,大家有兴趣可以试试(别忘了交流心得啊!)。从上面的排名我们能发现一些规律,排名靠前的都是识别规则没有变化,或者变化很小的。至于识别规则频繁变化的场景我们还在摸索。

7、视频识别:从目前笔者了解的情况看,视频识别在图片识别之前加上了视频流处理、关键帧提取等视频处理技术,这方面技术实在不懂,我们也只能靠专业端对为我们服务。而且也有很多我们提出的问题尚未解决,等有了答案再进行专门讨论。

8、应急响应:前面说了很多检测策略,其实这也是我在网络安全工作梳理这篇文章中提到的一个策略,就是重检测,轻防御的思路。但轻防御不是轻视防御,而是轻量级。应急响应策略就是在内容安全的最后一个手段,当然应急响应并不是内容安全所特定的手段,后面文章中会专项讨论这方面工作。这里稍微提一句,我们页面恢复的部分应急手段集成到了一个自动化流程中,一旦启动就可以秒级完成应急预案的执行。

写在最后:

内容安全是一个涉及面很广的工作,广义的说可以涵盖所有安全工作。仅就内容本身来说就涉及到了诸多复杂的分析逻辑,这些都需要慢慢探索。本文所介绍的只是一个提纲,笔者所在的企业也在对我们自己的内容安全检测系统进行持续的改进,希望能得到所有有识之士的指点,谢谢大家!



原文始发于微信公众号(企业安全工作实录):内容安全那些事之方案篇

本文转为转载文章,本文观点不代表威客安全立场。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

4006-119-120

在线咨询:点击这里给我发消息

邮件:public@jinlongsec.com

工作时间:周一至周五,9:30-18:30,节假日休息

X