网盾 – 高危网址检出引擎设计和构架
1、 高危网址
所谓高危网址,是指用户通过浏览器或类浏览器软件访问一个网址后,影响用户正常使用预期功能。传播方式一是将假冒网站地址发送到客户的电脑上或放在搜索网站上诱骗客户登录,窃取客户信息;二是通过手机短信、 邮箱等,冒充银行名义发送诈骗短信,诱骗客户登录假冒网站;三是建立假冒电子商务网站,通过假的支付页面窃取客户网上银行信息。包含且不完全包括以下两种情况:
1) 钓鱼网站
网站内容与被仿冒对象网站内容雷同或相似的,目的是窃取用户信息;网站内容存在误导访问者的可能性,且所使用域名与被仿冒对象所使用域名相同或相似,目的是窃取用户信息;网站内容存在误导访问者的可能性,且网站所使用域名为被仿冒对象的商号、标识或其他与被仿冒对象存在高度对应关系的内容,目的是窃取用户信息;
2)传播病毒木马
这里,分为主动的挂载木马和被动。主动是指,该网址上的木马是该网址后台拥有者内置的;被动是指,木马是网址服务器被攻击者攻破后被移植其中的。
1.1 按作案方式分,高危网址分为
1) 假冒
假冒网站的主要表现形式有两种:一是假冒网站的网址与真 网站网址较为接近;二是假冒网 站的页面形式和内容与真网站较为相似。攻击对象较为随机,多数以直接获取经济利益为目的。
2)诈骗
诈骗的表现形式,一般是通过某个人的信息,伪装并获取其周围人的信任,从而达到其非法的目的。
3)钓鱼
钓鱼的表现形式一般是针对某些有固定行为特征的群体,比如网银、qq、视频聊天等网站的用户。除了直接获取经济利益外,钓鱼网站的站长还会将收集到的用户数据打包共享,或者直接拍卖。
1.2 按行业种类分
1) 博彩
2) 伪装qq
3) 虚假医疗
4) 在线色情
5) 行业在线
6) 银行
7) 其他
2、 检出系统1.0
3、 逃避查杀的主要方式
3.1 屏蔽爬虫Ip
3.2 有依赖的跳转
3.3 文字内容图片化
3.4 加密隐藏
3.5 流媒体
3.6 填充干扰
3.7 云配置
3.8 无线路由
4、 key
4.1 浏览器和爬虫的差异
4.2 人和机器的差异
4.3 机器和机器环境的差异
5、 架构
5.1 设计思路
尽可能解决上述三个难点,并发、计算和存储资源的合理调度。
5.2 架构
5.3 难点和瓶颈
爬虫:网页获取能力
引擎:网页判定能力
5.4 爬虫
1)全规则爬虫
2)定点爬虫
6、 检测引擎
6.1 种类
1)规则引擎
2)相似度引擎
3)算法引擎
4)云日志分析引擎
5)协同引擎
6.2 算法
1)样本
训练数据的获取(人工及人工规则检出, 第三方数据抓取)
2)降噪
人工
升维 - 过滤器
3)维度
网页内容特征
网页结构特征
网页行为特征
降维
4)模型
朴素贝叶斯
最大熵
相似度 ssdeep
svm
dnn
6.3 风险
1)误报
2)热度回归
3)舆情监控