今天认真地听了微博的高级工程师关于机器学习在微博业务安全中的定位的演讲,给大家分享一下我听完后get到的点。先说说题外话,在众多的演讲话题和企业中,之所以选择去听微博的分享一方面是因为微博作为流量巨大的自媒体平台吸引了无数的人来使用,休闲娱乐;另一方面是因为前两天鹿晗和关晓彤的关系公布后,微博服务器宕机又引起一波关注。
微博是一个自媒体平台,内容为主,业务层面的安全有来自账号方面,比如盗用账号,虚假账号等;内容方面,比如垃圾内容,刷话题,刷关注量等;还有金融方面。那业务安全做什么?不同的公司业务安全也是不同的,这与公司的安全理念有关,微博需要做的是区分是用户还是机器。群主组织一两万人批量注册微博,算不算欺诈?按理说,这是一个正常的行为,因为对方不是机器。所以只要不会影响其他人的利益,就不算欺诈。
所以微博安全的定位是阻止真人做恶意行为,包括刷关注影响到了他人的利益,盗用账号等。因此微博需要进一步区分是恶意用户还是正常用户。
接下来说一说机器学习在业务安全方面的挑战,微博的高级工程师何为舟讲到,说自己并不看好机器学习,认为泡沫比较大。机器学习应用的领域有:图像处理(人脸识别)、自然语言处理还有就是推荐和搜索,随着深度学习的发展,这些领域有了质的飞跃。
但是存在着以下的安全问题:
1. 训练集的缺陷:准确性方面,安全事件很难精准评判,个人偏见影响极大;数量方面,拥有大量无标签的数据,但缺少有标签的数据;全面性方面,在海量的历史数据中很可能存在未被发现的安全事件;实时性方面,安全威胁不断变更攻击手段与时俱进。训练集所面临的难题是:传统的机器学习领域可以获取大量的训练样本,且评判标准单一,但对于安全领域,评判一起事件可能花费好几天,对于不同业务不同时间,评判标准也存有差异。
2. 对人工的依赖:在业务分析、 数据分析、 数据收集 、特征工程等方面,机器可以辅助,但大多数情况下都是人工完成,所以是限制在人工思维基础上的。
3. 对抗攻击能力:机器学习应用安全一直在和黑产做对抗,(关于黑产后期会给出解释)所以机器给出的数据有时候也有问题。举个例子,最近人脸识别很火,随之对抗人脸的攻击也越来越多样,在人脸识别中,只要用户带一个彩色的眼镜,或者化一个奇异的妆,就会被识别成其他的人。很多黑产用利用这个缺点来攻破机器学习。
那么微博风控体系是怎么样的呢?首先是需求分析,方法有:
1.训练集,最理想的状态是用少量的训练就能够有好的结果并且准确实时。微博对抗训练集难题的做法有:扩大来源,通过和客服对接,用户反馈以及异常登陆行为和私信提醒方式,来让用户自己作出判断是不是自己做的。目前主流的监督学习有弱监督学习和无监督学习,但是在准确性和训练集数量上都很难同时兼顾,所以提出了弱监督学习,弱监督学习处于中间阶段,即中等数量的训练集得到较好的准确性,弱监督学习很可能会成为主要的发展方向。
2.分类,主要的分类有UU分类(二分聚类算法),PU和AU分类(利用某一类样本估计总体损失函数)以及PNU分类(自训练模型 聚类+分类)。对微博来说,PU和AU分类是最有效的,采用负向样本的反馈的方式。
其次是可控性上保证结果的绝对准确,做到零误伤;在架构上:采用规则系统和机器学习相结合的方式。大多数公司都不会抛弃规则系统直接转向机器学习,规则系统有自身的优点比如准确、可控、可解释性。再加上反馈系统和微博业务安全防护体系。最后就是实时更新!
以上就是我的分享!