演讲 | 机器学习在微博业务安全中的定位

今天认真地听了微博的高级工程师关于机器学习在微博业务安全中的定位的演讲，给大家分享一下我听完后get到的点。先说说题外话，在众多的演讲话题和企业中，之所以选择去听微博的分享一方面是因为微博作为流量巨大的自媒体平台吸引了无数的人来使用，休闲娱乐；另一方面是因为前两天鹿晗和关晓彤的关系公布后，微博服务器宕机又引起一波关注。

微博是一个自媒体平台，内容为主，业务层面的安全有来自账号方面，比如盗用账号，虚假账号等；内容方面，比如垃圾内容，刷话题，刷关注量等；还有金融方面。那业务安全做什么？不同的公司业务安全也是不同的，这与公司的安全理念有关，微博需要做的是区分是用户还是机器。群主组织一两万人批量注册微博，算不算欺诈？按理说，这是一个正常的行为，因为对方不是机器。所以只要不会影响其他人的利益，就不算欺诈。

所以微博安全的定位是阻止真人做恶意行为，包括刷关注影响到了他人的利益，盗用账号等。因此微博需要进一步区分是恶意用户还是正常用户。

接下来说一说机器学习在业务安全方面的挑战，微博的高级工程师何为舟讲到，说自己并不看好机器学习，认为泡沫比较大。机器学习应用的领域有：图像处理（人脸识别）、自然语言处理还有就是推荐和搜索，随着深度学习的发展，这些领域有了质的飞跃。

但是存在着以下的安全问题：

1. 训练集的缺陷：准确性方面，安全事件很难精准评判，个人偏见影响极大；数量方面，拥有大量无标签的数据，但缺少有标签的数据；全面性方面，在海量的历史数据中很可能存在未被发现的安全事件；实时性方面，安全威胁不断变更攻击手段与时俱进。训练集所面临的难题是：传统的机器学习领域可以获取大量的训练样本，且评判标准单一，但对于安全领域，评判一起事件可能花费好几天，对于不同业务不同时间，评判标准也存有差异。

2. 对人工的依赖：在业务分析、数据分析、数据收集、特征工程等方面，机器可以辅助，但大多数情况下都是人工完成，所以是限制在人工思维基础上的。

3. 对抗攻击能力：机器学习应用安全一直在和黑产做对抗，（关于黑产后期会给出解释）所以机器给出的数据有时候也有问题。举个例子，最近人脸识别很火，随之对抗人脸的攻击也越来越多样，在人脸识别中，只要用户带一个彩色的眼镜，或者化一个奇异的妆，就会被识别成其他的人。很多黑产用利用这个缺点来攻破机器学习。

那么微博风控体系是怎么样的呢？首先是需求分析，方法有：

1.训练集，最理想的状态是用少量的训练就能够有好的结果并且准确实时。微博对抗训练集难题的做法有：扩大来源，通过和客服对接，用户反馈以及异常登陆行为和私信提醒方式，来让用户自己作出判断是不是自己做的。目前主流的监督学习有弱监督学习和无监督学习，但是在准确性和训练集数量上都很难同时兼顾，所以提出了弱监督学习，弱监督学习处于中间阶段，即中等数量的训练集得到较好的准确性，弱监督学习很可能会成为主要的发展方向。

2.分类，主要的分类有UU分类（二分聚类算法），PU和AU分类（利用某一类样本估计总体损失函数）以及PNU分类（自训练模型聚类+分类）。对微博来说，PU和AU分类是最有效的，采用负向样本的反馈的方式。

其次是可控性上保证结果的绝对准确，做到零误伤；在架构上：采用规则系统和机器学习相结合的方式。大多数公司都不会抛弃规则系统直接转向机器学习，规则系统有自身的优点比如准确、可控、可解释性。再加上反馈系统和微博业务安全防护体系。最后就是实时更新！

以上就是我的分享！

最后编辑于：2017.11.21 09:02:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

演讲 | 机器学习在微博业务安全中的定位

推荐阅读更多精彩内容