画像系统——如何进行相似人群的扩展？（Look-alike）

“相似人群的扩展，是人群应用中的一个重要场景。”

今天和大家一起分享什么是相似人群的扩展，以及如何基于选定的人群，进行相似人群的扩展。即行业中的Look-alike。

一、Look-alike的基本含义

首先聊一聊什么是Look-alike。

相似人群的扩展，正如字面上的含义，就是对人群进行展开，使扩展后的人群特征和选定的人群的特征保持一致或者尽可能的相近。这里有以下几个常见的概念。

【种子人群】即我们要基于哪个人群进行相似人群的匹配。种子人群的获得方式，可以是用户自己通过标签系统圈选的人群，也可以是一群完全自己上传的人群（前提是ID可以打通）。

【扩展倍数】即要将种子人群扩大的倍数。通常作为配置项让用户进行选择。

【扩展人群】即将种子人群按照扩展倍数扩充后，获得的人群。该人群的特征规律应该和种子人群的特征规律比较一致或者相近。

二、价值和应用场景

什么应用场景会需要进行人群扩展呢？

【场景1】在画像系统中，当用户通过一个标签或者一系列标签，完成了人群的圈选，此时经常出现的一个问题是：圈选出来的人群太少了。这对于人群包的应用（展现次数、点击次数、转化次数等）而言，无疑是巨大的影响。

【场景2】运营人员经过多次的效果测试和人群优化后，有个效果特别好的人群包。但是呢，往往越是精准的人群包，数量也越少。扩展人群包的数量，通常来讲肯定会降低投放效果，但是扩量一定是必走的营销之路。

因此，只有质量没有数量的投放，并不能称得上成功的投放。在不降低投放质量或者少降低投放质量的前提下，尽量扩展投放数量，是摆在投放人员面前的重要课题，也是画像系统、广告系统的重要内容。

三、一些常用的扩展方法

那如何将种子人群扩展呢？常见的方法主要有三种（这些是比较基础的一些方法，具体的扩展方法建议在这些方法的基础上，结合自己的业务场景，进行更科学的应用，尽量不要生搬硬套）：

（1）通过标签的方式匹配

通过标签的方式是比较容易落地的方法。主要有这么几个步骤。

首先，识别种子人群的特征标签。关于如何识别人群的特征标签，在之前的文章《如何从海量特征中识别人群的突出特征》中有阐述过，大家可以参考查阅。

其次，就是基于识别的典型特征，进行人群的扩展。例如，我们识别出来种子人群有【高消费】、【偏好奢侈品】、【小镇中产】等标签。那么我们可以将包含这些特征的人群都先圈出来（交集或者并集）。这样就完成了相似人群的扩展。

这种方法比较直接，但相似效果比较难衡量。

（2）通过相似度的方式直接计算

通过相似度的方式，主要是将人群的特征进行向量化，然后计算向量之间的距离。

例如我们总共有100个标签、400个特征（所谓特征可以理解成标签取值）。那么，每个用户都可以用400维的向量进行标识。

基于每个用户的向量，计算种子人群的向量均值。然后用其余待匹配人群的特征向量，与种子人群的向量均值求距离。

最后，按照距离进行排序，获得距离最近的top取值即可。

（3）通过机器学习的方式训练

通过标签的方式，比较容易理解；用距离的方法，比较容易计算。除此之外，就是用算法的方式进行扩展了。

算法的具体实现就不说了，其实就是一个典型的分类问题。即判断一个人属不属于种子人群。而种子人群作为机器学习训练集。

—

产品化设计参考

关于产品设计，这里简单聊两句。

（1）在谷歌广告中的设计

首先看看谷歌广告的产品设计。下图是谷歌广告中的相似人群扩展的功能：

这里谷歌采取的是滑块的方式，进行不同程度的扩展。

这里补充一下，我简单了解了一下谷歌的扩展逻辑，有一种逻辑是基于的关键词的扩展。例如选定的关键词是“台灯”，扩展的时候是先扩相似相近关键词，例如“吊灯”、“床灯”等，然后基于扩展的关键词进行人群扩展。这算是上面没有提到的一种扩量逻辑吧。

（2）在阿里达摩盘中的设计

实在是没有达摩盘的账号了，就从介绍视频里截了个图：

从这个图里，也能看出一些端倪。达摩盘的人群扩展，是比较贴合业务场景的，加了很多业务层面的逻辑。这会提升扩展后人群的效果。应该是比较高阶的扩展逻辑了。

（3）在JD某产品中的设计

最后给个我们自己的产品中，关于人群缩放的内容吧：

我们这里除了支持人群的扩充，也支持人群的缩减。是自动基于用户填写的人数设置来的，这里的人数设置，就是上文提到的扩展人群的概念。即若填写的人数大于种子人群，则扩展；反之则缩减。扩充的方法是采取相似人群算法。

缩减的方式直接进行的随机抽取。

今天主要分享这些，感谢继续关注~

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

画像系统——如何进行相似人群的扩展？（Look-alike）

推荐阅读更多精彩内容