利用Graph Embedding提升人岗匹配的效果

随着新时代的发展和科技的进步，信息技术成为了人力资源领域必不可少的应用工具，原本需耗费大量人力、物力、时间的海量数据处理工作，逐渐变的低成本、精简和高效，人力资源领域数字化、智能化正在得以日新月异的蓬勃发展。为了提升小析智能在人岗匹配及知识图谱产品的效果，我们不断更新迭代完善效能，与时俱进的将图嵌入（Graph Embedding）应用到模型中。通过以下这篇文章，我们将简要介绍图嵌入的理论知识及实践应用。

首先，我们用一句话简单定义知识图谱（Knowledge Graph），就是指用图片的形式存储和表达知识，把不同种类的信息连结在一起所形成的关系网络。而在人力资源领域中，知识图谱发挥着重要的作用，可以用于展示求职者、公司、职位、专业、技能等不同实体之间所存在的多种类型的关系网。受益于知识图谱在各个领域的广泛应用，面向知识图谱的图嵌入学习也得到越来越多的研究和关注。今天，我们重点讲解一下图嵌入（Graph Embedding）。通过图嵌入技术，可以把前述实体嵌入到低维的向量空间，直接比较彼此之间的相似性，从而大幅度提高简历和岗位的匹配效果。对类型较多且各类型数量较大的节点而言，效果更为显著。

关于自然语言处理（NLP），需要首先自然语言映射到欧几里德空间，进而再应用到数学模型的建立中。Embedding可以将自然语言转化为向量，通过Google推出的Word2Vec模型，将语义相近的词映射到向量空间中相近的位置，之后Google提出的BERT可以考虑到相同词在不同位置有不同含义等信息，利用这个新的语言模型同时加上Embedding作为深度学习模型的隐藏层，极大提升了模型在问答、文本情感分析等多个语言任务的表现。

在数学上，Embedding表示映射F: X -> Y，即表示一个函数，其中该函数是一一对应的（就是我们所说的单射函数，每个Y只有唯一的X对应，反之亦然），并且保持空间同构性（即如果在X空间是近邻的，则被映射到Y空间也是近邻的）。Embedding技术被应用在了多种业务场景中：

1. 在电子商务系统中实现实时个性化搜索，利用用户近几周或者近几个月点击过的商品行为数据，实时对用户搜索的目标商品进行相似度比较和排序，这样既极大的提高了效率，也保证了搜索商品的准确性，提高了用户体验。

2. 在短视频app中，根据用户的浏览行为数据，通过深度学习模型可以将用户和短视频同时嵌入（embedding）到同一个低维空间，然后利用Embedding计算用户和短视频之间的相似度（匹配度），进而直接给用户推荐感兴趣的短视频。

关于如何生成Graph Embedding及其原理

随着Graph Embedding的使用愈发频繁，人们开发了许多embedding的计算方法，接下来小析将介绍几种商业上较为常用的方法：

1. DeepWalk

DeepWalk [1] 源自KDD2014年的一篇文章，我们常用的word2vec的算法思路是通过词的共现关系，利用skip-gram和COBW的方式将词映射到低维向量，而DeepWalk则是利用了word2vec的思路生成embedding的一种模型（skip-gram）。对于已经建立的Graph来说，每个节点都可以是不同的实体且实体间可以存在不同的关系，从图上的一个节点开始随机游走（random walk），如果节点之间有权重则可以根据权重的不同进行walk来生成类似文本的序列数据，实体id作为一个个词通过skip-gram训练得到词向量。

如下图所示，DeepWalk的大体思路是：根据网络节点随机游走 -> 生成一定长度的随机序列 -> 利用skip-gram进行模型训练。

2. LINE

源于文章[2] 提出来的一种算法，LINE（Large-scale Information Network Embedding）定义了两种可以计算节点相似度的方法：分别是一阶相似度（First-order proximity）和二阶相似度（Second-order proximity）。

一阶相似度

一阶相似度是指两个点之间的相似度，当两个点相连的边权重越大，意味着这两个点越相似。假设两个节点之间没有连接，则一阶相似度为0；但需要注意的是，一阶相似度仅适用于无向图，不适用于有向图。下列是对每个无向边，定义顶点和的联合概率分布计算公式：

下一阶相似度的目标函数可定义为：

这样可以使经验分布和概率分布尽可能的相近，然后可以通过KL 散度来计算公式（2）。KL散度计算公式是从熵计算公式简易变形而来,在原有概率分布p上，加入近似概率分布q，比较两个概率分布的相似性：

带入KL散度公式后，我们得到了以下公式，其中C为一个常数：

二阶相似度

二阶相似性是指两个点临近网络结构之间的相似性。假设两个点与其他顶点共享相邻顶点属于彼此相似（无向或有向均可），一个向量和分别表示顶点本身与其他顶点之间的特定关联关系。对于每个有向边，先来定义由顶点生成关联关系的概率：

公式(5)是一个条件分布，目标是拟合与顶点经验分布，以最小化以下目标函数：

这里我们利用KL散度同一阶相似性的推导，可以得到二阶相似性的计算公式（去掉常数项）为：

具体应用时,我们可以将一阶和二阶得出的embedding进行拼接，进而可以得到更多的语义信息。

3. Node2vec

Node2vec[3]在DeepWalk基础上创新改进了随机游走的策略，DeepWalk根据边的权重随机游走，而Node2vec考虑了整体和局部的关系，并增加了权重调整参数，具有更高的适应性。

除了以上所述生成embedding的常用方法，理论和实践中还有很多其他方法，比如SDNE[4]、Struc2vec、EGES（阿里推荐使用）、Starspace[5]（Facebook使用）等。

关于图嵌入对人岗匹配的改变

在人力资本行业，简历和职位介绍是最重要的两个要素，人力资本行业一直非常重视二者的有效合理匹配，因此图嵌入的使用大大促进了人力资本行业的发展。

原始文本处理

有效、合理、准确的人岗匹配，需要综合考虑包括但不限于职能、行业、技能、专业等多维度要素。首先，可以利用深度学习模型提取简历、职位介绍中的文本特征（即本文所称“实体”），然后便可以将简历和职位介绍进行匹配，对于非格式文本（即个性化简历）而言，匹配结果可能为能够完全匹配或者无法完全匹配，对于无法完全匹配的情况，我们可以计算二者的相似度，但仍可能存在部分词的语义相似度无法被完全诠释的情形。例如：

简历的特征：技能实体对应Python，职能实体对应Python开发工程师、专业实体对应计算机专业；

职位介绍的特征：技能实体对应NLP，职能实体对应算法工程师、专业实体对应计算机。

从词的表面难以区分两个词的语义相似度。此时可以使用embedding，把不同实体嵌入到同一低维的向量空间，通过数学公式计算实体之间的距离，据此判断相似性。

Embedding形成步骤

步骤一：如图 [1] 所示，首先通过简历、职位介绍中不同实体之间的共现关系作为跳转，从而在简历中进行实体跳转，不同的实体之间构成了网络。不同的实体可以视为不同的节点，而实线就是节点之间的边，也可称为关系。

图1

步骤二：通过Deepwalk和LINE模型形成embedding。利用Deepwalk生成不同的文本序列，使用skip-gram进行模型的训练，通过LINE则可以利用不同实体的共现次数形成模型的输入。

步骤三：模型的训练。不同实体出现的次数不一样，这对模型的训练有所影响。比如，如果专业名词在职位介绍中很少出现，将导致数据的不平衡。此时我们可以统计不同实体之间的TF-IDF、NPMI作为实体间的权重，从而表示不同实体之间关系的强弱程度，再进行模型的训练。

以上内容主要讲解了图嵌入的理论知识及其在人岗匹配方面的具体实践应用。除了极大促进人力资源行业发展以外，图嵌入还在很多领域取得相当成就，我们期待图嵌入能在更多领域、更深层次发挥更重要的作用。

参考文献：

[1]Perozzi B, Al-Rfou R, Skiena S. DeepWalk: Online Learning of SocialRepresentations[J]. arXiv preprint arXiv:1403.6652, 2014.

[2]Tang J, Qu M, Wang M, et al. Line: Large-scale information networkembedding[C]//Proceedings of the 24th international conference on world wideweb. International World Wide Web Conferences Steering Committee, 2015:1067-1077.

[3]Grover A, Leskovec J. node2vec: Scalable feature learning fornetworks[C]//Proceedings of the 22nd ACM SIGKDD international conference onKnowledge discovery and data mining. ACM, 2016: 855-864.

[4]Wang D, Cui P, Zhu W, et al. Structural Deep Network Embedding[C]. knowledgediscovery and data mining, 2016: 1225-1234.

[5]Wu, L., Fisch, A., Chopra, S., Adams, K., Bordes, A., & Weston, J. (2017).StarSpace: Embed All The Things! arXiv preprint arXiv:1709.03856

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

利用Graph Embedding提升人岗匹配的效果

推荐阅读更多精彩内容