子群划分

随机漫步(Random Walk)

随机漫步是一种数学统计模型,它是一连串的轨迹所组成,其中每一次都是随机的,它能用来表示不规则的变动形式,通常假设随机漫步是以马尔可夫链或马可夫过程的形式出现的。随机漫步社群发现的思想是假设一漫步者在一个社区(图)里随机游走,漫步者可能被困在连接稠密的区域里(想象一下初次进入一个道路错综复杂的街区),漫步者很容易被“困”(trapped)在里面,这个稠密区域就是漫步者发现的社群。根据图的属性,定义节点和社群之间的结构相似度进行度量漫步者的“行为”,这种相似度是一种可计算的、高效的距离相似度,这样就可以利用合并层次聚类方法建立社区的层次结构,也就是社区结构。可以利用从i点走向(连接,边)j点的概率定义距离相似度(概率距离),若i和j在同一社群里,概率相对比较高。这种算法最坏情况下的计算复杂度为O(mn^2),m为图的边,n为图的节点。

在此处我尝试了游走步长为2、3、4、5、6这五种情况。

贪婪法(fast greedy)

没找到什么资料,只说参考自:[Finding community structure in very large networks](http://www.arxiv.org/abs/cond-mat/0408187 for the details)

标签传播算法(Label propagation)

标签传播(label propagation)算法是一种近线性算法,其复杂度只有O(km),k为迭代次数,通常情况下k<<m,通过5次迭代95%的节点可以够达到最终类别。算法的基本思想是:每个节点的社群归属即标签由相邻节点的标签决定,相邻节点的最大数的标签即为该节点的标签;可以理解为由邻居投票,和票数多的在一起。初始化时,给每个节点一个独特的标签(类似层次聚类合并算法的初始化),通过标签的传播,密集连接的节点对一个特殊的标签迅速达成共识,这些密集的节点迅速的扩张,直至这些具有相同的标签的节点组成一个社群。这个过程通过迭代完全,同步迭代方式只依赖于上一轮的迭代,异步迭代方式还包含已经更新完成的节点。但是,此算法不保证收敛,需要添加一些限定条件才能保证收敛,一种简单的方法是迭代几次之后随机地断开。如果初始化时,事先标注一些社群的中心节点,是一种不错的方法。

自旋玻璃(Spin Glass)

自旋玻璃是一个物理概念,是一些物理材料的一种状态,代表一种无序的状态。自旋玻璃模型可分为有限维系统、随机有限维连通系统和完全连通系统,如果把社会网络看成一个随机网络场,在一些假设条件下,社会网络可近似于随机有限维连通系统,就可以利用自旋玻璃模型的一些特性来发现和解释社群。对于网络中的一个节点,与其他节点的连接和缺省的连接可看作磁性材料的磁性相互作用和反磁性相互作用,两种相互作用形成一个能力函数,当能量函数最小时,社会网络的层次结构被解释为旋转配置,此时网络内部的组别(聚类)可看作自旋系统的状态,划分组别或网络层次的过程是一个i聚类过程。

模块度最大化(Modularity Community)

模块度最大化算法起源于Newman & Girvan [2004]提出的分割质量的测量标准。他假设随机图不应该有群体结构,所以可以通过比较实际的节点密度与随机图中的节点期望密度里验证群体的存在。优化目标:Q = (群体中存在的节点数) − (群体中期望存在的节点数)。应用聚合技术迭代合并节点组组成更大的群体,使模块度在合并后提升。

  1. 券妈妈上抓取800个左右的电商实体名
  2. 在所有的候选词内查找这800个电商名,共查找到178个,记为集合NE
  3. 采用上述的各个子群划分算法,对候选词进行子群划分
  4. 找到包含有京东的那个子群,记录其包含节点的数量,记为Size
  5. 在这个子群里面查找我们上面得到的NE,记录查找到的数目,记为Find
  6. 定义Recall = Find/178,若子群划分得好,那么该子群应该包含所有的NE,共178个,则Recall=1。否则说明有些电商名被划分到其他子群中了,故Recall越大越好

定义F = Recall/Length作为评价各个子群算法的标准,作散点图如下

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容