【社团发现】简介

社团发现,又名社区发现、社团检测等,英文名community detection. 是一种传统的聚类算法。
从Girvan和Newman 于2002年提出的分裂算法,社团发现应该有20年的历史了。相对于bert等神经网络算法,社团发现已经研究20几年了,但是相对于70多年的某数值模拟学科,它又是比价新的领域。

社团在历史上有很多方面的优化:

  1. 社团度量 + 最优解
  2. 切、聚
  3. 样本表征(降维、embedding)
  4. 减少计算复杂度(因为样本很大)
  5. 重叠社团

目前的主要方式是三步:数据 -> 邻接矩阵 -> 聚类。相应的有许多方法,下面简单介绍几个的。

1. 表征

1.1 SBM

https://zhuanlan.z**u.com/p/485607150
https://arxiv.org/pdf/2101.01669.pdf

SBM是一个传统的图生成模型,认为每个节点从属于不同的社区,每个社区之间的节点会以不同的概率相连接,由此生成一张图,这就是它基本的思想。他可以用于社区检测,图聚类,主题建模等任务。


SBM.png

1.2 LDA

LDA(线性判别分析)本质是有监督的正交变换,通过对数据集的旋转+投影(降维)让不同的类别聚在一起。

1.3 非负矩阵分解

NMF(Non-Negative Matrix Factorization)也是降维表征。

factor.png

3.2 Spectral Clustering

4. 标签传播

4.1 Label Propagation Algorithm(LPA)

可以做无监督、也可以做半监督。


lpa.png

4.2 SLPA

https://blog.***.net/itplus/article/details/9286905
与LPA相比,记录每一个节点在刷新迭代过程中的历史标签序列(例如迭代 T 次,则每个节点将保存一个长度为 T 的序列),当迭代停止后,对每一个节点历史标签序列中各(互异)标签出现的频率做统计,按照某一给定的阀值过滤掉那些出现频率小的标签,剩下的即为该节点的标签(通常有多个)。

5. 模块度启发

5.1 Louvain

Louvain.png

5.2 Leiden

由Louvain改进过来的,多了refine过程,保证社团内部是连通的。本质上由于模块度寻优算法是个np问题,需要通过搜索来确定最优解,目前通过贪婪方式获取每一步更优,直到最优,有可能不是最优解。所以搜索方式是优化的一个点。Leiden在这个方面更优。

Leiden.png

6. 隶属度吸引度启发

6.1 近邻传播(AP)聚类算法

ap.png

7. infomap

对图里的节点随机采样出一个序列,按顺序依次尝试将每个节点赋给邻居节点所在的社区,取平均比特下降最大时的社区赋给该节点,如果没有下降,该节点的社区不变。(启发式)

8. 谱聚类(spectral clustering)

https://www.c***blogs.com/sparkwen/p/3155850.html
谱聚类能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。为切算法。

问题

  1. 算法很多,但是可能我用的不好,实际用的效果都不咋好,特别是一些特定领域。
  2. 算法没有继承性,有些算法提出后就放到那儿了,没有继续优化出非常优的算法(也可能都是没发现)。这么看模块度启发那块儿算是比较好的了,一直在发展。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容