非监督学习之——降维(t-SNE)

PCA是线性降维,它不能解释特征之间的复杂多项式关系。 因此还有一些非线形降维算法,例如:T-SNE、UMAP、SOM、LLE等等。

t-SNE本质上来说就是要找到一个投影方法,使得降维后,数据之间的分团信息得以保存。

首先,它将通过选择一个随机数据点并计算与其他数据点(|x—x|)的欧几里得距离来创建概率分布。 从所选数据点附近的数据点将获得更多的相似度值,而距离与所选数据点较远的数据点将获得较少的相似度值。 使用相似度值,它将为每个数据点创建相似度矩阵(S1)

其次,它将根据正态分布将计算出的相似距离转换为联合概率。

通过以上的计算,t-SNE将所有数据点随机排列在所需的较低维度上。

然后,t-SNE将再次对高维数据点和随机排列的低维数据点进行所有相同的计算。但是在这一步中,它根据t分布分配概率。这就是名称t-SNE的原因。t-SNE中使用t分布的目的是减少拥挤问题

最后,对于较低维的数据点,还将创建一个相似度矩阵(S2)。然后该算法将S1与S2进行比较,并通过处理一些复杂的数学运算来使S1与S2之间有所不同。包括使用两个分布之间的Kullback Leibler散度(KL散度)作为损失函数运行梯度下降算法。使用KL散度通过将两个分布之间相对于数据点位置的值最小化,帮助t-SNE保留数据的局部结构。

算法步骤:
第一步:计算数据集中每行与其他行的距离(默认为欧氏距离),转为概率。


t-SNE对某一行计算转化得到概率向量

第二步:对每一行重复操作,得到概率矩阵。


t-SNE对每一行得到的概率矩阵热力图

第三步:沿两条新轴用学生氏分布(t分布)对数据随机化。


t-SNE的t分布随机化

第四步:逐渐迭代,通过最小化KL divergence,使得二维空间的新概率矩阵尽可能接近原高维空间的。


t-SNE 类引力与斥力效应的迭代

基于R的t-SNE实现

例:对USArrests数据,使用t-SNE降维

#加载包
library(Rtsne)

#由于四个变量的量纲不统一,不方便进行运算,先进行标准化处理
USArrests_scale <- as_tibble(scale(USArrests, scale=TRUE))
#将标准化后的数据使用t-SNE算法进行降维
noteTsne <- Rtsne(USArrests_scale, perplexity = 7, theta = 0, max_iter = 1000, eta = 300, verbose = T)

参数说明:

  1. dims:参数设置降维之后的维度,默认值为2;
  2. perplexity(困惑度):控制距离转化为概率的分布。越小越关注局部结构,越大越关注全局结构。简单来说,就是最后分簇后,每个簇包含的数据数量。越小分的簇越多,越大分的簇越少。参数的取值必须小于(nrow(data) - 1 )/ 3;
  3. theta:参数取值越大,结果的准确度越低,但计算速度会提高,反之,越小越精确,计算速度越慢。默认值为0.5;
  4. max_iter:参数设置最大迭代次数,默认1000
t-SNE 调整perlexity 和 theta 的效果
t-SNE 调整 eta 和 max_iter 的效果

可视化数据,观察降维后的效果:

#先将四个变量放到同一列,这样便于画图和比较
USArrestsTSNE <- USArrests_scale %>% 
  mutate(tSNE1 = noteTsne$Y[,1], tSNE2 = noteTsne$Y[,2]) %>% 
  pivot_longer(1:4, names_to ="Variable", values_to = "Value")

#画图
ggplot(USArrestsTSNE, aes(tSNE1, tSNE2,col=Value)) +
  facet_wrap(~ Variable) +
  geom_point(size = 1) +
  scale_color_gradient(low = "dark blue", high = "cyan") +
  theme_bw()

t-SNE的特点:

优点:

  • 相较于正态分布,使用t分布能更好地分散可能的数据簇,更易识别;
  • 分类效果往往胜过PCA。

缺点:

  • t-SNE在低维容易保持局部结构,不易保留全局结构。
  • 计算费时,计算时间随簇数显著增加。
  • 无法像PCA一样投影新数据。
  • 簇间距离意义不大。

【参考文献】:

  1. t-SNE的通俗易懂解释
  2. t-SNE分析的原理
  3. t-SNE:可视化效果最好的降维算法
  4. t-sne数据可视化算法的作用是啥?为了降维还是认识数据?
  5. 数据可视化降维:PCA vs TSNE vs UMAP
  6. 从SNE到t-SNE再到LargeVis
  7. 有关t-SNE的小技巧
  8. How to Use t-SNE Effectively
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,968评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,682评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,254评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,074评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,964评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,055评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,484评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,170评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,433评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,512评论 2 308
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,296评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,184评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,545评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,150评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,437评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,630评论 2 335

推荐阅读更多精彩内容