相关性分析 相关系数多少有意义?

在数据分析的问题中, 经常会遇见的一种问题就是相关的问题。

比如:抖音短视频的产品经理经常要来问留存(是否留下来)和观看时长, 收藏的次数, 转发的次数, 关注的抖音博主数等等是否有相关性, 相关性有多大。

因为只有知道了哪些因素和留存比较相关, 才知道怎么去优化从产品的方向去提升留存率

比如:如果留存和收藏的相关性比较大 那么我们就要引导用户去收藏视频, 从而提升相关的指标,

image

除了留存的相关性计算的问题, 还有类似的需要去计算相关性的问题。

比如淘宝的用户,他们的付费行为和哪些行为相关, 相关性有多大, 这样我们就可以挖掘出用户付费的关键行为。

这种问题就是相关性量化, 我们要找到一种科学的方法去计算这些因素和留存的相关性的大小。

这种方法就是相关性分析。

01

什么是相关性分析

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析(官方定义)

简单来说,相关性的方法主要用来分析两个东西他们之间的相关性大小。

相关性大小用相关系数r来描述,关于r的解读:(从知乎摘录)

(1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般:

|r|>0.95 存在显著性相关;

|r|≥0.8 高度相关;

0.5≤|r|<0.8 中度相关;

0.3≤|r|<0.5 低度相关;

|r|<0.3 关系极弱,认为不相关

(2)负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;

(3)无线性相关:r=0, 这里注意, r=0 不代表他们之间没有关系, 可能只是不存在线性关系。

下面用几个图来描述一下,不同的相关性的情况:

image

第一张图r=-0.92 <0 是说明横轴和纵轴的数据呈现负相关,意思就是随着横轴的数据值越来越大纵轴的数据的值呈现下降的趋势, 从r的绝对值为0.92>0.8 来看, 说明两组数据的相关性高度相关。

同样的, 第二张图 r=0.88 >0 说明纵轴和横轴的数据呈现正向的关系, 随着横轴数据的值越来越大, 纵轴的值也随之变大, 并且两组数据也是呈现高度相关。

02

如何实现相关性分析

前面已经讲了什么是相关性分析方法, 那么我们怎么去实现这种分析方法呢, 以下先用python 实现 :

1. 首先是导入数据集, 这里以tips 为例

import numpy asnpimport pandas aspdimport matplotlib.pyplot aspltimport seaborn assns%matplotlib inline## 定义主题风格sns. set(style= "darkgrid")## 加载tipstips = sns.load_dataset( "tips")

2. 查看导入的数据集情况

字段分别代表:

total_bill: 总账单数

tip: 消费数目

sex: 性别

smoker: 是否是吸烟的群众

day: 天气

time: 晚餐 dinner, 午餐lunch

size: 顾客数

tips.head # 查看数据的前几行

image

3. 最简单的相关性计算

tips.corr

image

4. 任意看两个数据之间相关性可视化,比如看 total_bill 和 tip 之间的相关性,就可以如下操作进行可视化

绘制图形,根据不同种类的三点设定图注 sns.relplot(x= "total_bill", y= "tip", data=tips); plt.show

image

从散点图可以看出账单的数目和消费的数目基本是呈正相关, 账单的总的数目越高, 给得消费也会越多。

5. 如果要看全部任意两两数据的相关性的可视化:

sns.pairplot(tips)

image

6. 如果要分不同的人群, 吸烟和非吸烟看总的账单数目total_bill和小费tip 的关系。

sns.relplot(x= "total_bill", y= "tip", hue= "smoker", data=tips)# 利用 hue进行区分 plt.show

image

7. 区分抽烟和非抽烟群体看所有数据之间的相关性,我们可以看到:

对于男性和女性群体, 在小费和总账单金额的关系上, 可以同样都是账单金额越高的时候, 小费越高的例子上, 男性要比女性给得小费更大方。

在顾客数量和小费的数目关系上, 我们可以发现, 同样的顾客数量, 男性要比女性给得小费更多。

在顾客数量和总账单数目关系上, 也是同样的顾客数量, 男性要比女性消费更多。

sns.pairplot(tips ,hue = 'sex')

image

03

实战案例

问题:

影响B 站留存的相关的关键行为有哪些?

这些行为和留存哪一个相关性是最大的?

分析思路:

  1. 找全与留存相关的行为

  2. 计算这些行为和留存的相关性大小

首先规划好完整的思路, 哪些行为和留存相关, 然后利用这些行为+时间维度 组成指标, 因为不同的时间跨度组合出来的指标, 意义是不一样的, 比如登录行为就有 7天登录天数, 30天登录天数

image

第二步计算这些行为和留存的相关性, 我们用1 表示会留存 0 表示不会留存

那么就得到 用户id + 行为数据+ 是否留存 这几个指标组成的数据

然后就是相关性大小的计算

import matplotlib.pyplot aspltimport seaborn assnsretain2 = pd.read_csv( "d:/My Documents/Desktop/train2.csv") # 读取数据retain2 = retain2. drop(columns=[ 'click_share_ayyuid_ucnt_days7']) # 去掉不参与计算相关性的列plt.figure(figsize=( 16, 10), dpi= 80)# 相关性大小计算sns.heatmap(retain2.corr, xticklabels=retain2.corr.columns, yticklabels=retain2.corr.columns, cmap= 'RdYlGn', center= 0, annot=True)# 可视化plt.title( 'Correlogram of retain', fontsize= 22)plt.xticks(fontsize= 12)plt.yticks(fontsize= 12)plt.show

image

图中的数字值就是代表相关性大小 r 值,所以从图中我们可以发现:

留存相关最大的四大因素:

  • 30天或者7天登录天数(cor: 0.66)
  • 30天观看品类个数(cor: 0.44)
  • 30天观看主播数 (cor: 0.37)
  • 30天日均观看时长(cor: 0.26)
    作者:YYloveYQ

转载自:DS数据科学之美

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容