猿学－数据特征分析（统计量分析）

对于成功的数据分析而言，把握数据整体的性质是至关重要的，使用统计量来检查数据特征，主要是检查数据的集中程度、离散程度和分布形状，通过这些统计量可以识别数据集整体上的一些重要性质，对后续的数据分析，有很大的参考作用。

一，基本统计量

用于描述数据的基本统计量主要分为三类，分别是中心趋势统计量、散布程度统计量和分布形状统计量。

1，中心趋势统计量

中心趋势统计量是指表示位置的统计量，直观地说，给定一个属性，它的值大部分落在何处？

（1）均值

均值（mean）又称算数平均数，描述数据去指导额平均位置，数学表达式：均值 = ∑x / n；

有时，一组数据中的每个值可以和一个权重Wi相关联，权重反映的的是依附值的重要性或出现的频率，这种均值称作加权均值 = ∑xw / n；

尽管均值是描述数据集中心趋势的最有用的统计量，但是，它并非总是度量数据中心的最佳方法，这是因为，均值对极端值（离群点）很敏感。为了抵消少数极端值的影响，我们可以使用截尾均值，截尾均值是指丢弃极端值后的均值。

（2）中位数

对于倾斜（非对称）的数据，能够更好地描述数据中心的统计量是中位数（median），中位数是有序数据值的中间值，中位数可避免极端数据，代表这数据总体的中等情况。例如：从小到大排序，总数是奇数，取中间的数，总数是偶数，取中间两个数的平均数。

（3）众数

众数（mode）是变量中出现频率最大的值，通常用于对定性数据确定众数，例如：用户状态（正常，欠费停机，申请停机，拆机、消号），该变量的众数是 “正常” 则是正常的。

2，表示数据离散程度的统计量

度量数据离散程度的统计量主要是标准差和四分位极差。

（1）标准差（或方差）

标准差用于度量数据分布的离散程度，低标准差意味着数据观测趋向于靠近均值，高标准差表示数据散步在一个大的值域中。

（2）四分位极差

极差（range），也称作值域，是一组数据中的最大值和最小值的差， range = Max - Min。

百分位数（quantile）是把数据值按照从小到大的顺序排列，把数据分成100份。中位数是数据的中间位置上的数据，第一个四分位数记作Q1，是指第25个百分位上的数据，第三个四分位数记作（Q3），是指第75个百分位上的数据。

四分位极差（IQR）= Q3 - Q1 ，IQR是指第一个四分位和第三个四分位之间的距离，它给出被数据的中间一半所覆盖的范围，是表示数据离散程度的一个简单度量。

3，表示分布形状的统计量

分布形状使用偏度系数和峰度系数来度量，

偏度是用于衡量数据分布对称性的统计量：通过对偏度系数的测量，我们能够判定数据分布的不对称程度以及方向。

对于正态分布(或严格对称分布)偏度等于0

若偏度为负，则x均值左侧的离散度比右侧强；

若偏度为正，则x均值左侧的离散度比右侧弱；

峰度是用于衡量数据分布陡峭或平滑的统计量，通过对峰度系数的测量，我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。

正态分布的峰度为3，

当时间序列的曲线峰值比正态分布的高时，峰度大于3；

当比正态分布的低时，峰度小于3。

（1）偏度系数

偏度系数反映数据分布偏移中心位置的程度，记为SK，则有 SK= (均值一中位数)/标准差。偏度系数是描述分布偏离对称性程度的一个特征数。

正态分布的偏度为0，偏度<0称分布具有负偏离（左偏态），此时数据位于均值左边的位于右边的多，有个尾巴拖到左边，说明左边有极端值，偏度>0称分布具有正偏离（右偏态）。偏度接近如于0 ，可认为分布对称。例如：知道分布有可能在偏度上偏离正态分布，则可用偏度来检验分布的正态性。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

（2）峰度系数

峰度系数（Kurtosis）用来度量数据在中心聚集程度，记为K，描述总体中所有取值分布形态陡缓程度的统计量(与正态分布比较,，就是正态分布的峰顶)。

例如：正态分布的峰度系数值是3，K>3的峰度系数说明观察量更集中，有比正态分布更短的尾部；K<3的峰度系数说明观测量不那么集中，有比正态分布更长的尾部。

峰度系数公式是：

示例，本文使用vcd包中的Arthritis数据集来演示如何进行统计量分析：

head(Arthritis)

ID Treatment Sex Age Improved57Treated Male27 Some46Treated Male29 None77Treated Male30 None17Treated Male32 Marked36Treated Male46 Marked23Treated Male58Marked

其中变量Improved和Sex是因子类型，ID和Age是数值类型。

二，集中趋势度量

集中趋势通过均值、中位数和众数来度量。

1，均值

均值是所有数据的平均值，使用mean()函数来计算向量的均值：

age.mean <- mean(Arthritis$Age)

有时，为了反映在均值中不同成分所占的权重，为数据中的每个元素Xi 赋予一个权重Wi，这样就得到了加权平均值，使用weighted.mean(x,w)来计算加权平均值。

weighted.mean(x,w)

x为数据向量，w为权重向量，x中每一个元素都对应w中的一个权重值。

根据Sex来设置权重（weight），男性的Age的权重为95%，女性的Age的权重为105%，那么得到的加权平均值是：

age.wt <- ifelse(Arthritis$Sex=="Male",0.95,1.05)

age.wt.mean <- weighted.mean(Arthritis$Age,age.wt)

如果数据中存在极端值或者数据是偏态分布的，那么均值就不能很好地度量数据的集中趋势，为了消除少数极端值的影响，可以使用截断均值或者中位数来度量数据的集中趋势。截断均值是指去掉极端值之后的平均值。

2，中位数

中位数是把一组观察值从小到大按顺序排列，位于中间的那个数据。使用median(x)计算中位数。

age.median <- median(Arthritis$Age)

3，众数

众数是指数据集中出现最频繁的值，众数常用于定性数据。R没有标准的内置函数来计算众数，因此，我们将创建一个用户自定义函数来计算数据集的众数。

该函数以向量作为输入，以众数值作为输出。

getmode <-function(v) { uniqv <- unique(v)

uniqv[which.max(tabulate(match(v, uniqv)))]

}

三，离中趋势度量

衡量离中趋势的四个度量值：

值域（Range）的计算公式：Range = Max - Min

标准差：度量数据偏离均值的程度

变异系数（CV）：变异系数度量标准差相对于均值的离中趋势，计算公式是：CV=标准差/均值

四分位数间距（IQR）是上四分位数QU和下四分位数QL之差，其间包含全部观察值的一般，其值越大，说明数据的变异程度越大，离中趋势越明显。

查看Arthritis数据集的离中趋势：

get_stat <-function(v){ v.mean <-mean(v) v.median <-median(v) v.range <- max(v)-min(v) v.sd <-sd(v) v.cv <- v.sd/v.mean v.iqr <- quantile(v,0.75) - quantile(v,0.25) d.stat <- data.frame(mean=v.mean,median=v.median,range=v.range,sd=v.sd,cv=v.cv,iqr=v.iqr, row.names = NULL)

}

mystat <- get_stat(Arthritis$Age)

四，偏度和峰度

基础安装包中没有提供计算偏度和峰度的函数，用户可以自行添加：

mystats <- function(x, na.omit=FALSE){

if (na.omit)

x <- x[!is.na(x)]

m <- mean(x)

n <- length(x)

s <- sd(x)

skew <- sum((x-m)^3/s^3)/n

kurt <- sum((x-m)^4/s^4)/n -3return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))

}

myvars <- c("mpg","hp","wt")

sapply(mtcars[myvars], mystats)

为大家推荐一篇文章：关于偏度与峰度的一些探索，引用该文中的峰度影响实验的结论：

尾部或离群点对峰度影响为正向，且影响程度最大。而高概率区对峰度影响也为正向，但是比较少；而山腰位置，中等概率区域则影响为负向。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

猿学－数据特征分析（统计量分析）

推荐阅读更多精彩内容