数据分析之描述统计学

一、统计学的意义

为我们提供了一个审视世界的角度,这种角度独一无二。统计学是衡量我们看法是否准确的标尺,是判断我们观念是否正确的试纸。数据的收集、整理只是基础,数据的呈现(可视化)才是最重要的。统计学为一个理性、客观的世界打开了大门。

二、描述统计分析的4个指标

1、平均值:

优点:计算简便;

缺点:出现异常极值的时,平均值结果是不准确的。

2、四分位数:也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

计算方法:第一步,先计算中位数(Q2);第二步,求下四分位数,上四分位数;

四分位数位置的确定:有两种方法:

第一种:n+1  n表示项数

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

第二种:n-1 n表示项数

Q1的位置=1+(n-1)x 0.25

Q2的位置=1+(n-1)x 0.5

Q3的位置=1+(n-1)x 0.75

优点:从整体上描述出数集的分布状态;

缺点:不能反应数据值的波动。

四分位的应用:箱线图;

k识别出可能的异常值:Tukey's test。

3、标准差:衡量数据的波动大小。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

标准差的单位与相应计算数据的单位相同;

标准差是大一点好还是小一点好取决于用标准差需要解决的具体问题,如生产机器的标准零件标准差小一点好,如果是研究一家大公司的薪资,标准差大一点比较好。

标准差能表示数据整体的波动,但是它有个缺点:如果两个数据差别比较大,那么就无法比较。如果能用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。

4、标准分:表示某个数值距离平均值多少个标准差。

三、数据集

1、熟悉数据集

数据来源:阿里巴巴天池https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

选择的数据集:天猫和淘宝购买婴儿商品用品的数据集,分别为表1购买商品,表2婴儿信息。

表1购买商品信息:

用户ID:天猫和淘宝注册的用户ID,此字段为用户唯一识别码。

商品编号:商品的唯一识别码

商品二级分类:商品种类ID

商品一级分类:商品种类ID

(商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)

商品属性:描述商品特征的一切,如材质、颜色、适用年龄、大小等。

购买数量:单次购买量

购买时间:可以通过excel将时间戳显示未日期格式

表2婴儿信息表:

用户ID:天猫和淘宝注册的用户ID,此字段为用户唯一识别码。

出生日期:婴儿出生日期,可以用公式转换成婴儿的年龄

性别:0-男性,1-女性,2-未知,可以分析出性别对对用户的购买商品行为。

2、你想从该数据集中分析哪些业务问题

(1)、不同年龄不同性别的婴儿对于用户购买行为有什么影响?

(2)、季度对用户购买行为有什么影响?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,529评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,015评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,409评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,385评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,387评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,466评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,880评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,528评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,727评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,528评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,602评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,302评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,873评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,890评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,132评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,777评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,310评论 2 342