一、统计学的意义
为我们提供了一个审视世界的角度,这种角度独一无二。统计学是衡量我们看法是否准确的标尺,是判断我们观念是否正确的试纸。数据的收集、整理只是基础,数据的呈现(可视化)才是最重要的。统计学为一个理性、客观的世界打开了大门。
二、描述统计分析的4个指标
1、平均值:
优点:计算简便;
缺点:出现异常极值的时,平均值结果是不准确的。
2、四分位数:也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。
计算方法:第一步,先计算中位数(Q2);第二步,求下四分位数,上四分位数;
四分位数位置的确定:有两种方法:
第一种:n+1 n表示项数
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
第二种:n-1 n表示项数
Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75
优点:从整体上描述出数集的分布状态;
缺点:不能反应数据值的波动。
四分位的应用:箱线图;
k识别出可能的异常值:Tukey's test。
3、标准差:衡量数据的波动大小。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
标准差的单位与相应计算数据的单位相同;
标准差是大一点好还是小一点好取决于用标准差需要解决的具体问题,如生产机器的标准零件标准差小一点好,如果是研究一家大公司的薪资,标准差大一点比较好。
标准差能表示数据整体的波动,但是它有个缺点:如果两个数据差别比较大,那么就无法比较。如果能用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。
4、标准分:表示某个数值距离平均值多少个标准差。
三、数据集
1、熟悉数据集
数据来源:阿里巴巴天池https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
选择的数据集:天猫和淘宝购买婴儿商品用品的数据集,分别为表1购买商品,表2婴儿信息。
表1购买商品信息:
用户ID:天猫和淘宝注册的用户ID,此字段为用户唯一识别码。
商品编号:商品的唯一识别码
商品二级分类:商品种类ID
商品一级分类:商品种类ID
(商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)
商品属性:描述商品特征的一切,如材质、颜色、适用年龄、大小等。
购买数量:单次购买量
购买时间:可以通过excel将时间戳显示未日期格式
表2婴儿信息表:
用户ID:天猫和淘宝注册的用户ID,此字段为用户唯一识别码。
出生日期:婴儿出生日期,可以用公式转换成婴儿的年龄
性别:0-男性,1-女性,2-未知,可以分析出性别对对用户的购买商品行为。
2、你想从该数据集中分析哪些业务问题
(1)、不同年龄不同性别的婴儿对于用户购买行为有什么影响?
(2)、季度对用户购买行为有什么影响?