1、数据分析
了解:数据往往以表格的形式进行展示
行:每条记录
列:属性
* 字段 经过转化后变成 特征
2、数据处理流程(5步骤)
(1)数据获取
(2)探索分析(有时也可以用在产出中)
作用:加强对数据的了解,通过可视化的手段进行可视化报告的形式展示,例如tableau和kibana(es库)
(3)预处理
涉及:特征工程
其他:支持建模、数据清洗去除杂质
(4)建模分析
(5)模型评估
- 相关职位:
前两步 -> 数据分析
后三步 -> 数据挖掘、数据建模
重预处理 ->数据开发工程师
3、数据分类(目标不同,有对比过程)
所有的记录 => 数据
包含信息的记录 => 有用的数据
-
分4个大类
定类数据:表示一些类别,无大小之分
定序数据:有大小之分,但无法衡量之间大小的具体差距
定距数据:有大小之分,有衡量,没有零点(例,10摄氏度),倍数关系无意义
定比数据:有大小之分,有衡量,有零点
4、数据获取(一般方式)
(1)调查数据 / 问卷等 => 抽样
(2)抓取 / 接口(例:高德开放平台)
前端——分布式运行,涉及页面等展示
后端——服务器:应用端 和 数据端
|____________逻辑运算(第5层http协议)
(3)日志 / 埋点
用户行为记录信息
(4)数据仓库
数据:历史上完整记录
引申:数据库 与 数据仓库 的不同点(例:调用信息 -> 从数据库)
①中的数据使用是相对比较高频的,②的数据使用频率较低;
①面向应用的,②面向分析的(Oracle\Hive\MaxCompute;
①的实用性要求较高,②实时性要求较低。
5、数据仓库——>数据集市
-
分三层
(1)DWD(Data Warehouse Detail)细节数据层
(2)DWB(Data Warehouse Basic)基础数据层
(3)DWS(Data Warehouse Service)服务数据层
目的:希望分析的表越少越好,即存成一张 宽表
提问:为什么不一开始就存成 宽表 呢?
原因:
①不知道宽表什么样,业务需求具体提出时再拿进来用
②冗余存取,成本高