理解一门学问,最重要的是先搭建起框架。框架就犹如是房屋的梁和柱,只有框架搭得稳,才能扎根牢、立得住。
数据分析技能的框架,可以归为以下:
采集(数据获取)——清洗(数据整理)——探索——分析——建模——展示
这是按照数据从产生到最后产生价值的流程进行的归纳总结。
本质上讲,数据分析工作的实质就在于利用各种工具(领域知识、数据知识、计算机知识),加工数据,产生商业价值。
采集
数据来源
埋点上报
什么是埋点
埋点的作用
埋点开发流程
互联网资源
工具:爬虫
什么是爬虫
爬虫工作流程
清洗
Hadoop生态及其组件
HDFS
block
MapReduce
streaming
WordCount Example
combiner/partitioner/comparator
提交streaming任务
Yarn
Hive
DDL 和 DML
正则解析器
Views
UDF
优化
Partitioning/Bucketing/Sampling
Map-side Join
Data Skew
Compression
Spark
RDD
Transformation
Action
广播变量与累加器
DataFrame
过滤
Fuctions
聚合
Join
用户自定义函数
时间处理
窗口函数
优化
Shuffle
Optimizing Joins
持久化
资源分布
动态分布
内存管理
部署环境
探索
常见统计指标
集中趋势
分散趋势
形态度量
特征相关性
异常值检验
常用图表
散点图
箱型图
小提琴图
分析
分析思路
提出假设
多维拆解
路径分析
数据验证
建模
机器学习的数学基础
线性代数
矩阵运算
矩阵LU分解
四个基本子空间
矩阵投影
行列式
特征值
奇异值分解
概率论
随机变量
离散型随机分布:两点、二项、泊松
连续性随机分布:均匀、指数、正态
多元随机变量极其分布
边缘分布
条件分布
独立性
大数定理与中心极限定理
抽样分布理论
抽样分布
参数估计
极大似然估计
微积分
梯度、偏导数
链式法则
拉格朗日乘法
泰勒展开
监督学习
常见算法
逻辑回归
朴素贝叶斯
SVM
决策树
K近邻
提升方法
EM
机器学习理论基础
霍夫丁不等式
VC dimension
有噪音情况下的学习
非监督学习
聚类
K-means
混合高斯分布
特征缩放
特征选择
特征转化
PCA
ICA
RCA
强化学习
马尔科夫决策
Q-learning
深度学习
工程基础
python基础
数据结构
控制语句
面向对象
pandas
numpy
scala基础
数据结构
控制结构
函数编程
集合操作
TensorFlow基础
基础结构
构建神经网络
过拟合
droppout
卷积神经网络
循环神经网络
LTSM
批标准化
展示
图表类型
单变量
二变量
多变量
绘图工具
matplot/seaborn