What a heck! 终于开始学习数据挖掘实战课程了!!!
Lesson 2 数据挖掘概况
数据挖掘(data mining),指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的,且有价值的信息和知识的过程。
数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果
模型
定量:数学公式 e.g. Y = a*X
定性:规则 e.g. (年龄>30岁 and 收入>1万元)
算法
实现数据挖掘技术、模型的具体步骤与方法
Lesson 3 数据挖掘常见问题
从商业角度,需要解决哪些问题?
- 用户流失预测 (分类问题)
- 促销活动响应 (分类问题)
- 目标市场细分 (聚类问题)
- 交叉销售提升 (关联问题)
- 未来销量预测 (预测问题)
分类问题
分类型目标变量(Y) -- 有监督学习
使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类
常见分类方法:决策树,贝叶斯,KNN, 支持向量机,神经网络,逻辑回归
解决的商业问题:预测用户流失,促销活动响应,用户信用评估
聚类问题
无分类目标变量(Y) -- 无监督学习
物以类聚思想
常见分类方法:划分聚类,层次聚类,密度聚类,网格聚类,基于模型聚类
解决的商业问题:目标市场细分,指定营销发展策略
现有客户细分
关联问题,又称购物篮问题
无目标变量(Y)
基于数据项关联,描述数据项之间的密切程度,识别频繁发生的模式
解决的商业问题:哪些商品同时购买的几率高,如何提高商品销售和交叉销售
预测问题
数值型目标变量(Y)-- 有监督学习
需有已知目标值的历史样本来训练模型
对未知的样本预测其目标值
常见预测方法:简单线性回归分析,多重线性回归分析,时间序列
解决的商业问题:未来气温预测,GDP增长预测,收入、用户数预测
Lesson 4 数据挖掘流程
CRISP-DM数据挖掘方法论
- 商业理解
- 确定商业目标 (商业背景,成功标准)
- 确定挖掘目标 (相关数据统计口径,数据时间窗口成功标准)
- 制定项目方案(项目计划,确定建模工具,选用算法)
- 数据理解
- 数据收集:形成收集报告
- 数据描述:求 均值,最大值,最小值等,形成数据描述报告
- 数据探索:形成直方图
- 质量描述:形成数据质量报告
- 数据准备 (数据宽表,又称一维表)
- 数据导入
- 数据抽取
- 数据清洗(缺失,重复,异常)
- 数据合并 (记录合并,字段合并,字段匹配)
- 变量计算 (求均值,占比,标准化值
- 模型构建
- 准备模型的训练集和验证集
- 选择并使用建模技术和算法
- 建立模型
- 模型对比(调整参数)
- 模型评估
- 技术层面:设计对照组进行比较,评估指标:命中率,覆盖率,提升度
- 业务经验
- 模型部署
- 营销过程跟踪记录
- 观察模型衰退变化
- 引入新的特征优化模型
- 模型写成程序固化到平台
Lesson 5 文本挖掘
语料库 (Corpus)
要分析的所有文档的集合
语料库的构建
构建方法
os.walk(fileDir)
#fileDir是文件夹路径
文件读取
codecs.open(filePath, method, encoding)
#filePath: 文件路径
#method: 打开方式,r, w, rw
#encoding: 文件的编码,中文文件使用UTF-8编码打开