Python学习笔记-3群18组-杜杜狼-2017.8.1

What a heck! 终于开始学习数据挖掘实战课程了！！！

Lesson 2 数据挖掘概况

数据挖掘（data mining），指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的，且有价值的信息和知识的过程。
数据挖掘是人们处理商业问题的某些方法，我们通过它来获得有价值的结果

模型
定量：数学公式 e.g. Y = a*X
定性：规则 e.g. (年龄>30岁 and 收入>1万元)

算法
实现数据挖掘技术、模型的具体步骤与方法

Lesson 3 数据挖掘常见问题

从商业角度，需要解决哪些问题？

用户流失预测（分类问题）
促销活动响应（分类问题）
目标市场细分（聚类问题）
交叉销售提升（关联问题）
未来销量预测（预测问题）

分类问题

分类型目标变量（Y） -- 有监督学习
使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类

常见分类方法：决策树，贝叶斯，KNN, 支持向量机，神经网络，逻辑回归
解决的商业问题：预测用户流失，促销活动响应，用户信用评估

聚类问题

无分类目标变量（Y） -- 无监督学习
物以类聚思想

常见分类方法：划分聚类，层次聚类，密度聚类，网格聚类，基于模型聚类
解决的商业问题：目标市场细分，指定营销发展策略
现有客户细分

关联问题，又称购物篮问题

无目标变量（Y）
基于数据项关联，描述数据项之间的密切程度，识别频繁发生的模式
解决的商业问题：哪些商品同时购买的几率高，如何提高商品销售和交叉销售

预测问题

数值型目标变量（Y）-- 有监督学习
需有已知目标值的历史样本来训练模型
对未知的样本预测其目标值
常见预测方法：简单线性回归分析，多重线性回归分析，时间序列
解决的商业问题：未来气温预测，GDP增长预测，收入、用户数预测

Lesson 4 数据挖掘流程

CRISP-DM数据挖掘方法论

商业理解

确定商业目标（商业背景，成功标准）
确定挖掘目标（相关数据统计口径，数据时间窗口成功标准）
制定项目方案（项目计划，确定建模工具，选用算法）

数据理解

数据收集：形成收集报告
数据描述：求均值，最大值，最小值等，形成数据描述报告
数据探索：形成直方图
质量描述：形成数据质量报告

数据准备（数据宽表，又称一维表）

数据导入
数据抽取
数据清洗（缺失，重复，异常）
数据合并（记录合并，字段合并，字段匹配）
变量计算（求均值，占比，标准化值

模型构建

准备模型的训练集和验证集
选择并使用建模技术和算法
建立模型
模型对比（调整参数）

模型评估

技术层面：设计对照组进行比较，评估指标：命中率，覆盖率，提升度
业务经验

模型部署

营销过程跟踪记录
观察模型衰退变化
引入新的特征优化模型
模型写成程序固化到平台

Lesson 5 文本挖掘

语料库（Corpus）

要分析的所有文档的集合

语料库的构建

构建方法

os.walk(fileDir)
#fileDir是文件夹路径

文件读取

codecs.open(filePath, method, encoding)
#filePath: 文件路径
#method: 打开方式，r, w, rw
#encoding: 文件的编码，中文文件使用UTF-8编码打开

最后编辑于：2017.12.09 16:08:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,340评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,762评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,329评论 0赞 329
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,678评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,583评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,995评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,493评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,145评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,293评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,250评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,267评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,973评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,556评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,648评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,873评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,257评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,809评论 2赞 339