date: 2019-03-13 17:11:37
title: 读书笔记| 面向数据科学家的实用统计学
- 系统梳理数据科学中重要的统计学概念, 演示统计学方法在数据科学中的应用
- github: https://github.com/andrewgbruce/statistics-for-data-scientists
- R Tutorial: http://www.r-tutor.com/
mind
- 老生常谈, 关注「原书名」, 可以帮助你很好的了解这本书到底要讲啥: 「Practical Statistics for Data Scientists: 50 Essential Concepts」
- 关于术语: 数据科学 = 统计学 + 计算机科学 + 信息技术 + 一些特定领域的研究, 「术语满天飞」是常态, 而我一向的观点认为 -- 术语是一道无形的墙, 看似很难, 实则只是「知道就很简单, 不知道以为很难」. 同时, 它们也代表着这个领域的知识储备.
- 数据科学从业者的参考书: 实用统计学术语 + 数据挖掘行为和实践. 同理, 非数据科学从业者, 更多的是了解概念, 加深对数据科学的印象, 以及尝试 run 一下示例.
- 代码使用 R 语言: 语言都是图灵完备的, R 语言能实现的, 作为数据分析的大户 Python 语言也一定可以. 但是能熟练使用 R 语言的人就不那么多了. 虽然 docker run 一个 R 语言环境很简单, 面对起代码来还是有 「熟悉度」 带来的不小障碍
note
本书并非又一本统计学教程, 也不是机器学习手册. 它运用清晰的解释和丰富的示例, 将实用的统计学术语与当下的数据挖掘行为和实践联系起来. 对数据科学从业者来说, 这都是一本非常出色的参考书.
- 为什么探索性数据分析是数据科学关键的第一步
- 随机抽样如何降低偏差, 生成高质量数据集
- 实验设计原则如何针对问题生成确定性答案
- 如何使用回归方法估计结果并检测异常
- 用于预测记录所属类别的主要分析分类方法
- 从数据中「学习」的统计机器学习方法
- 从未标记数据中提取有意义信息的无监督学习方法
如果你不知道自己在寻找什么, 那么努力寻找吧, 终会发现它. -- Yogi Berra
为此, 人们提出了统计假设检验方法, 目的是使研究人员免受随机性的愚弄.
正则化是一种通过修改的代价函数去 「惩罚」 模型复杂度(联想一下奥卡姆剃刀原理)的技术.
均值回归现象
女士品茶 -- 费舍尔 -- 数理统计学简史(数理统计学史上相对有趣的故事)
提出假设 -> 设计实验 -> 收集数据 -> 推断/结论
朴素贝叶斯算法
冷启动问题
EDA, 探索性数据分析
estimate 估计量
metric 度量
EX
统计学习基础: 数据挖掘/推理和预测
统计学习基础 ed2
统计学习导论: 基于 R 应用
数据挖掘: 实用机器学习工具与技术
数理统计学简史
百万大决定: 世界是如何运作的?
PS: 还有许多论文 , 由于没有受过专门的研究训练, 对论文的处理能力还处在捉襟见肘阶段, 只罗列了部分参考书籍.