对数据集进行分组并对各组应用一个函数(聚合或者转换),是数据分析工作重要环节。数据集准备好之后,就是计算分组统计或生成透视表。 pandas提供了一个灵活高效的groupby...
正方形代表判断模块(decision block) ,椭圆代表终止模块(terminating block),表示已经得到结论,可以终止运动。 决策树的优势在于数据形式容易理...
机器学习实战之K-近邻算法(二) 2-1 K-近邻算法概述 简单的说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 K-近邻算法 优点:精度高、对异常值不敏感、无数...
目录 机器学习简单概述 机器学习的主要任务 学习机器学习的原因 python语言优势 1.1 何谓机器学习 简单的说,机器学习就是把无序的数据变换成有用的信息。 机器学习的主...
5.3汇总和计算描述性统计 pandas对象拥有一组常用的数学和统计方法。他们大部分都属于约简和汇总统计,用于从Series中提取单个值(如mean或sum)或从DataFr...
7.4.2 正则表达式 正则表达式(regex)提供了一种灵活的在文本中搜索或匹配字符串模式的方式。 正则表达式是根据正则表达式语言编写的字符串。 re模块的函数可以分为三类...
目录: 5.1 pandas 的数据结构介绍 5.1.1 Series 5.1.2 DataFrame 5.1.3索引对象 5.2基本功能 5.2.1重新索引 5.2.2丢弃...
书中源码与数据集http://github.com/pydata/pydata-book 目录 6.1 读写文件格式的数据 6.2 二进制数据格式 6.3 使用 html 和...
数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换、重塑。是因为,多数时候存放在文件或数据库中的数据不能满足你的数据处理应用的要求。 7.1 合并数据集 ...
7.3 数据转换 还有一个重要操作就是 过滤、清理、以及其他的转换工作。 7.3.1 移除重复数据 DataFrame有时候会出现重复的行: In [27]: data=Da...
(一)给出这些指标的基本定义 我们先对数据基础指标的各个名词做个解释,其实我压根不懂这些名词啥意思。 给出百度百科的链接:http://baike.baidu.com/ite...
数据分析和统计方法论 数据分析的应用综述 统计学知识 ·统计图形:以直方图为代表 ·统计特征:以方差和均值为代表 ·典型分布及应用:以正态分布为代表 ·推断统计(从已知到未知...