大师兄的数据分析学习笔记(九):特征工程
大师兄的数据分析学习笔记(十一):特征预处理(二)
一、数据清洗
1. 数据样本抽样
- 当数据样本很大或某些获取全量数据不现实的情况下,通过抽样可以以较小的失真为代价,方便地获得较为准确的统计结果。
- 抽样的注意事项如下:
- 样本要具备代表性,样本各个特征的比例应尽可能与整体的比例保持一致。
- 样本比例要平衡,如样本不平衡时应进行对应处理。
- 尽量考虑使用全量数据。
2. 异常值处理
- 在特征预处理中,异常值分析的目的是为模型建立打基础,所以采取的主要手段是将异常值丢弃和替换。
- 方法示例:
(1) 识别方法:
import os import pandas as pd df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv")) df.isnull() # 判断空值 df.duplicated() # 判断重复值
(2) 丢弃方法:
import os import pandas as pd df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv")) df.drop() # 丢弃值 df.dropna() # 丢弃空值 df.drop_duplicates() # 丢弃重复值
(3) 替换方法:
import os import pandas as pd df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv")) df.fillna() # 替代空值
二、标注
- 标注是目标属性,特征是其它相关属性,而建模的目的是为了建立目标属性和相关属性之间的关系。
- 标注通常是被关注但又不容易直接获得的属性。