六月啦 好快
小李刚结束备考 是很久没有来更新了
最近在写课设报告,刚好记录一些数据处理的知识。
数据不平衡
概念解释:
对于二分类问题,如果两个类别的样本数目差距很大即呈现不平衡现象,那么将会影响模型的训练结果。以猫狗图片分类为例,假设猫的图片有990张,狗的图片有10张,这时候模型只需要把所有输入样本都预测成猫就可以获得99%的识别率,但这样的分类器没有任何价值,它无法预测出狗。
通常数据不平衡即指类别不平衡(class-imbalance),是分类任务中正负样本数目差距很大的情况。生活中有很多类别不平衡的例子,如工业产品次品检测,次品样本数目远小于正品样本;欺诈问题,欺诈类观测在样本集中也只占据少数。
数据不平衡的处理办法主要包含过采样和欠采样两大类。
欠采样
欠采样就是从大数目类别样本选取和小数目类别样本数目相当的样本,然后和少数目类别样本组成新的数据集,在新的数据集中正负样本比例相当。也就是从类别数量比较大的样本出发。
随机欠采样如上图展示的,从大数目类别样本中随机选取和小数目类别样本数目相当的样本,然后和少数目类别样本组成新的数据集。(函数RandomOverSampler)
具有代表性的欠采样有:EasyEnsemble和BalanceCascade算法,
具体详见:https://www.cnblogs.com/js2hou/p/14802439.html
过采样将再下一节介绍。