样本不均衡问题
类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。
定义
通常把样本类别比例超过3:1的数据成为不平衡数据。
影响
多数数据样本带有的信息量比少数样本信息量大,会使得我们的分类模型存在很严重的偏向性。
直观的例子:根据1000个正样本和1000个负样本正确训练出了一个精确率90%,召回率90%的分类器,且通过实验验证没有欠采样过采样的问题。直到有一天,数据发生了一点变化,还是原来的数据类型和特征,只是每天新数据中正负样本变成了100个正样本,10000个负样本。注意,先前精确率90%的另一种表达是负样本有10%的概率被误检为正样本。模型不变,现在误检的负样本数10000 * 0.1=1000个,正样本被检出100 * 0.9(召回)=90个,这个时候召回率不变仍为90%,但是新的精确率=90 / (1000+90)=8.26%
解决方法
- 扩大数据集:更多的数据往往意味着更多的信息。
- 数据重采样:
- 过采样:对小类数据进行采样,增加小类数据样本量。随机过采样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General)
- 欠采样:对大类数据进行采样,减少大类数据样本量。
- 人工构造样本:SMOTE算法(Synthetic Minority Oversampling Technique),基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。
个人思考
对于不同的业务场景,模型的目标不一样,如癌症识别业务适合高召回的模型,而恶意识别适合高准确的模型。