基于概率密度估计的SMOTE改进算法研究

Journal of Nanjing Normal University(Natural Science Edition)(2019)

引用 0|浏览3
暂无评分
摘要
类别不平衡问题是机器学习与数据挖掘领域中主要关注的问题之一,目前已有多种解决方法,而样本采样技术是其中最为简单有效、同时也是最为常用的一类方法.本文主要针对SMOTE(synthetic minority oversam-pling technique)这一最为流行的采样算法易于受到噪声样本影响及泛化能力差的缺点,提出了一种基于概率密度估计的改进算法.首先,假定各类样本均服从高斯混合分布,并采用高斯混合模型测得各样本的概率密度,针对各样本在类内与类间所测得概率密度间的排序比较关系来实现噪声信息的过滤.其次,在过滤后的少数类样本上进行概率密度的重新计算,并根据其特点将其划分为三类:边界样本、安全样本与离群样本.最后,针对上述三类样本,分别采取不同的策略来进行SMOTE采样.此外,为了进一步提升泛化性能,本文也对SMOTE算法的邻域计算规则进行了修正.通过多个基准的二类不平衡数据集对该算法进行了验证,实验结果表明其是有效且可行的,同时显著优于多种已有的采样算法.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要