比较不平衡基因表达数据上的7种分类器表现

Chinese Journal of Hospital Statistics(2021)

引用 0|浏览0
暂无评分
摘要
目的 研究类不平衡是否会给基因表达数据的类别预测带来额外挑战,通过公开数据集评估7种分类器在不同类平衡比例数据上的表现,旨在为后续研究提供理论基础.方法 在真实数据集上按不同比例抽取样本组成训练集(阴性样本量Nn=10,阳性样本量Np=10,15,20,30,35;Nn=15,Np=5,10,15,25,30)和测试集(Nn=20,Np=20),组成10组新数据集,并选取常用7种分类算法(SVM、C4.5、NB、RF、KNN、AdaBoost、Bagging)对10组新数据集进行分析,比较单次抽样分类与100次抽样平均的分类效果.结果 随着数据集中阳性样本量的增加,分类算法整体灵敏度呈上升趋势,而特异度呈下降趋势.结肠癌数据集中,AdaBoost、NB和RF算法表现较好,支持向量机表现较差且不稳定.在白血病数据集中,NB算法整体表现最优且稳定,AdaBoost、C4.5和RF算法分类效果较好但波动较大.结论 基因表达数据集中类平衡比例、数据特征和分类算法类别均会影响类别预测结果,且单次分析结果具有偶然性,复现性较差,故分析类不平衡数据时应结合类分布比例谨慎选择适当的算法.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要