结合增益率与堆叠自编码器的并行随机森林算法

wf(2023)

引用 0|浏览7
暂无评分
摘要
针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders).首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略 DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hy-percube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空间,有效保证了特征子空间的信息含量;最后,提出结合可变动作学习自动机的reducer分配策略DSVLA(distri-bution strategy based on variable-action learning automata),使每个数据簇均匀分配到reducer进行处理,有效提高了并行化效率.实验结果表明,PRFGRSAE算法的加速比与准确度较IMRF、KSMRF和GAPRF算法都有显著提升,因此该算法应用于大数据处理,特别对包含较多特征的数据集有更高的精准度和并行效率.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要