基于类别特征域的文本分类特征选择方法

Journal of Chinese Information Processing(2005)

引用 5|浏览3
暂无评分
摘要
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.本文介绍了一种基于类别特征域的特征选择方法.该方法首先利用"组合特征抽取"[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征.这里,"组合特征抽取"是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征.接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题.实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要