结合统计特征和图模型的半监督式中文关键短语抽取方法

Journal of Chinese Information Processing(2022)

引用 0|浏览8
暂无评分
摘要
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义.然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究.为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率.对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要