基于数据增强的地质文本主题模型

ZHANG Jing-Yuan,LIU Gang, ZENG Yue, ZHOU Da-Shuang,CHEN Qi-Yu

Computer Systems & Applications(2022)

引用 0|浏览2
暂无评分
摘要
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题,本文采取了相关改进方法.首先在分词阶段采用基于词频统计的重复词串提取算法,保留地质专业名词以准确提取文本主题,同时减少冗余词串数量节约内存花销,提升保留词的提取效率.另外,使用基于TF-IDF和词向量的文本数据增强算法,对原始分词语料进行处理以强化文本主题特征.之后该算法与主题模型相结合在处理后的语料上提取语料主题.由于模型的先验信息得到增强,故性能得以提高.实验结果表明本文算法与LDA模型相结合的方法表现较好,在相关指标及输出结果上均优于其他方法.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要