面向短文本分析的分布式表示模型

Journal of Computer Research and Development(2018)

引用 3|浏览10
暂无评分
摘要
短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector,BTPV),该模型通过将词对主题模型(biterm topic model,BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector 来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要