基于词向量的消费者体检健康词表研究

Chinese Journal of Health Informatics and Management(2017)

引用 1|浏览1
暂无评分
摘要
目的 本研究探索中文消费者健康词表的构建方法;研究利用Word2vec构建消费者体检健康词表的可行性和合理性.方法 抓取天涯医院的信息作为语料,使用结巴分词进行中文分词处理,使用Word2vec构造词向量模型,从而形成消费者体检词表.最后,使用预测准确率、准确率、召回率评价指标对词向量的模型效果进行评估.结果 消费者体检健康词表包含了74个种子词、137个消费者用词.候选词的准确率为94.71%,召回率为51.27%,F1值为0.33,74个种子词形成的候选词中前3个词为同义词的预测准确率为60.81%.结论 本研究验证了Word2vec在识别消费者用词方面的强大能力,利用Word2vec技术可以用来开发中文消费者健康词表.我们发现,Word2vec自动生成的候选消费者词列表质量不足以生成消费者健康词表,但是能作为人工审核构建的重要参考,为开发完整的中文CHV奠定了坚实的基础.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要