基于改进K -均值聚类的汉语语块识别

Harbin Gongye Daxue Xuebao/Journal of Harbin Institute of Technology(2007)

引用 4|浏览13
暂无评分
摘要
为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的.
更多
查看译文
关键词
Chinese text chunking,K-means clustering,Sparseness
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要