无池化层卷积神经网络的中文分词方法

Computer Engineering and Applications(2020)

引用 6|浏览15
暂无评分
摘要
在中文信息处理中,分词是一个十分常见且关键的任务.很多中文自然语言处理的任务都需要先进行分词,再根据分割后的单词完成后续任务.近来,越来越多的中文分词采用机器学习和深度学习方法.然而,大多数模型都不同程度的有模型过于复杂、过于依赖人工处理特征、对未登录词表现欠佳等缺陷.提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)的中文分词模型——PCNN(Pure CNN)模型,该模型使用基于字向量上下文窗口的方式对字进行标签分类,具有结构简单、不依赖人工处理、稳定性好、准确率高等优点.考虑到分布式字向量本身的特性,在PCNN模型中不需要卷积的池化(Pooling)操作,卷积层提取的数据特征得到保留,模型训练速度获得较大提升.实验结果表明,在公开的数据集上,模型的准确率达到当前主流神经网络模型的表现水准,同时在对比实验中也验证了无池化层(Pooling Layer)的网络模型要优于有池化层的网络模型.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要