学术文献致谢功能数据集构建与识别方法研究

Information Science(2021)

引用 0|浏览2
暂无评分
摘要
[目的/意义]本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法.[方法/过程]采用人工的方式扩展和完善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引.在此基础上,采用SciBERT模型对致谢文本句进行向量表达,引入Softmax回归模型实现致谢功能自动分类,采用warmup策略进行模型调优,并与基准实验进行对比.[结果/结论]得到一个大规模、高质量的学术文献致谢功能数据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的Fl值高于98%,在各个类别上的预测结果也有不同程度的提升.[创新/局限]致谢功能识别模型缺少对致谢文本独有特征的考虑和融合.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要