自杀意念原因抽取中的标签增强方法

Journal of Chinese Computer Systems(2022)

引用 0|浏览1
暂无评分
摘要
自杀已成为全球重大的公共卫生和社会关注问题,自动在有自杀意念的社交文本中抽取出该意念产生的原因,可以为自杀预防提供支持.在自杀意念原因抽取任务中,由于人工标注的主观因素造成标注边界模糊或存在误差,同时人工标注成本大也导致训练样本量较小.本文针对这些问题探索和使用数据增强的方法,提出基于标签窗口缩放的标签增强方法LWS,LWS通过设计标签窗口缩放概率、缩放尺度、标签增强率等参数及其应遵循的原则,较好地解决了原训练集中人工标注较短和存在误差的问题,F1值比原训练集上的Char-BiLSTM-CRF模型平均提高了 1.6%.实现了基于同义词替换SR、随机插入RI、随机交换RS和随机删除RD的EDA数据增强方法.实验结果表明,在基于EDA的数据增强中,单独和综合运用SR、RD都取得较好的效果,F1值比原训练集上的Char-BiLSTM-CRF模型平均提高了 1.1%~1.6%.此外,当数据改变较少时,即增强率或改变率较小时,模型提升效果较明显,而过度增强反而会降低模型的性能.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要