EDA文本增强技术在中英文语料上的差异性分析

Modern Computer(2021)

引用 0|浏览5
暂无评分
摘要
为了解决中文自然语言处理任务中因语料库数据量较少导致的语言模型欠拟合问题,通过选取中文短文本二分类、短文本多分类长文本多分类等任务,验证英文EDA方法在中文语料上的适用性.通过改变不同的增强操作、增强比例和增强数量等控制方法,进行了增强技术在中英文语料上的应用对比分析,并在Bert模型上进行了扩展验证.实验结果表明该数据增强技术在中文上的应用效果略高于英文.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要