基于预训练的无监督神经机器翻译模型研究

XUE Qing-tian,LI Jun-hui,GONG Zheng-xian,XU Dong-qin

Computer Engineering and Science（2022）

引用 0|浏览2

暂无评分

摘要

依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.无监督神经机器翻译U N MT又在一定程度上解决了高质量平行语料库难以获取的问题.最近的研究表明,跨语言模型预训练能够显著提高U N MT的翻译性能,其使用大规模的单语语料库在跨语言场景中对深层次上下文信息进行建模,获得了显著的效果.进一步探究基于跨语言预训练的UNMT,提出了几种改进模型训练的方法,针对在预训练之后U N MT模型参数初始化质量不平衡的问题,提出二次预训练语言模型和利用预训练模型的自注意力机制层优化U N MT模型的上下文注意力机制层2种方法.同时,针对UNMT中反向翻译方法缺乏指导的问题,尝试将Teacher-Student框架融入到UNMT的任务中.实验结果表明,在不同语言对上与基准系统相比,本文的方法最高取得了0.8～2.08个百分点的双语互译评估(BLEU)值的提升.

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要