关于预训练模型的论文在当下的 NLP 研究领域,随着计算机算力的不断增强,越来越多的通用语言表征的预训练模型(Pre-trained Models,PTMs)逐渐涌现出来。这对下游的 NLP 任务非常有帮助,可以避免大量从零开始训练新的模型。PTM 大致可以分为两代:第一代 PTM 旨在学习词嵌入。由于下游任务不在需要这些模型,因此为了计算效率,这些模型往往采用浅层模型,例如 Skip-Gram,GloVe 等。尽管这些模型可以捕获词的语义,但由于未基于上下文环境,因此不能够捕捉到更深层次的概念,例如:句法结构,语义角色,指代等等;第二代 PTM 专注于学习基于上下文的词嵌入,例如 CoVe,ELMo,OpenAI GPT 和 BERT 等。这些学习到的编码器在下游任务中仍会用于词在上下文中的语义表示。
无数据, 请查看其它