Analysis of Data Parallel Methods in Training Neural Language Models via Multiple GPUs

LI Yinqiao,HAN Ambyer, BO Le,XIAO Tong,ZHU Jingbo,ZHANG Li

semanticscholar（2017）

引用 0|浏览0

暂无评分

摘要

使用神经网络进行语言建模依赖于大规模的语料数据,同时更大规模的参数设置一般来说也会对神经语言模型的训练有着正向的作用。但当面对海量的数据和大规模的网络参数时,如何更加快速地进行模型训练便成了一个亟待解决的问题。针对此问题,研究人员引入了 GPU 加快矩阵运算,为了进一步获得速度提升,训练也开始从单一设备转变到多设备并行。其主要方法有两种,数据并行和模型并行。本文主要针对数据并行进行研究,该方法将数据分成若干部分在多个设备上进行训练以达到加速的效果。但该方法的简单实现并未达到令人满意的速度提升,问题在于训练过程中,设备间的数据传输占用大量时间。实验中,我们使用 4 张 NVIDIA TITAN X (Pascal)对循环神经网络进行训练,数据传输的时间占比高达 70%。可以看出减小这部分耗时成为解决多设备训练中的重要问题。科研人员针对如何在单位时间内传输大量的数据进行了研究,提出了许多可行的方法,如异步参数更新、基于采样的更新等。本文主要针对使用 All-Reduce 算法以及采样策略的神经网络梯度更新进行实验, 在不同设备数量下训练前馈神经网络和循环神经网络语言模型,对比分析时间消耗随设备数量的变化趋势。实验中,使用上述两种方法训练的循环神经语言模型相对点对点结构在 4 张 NVIDIA TITAN X (Pascal) 环境下分别可节约 25%和 41%左右的时间。

查看译文

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要