Analysis of Data Parallel Methods in Training Neural Language Models via Multiple GPUs

semanticscholar(2017)

引用 0|浏览0
暂无评分
摘要
使用神经网络进行语言建模依赖于大 规模的语料数据,同时更大规模的参数设置 一般来说也会对神经语言模型的训练有着 正向的作用。但当面对海量的数据和大 规模的网络参数时,如何更加快速地进行模 型训练便成了一个亟待解决的问题。 针对此问题,研究人员引入了 GPU 加 快矩阵运算,为了进一步获得速度提升,训 练也开始从单一设备转变到多设备并行。其 主要方法有两种,数据并行和模型并行。 本文主要针对数据并行进行研究,该方法将 数据分成若干部分在多个设备上进行训练 以达到加速的效果。但该方法的简单实现并 未达到令人满意的速度提升,问题在于训 练过程中,设备间的数据传输占用大量时间。 实验中,我们使用 4 张 NVIDIA TITAN X (Pascal)对循环神经网络进行训练,数据传输 的时间占比高达 70%。可以看出减小这部分 耗时成为解决多设备训练中的重要问题。 科研人员针对如何在单位时间内传输 大量的数据进行了研究,提出了许多可行的 方法,如异步参数更新、基于采样的更新 等。本文主要针对使用 All-Reduce 算法以 及采样策略的神经网络梯度更新进行实验, 在不同设备数量下训练前馈神经网络和循 环神经网络语言模型,对比分析时间消耗 随设备数量的变化趋势。实验中,使用上述 两种方法训练的循环神经语言模型相对点 对点结构在 4 张 NVIDIA TITAN X (Pascal) 环境下分别可节约 25%和 41%左右的时间。
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要