百度英伟达联手推混合精度训练,同样性能只需一半内存 (英伟达官网链接)
整理分享百度英伟达联手推混合精度训练,同样性能只需一半内存 (英伟达官网链接),希望有所帮助,仅作参考,欢迎阅读内容。
内容相关其他词:英伟达官方合作厂商,英伟达百度贴吧,英伟达官方合作伙伴,英伟达百度贴吧,英伟达合作厂商列表,百度英伟达合作,百度英伟达合作,英伟达百度贴吧,内容如对您有帮助,希望把内容链接给更多的朋友!
△矩阵乘法 当运用FP表示神经网络中的数时,GEMM运算的输入矩阵由bit的数字构成,我们需要能执行bit计算来做乘法的硬件,同时还需要用bit计算和储存来做加法。没有bit来完成加法运算,训练大型深度神经网络就会非常困难。于是,研究员们对训练流程进行了一些修改。模型中的输入、权重、梯度和激活以FP表示。但只是简单地更改储存格式,有些模型无法达到与FP基准相同的准确率。为了搞定这个挑战,百度和英伟达联手提出了两项技术。 第一,维护一个FP格式的权重的主副本,用FP权重来做正向和反向传播,优化器中的梯度更新会被添加到主FP副本里,这个FP副本会再舍入到FP,在训练中运用。这个过程,每次训练迭代都会重复一遍,直到模型收敛。通过在训练中运用FP的权重,可以运用适用于半精度的、更快的硬件。下图显示了混合精度训练中的一次迭代: △深度学习模型的混合精度训练 第二,引入了损失缩放(loss-scaling)技术,损失缩放能恢复一些小的重要梯度,对恢复某些模型的准确率损失来说很有必要。在训练期间,一些权重梯度指数很小,在FP格式下会变成0。为了搞定这个问题,研究团队在反向传播开始时引入一个换算系数,来缩放损失,梯度也通过链式法则同时慢慢扩大,并能在FP中表示出来。在更新使用于权重之前,这些梯度还需要缩小。百度在DeepSpeech2模型上对这种方式进行了测验。他们用这种方式来训练了DeepSpeech2模型,进行语音识别。在运用同样模型架构和超参数的情况下,混合精度模型在英语和普通话数据集上,都达到了与FP模型同样的准确率。 △用混合精度训练与FP训练DeepSpeech2模型的英语、汉语语音识别字错率(CER) 通过运用FP格式的权重,训练深度学习模型的内存需要也可以降低到单精度的一半。也就是说,训练同样一个模型、达到同样的性能,我们现在只需要原来一半的处理器。 另外,FP算术的峰值性能通常远高于FP计算,因此,混合精度训练通过运用FP的计算单元,能够实现更快的速度。而英伟达在博客上还介绍了混合精度训练在图像分类、对象检测等任务上的性能。 如上图所示,混合精度训练的各种深度神经网络模型在图像分类上,不需要损失缩放就能达到与单精度训练差不多的准确率。而在对象检测任务上,混合精度训练实现的准确率甚至略高于FP基准。标签: 英伟达官网链接
本文链接地址:https://www.iopcc.com/jiadian/48527.html转载请保留说明!