Skip to content

Latest commit

 

History

History
39 lines (18 loc) · 4.67 KB

用于语音自动识别的高效分布式深度学习系统.md

File metadata and controls

39 lines (18 loc) · 4.67 KB

原文:https://www.ibm.com/blogs/research/2019/10/asr-deep-learning/

作者:Wei Zhang, Xiaodong Cui, and Brian Kingsbury

翻译:@Chen Quan

用于语音自动识别的高效分布式深度学习系统

由于使用了大量的训练数据,表达模型和强大的计算能力,基于深度学习的自动语音识别(ASR)最近取得了长足的进步。因此,有效的分布式学习策略对于训练具有深层架构的声学模型至关重要。

在我们今年的ICASSP [1]中发表的先前工作中,我们使用了分布式训练方法–异步分散并行随机梯度下降(ADPSGD)–成功地将32个LSTM深层声学模型的训练时间从一周缩短到了11.5小时,在32拥有2,000小时Switchboard语料库的识别精度不会降低的NVIDIA V100 GPU,这是语音社区中建立良好的数据集,用于对ASR性能进行基准测试。在今年的INTERSPEECH [2]中最近发表的一篇论文中,我们能够使用64个NVIDIA V100 GPU将ADPSGD的效率进一步提高,将训练时间从11.5小时减少到5.2小时。

图1. ADPSGD以比同步集中式SGD大得多的批处理大小收敛。

图1. ADPSGD以比同步集中式SGD大得多的批处理大小收敛。

首先,大批量生产对于将分布式训练扩展到大量学习至关重要。我们观察到,与同步集中式并行SGD(SCPSGD)相比,ADPSGD可以允许批处理量大得多且损失收敛性好。图1显示,ADPSGD可以以多达12,288个样本的批次大小收敛,损失接近单GPU基线的损失。相反,SCPSGD最多只能聚合4,096个样本。大于4,096的批量可能会导致损失显着降低。

尽管仍在发展一种严格的理论来解释这种现象,但我们推测,由于SCPSGD是ADPSGD的特例,所以ADPSGD中仅相邻学习者之间的本地模型平均等同于SCPSGD中全局模型平均的噪声扰动。这种噪声干扰可能会提供在SCPPSD中无法使用ADPSGD中使用较大批次大小的机会。当向大量学习者扩展分布式培训时,此属性为ADPSGD提供了很大的优势。

其次,为了提高同一节点上的通信效率,同时还减少节点之间的主内存流量和CPU压力,我们设计了图2所示的分层ADPSGD体系结构(H-ADPSGD)。同一计算节点上的学习者使用基于同步环的全约简实现(Sync-Ring),通过NVIDIA NCCL构造超级学习者。然后,超级学习者在ADPSGD(ADPSGD-Ring)下形成另一个环。此外,由于GPU上的梯度计算与ADPSGD通信重叠,因此该设计还显着提高了分布式训练中的计算/通信比率。

图2分层ADPSGD系统架构

图2分层ADPSGD系统架构

使用提议的H-ADPSGD进行LSTM声学模型的分布式训练是在一个群集上进行的,该群集具有八个节点,这些节点通过100 Gbit/s以太网连接。每个节点具有八个NVIDIA V100 GPU。每个GPU上的批处理大小为128,这使全局批处理大小为8,192。该模型经过了16个时期的训练,对于总机任务而言,WER为7.6%,对于Callhome任务而言,为13.2%WER。

虽然在单个V100 GPU上训练模型大约需要一个星期,而在ICASSP论文中[1]在32个NVIDIA V100 GPU上使用ADPSGD训练模型需要11.5小时,但在64个NVIDIA V100 GPU上的H-ADPSGD下训练只花费了5.2小时。总体而言,H-ADPSGD可使速度提高40倍,而不会降低精度。这也标志着我们的ICASSP论文[1]减少了50%的训练时间。

据我们所知,这是首次证明异步分布式算法在大批量处理中具有比大规模深度学习模型的同步方法更好的伸缩性。到目前为止,5.2小时是最快的培训时间,可以达到2,000小时的Switchboard数据集达到此识别精度水平。

[1] W. Zhang, X. Cui, U. Finkler, B. Kingsbury, G. Saon, D. Kung and M. Picheny, “Distributed Deep Learning Strategies For Automatic Speech Recognition,” ICASSP, Brighton, United Kingdom, May, 2019, pp. 5706-5710 (https://arxiv.org/abs/1904.04956)

[2] W. Zhang, X. Cui, U. Finkler, G. Saon, A. Kayi, A. Buyuktosunoglu, B. Kingsbury, D. Kung and M. Picheny, “A Highly Efficient Distributed Deep Learning System For Automatic Speech Recognition,” INTERSPEECH, Graz, Austria, September, 2019, pp. 2628-2632 (https://arxiv.org/abs/1907.05701)