Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
ABSTRACT
Both Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) have shown improvements over Deep Neural Networks (DNNs) across a wide variety of speech recognition tasks. CNNs, LSTMs and DNNs are complementary in their modeling capabilities, as CNNs are good at reducing frequency variations, LSTMs are good at temporal modeling, and DNNs are appropriate for mapping features to a more separable space. In this paper, we take advantage of the complementarity of CNNs, LSTMs and DNNs by combining them into one unified architecture. We explore the proposed architecture, which we call CLDNN, on a variety of large vocabulary tasks, varying from 200 to 2,000 hours. We find that the CLDNN provides a 4-6% relative improvement in WER over an LSTM, the strongest of the three individual models.
卷积神经网络(CNN)和长短期记忆(LSTM)都已在各种语音识别任务中显示出对深度神经网络(DNN)的改进。CNN,LSTM和DNN在建模能力上是互补的,因为CNN擅长减少频率变化,LSTM擅长时间建模,而DNN适合将要素映射到更可分离的空间。 在本文中,我们通过将CNN,LSTM和DNN组合成一个统一的架构来利用它们的互补性。 我们探索了提议的体系结构,我们将其称为CLDNN,用于各种大型词汇任务,时间从200到2,000小时不等。 我们发现CLDNN相对于LSTM(三个模型中最强的模型)的WER相对提高了4-6%。
1. INTRODUCTION
在过去的几年中,与高斯混合模型/隐马尔可夫模型(GMM / HMM)系统相比,深度神经网络(DNN)在大型词汇连续语音识别(LVCSR)任务上取得了巨大的成功[1]。 最近,通过包括卷积神经网络(CNN)[2]和长期记忆递归神经网络(LSTM)[3]在内的其他类型的神经网络体系结构,已经获得了DNN的进一步改进。 CNN,LSTM和DNN各自的建模能力受到限制,我们相信通过将这些网络合并到一个统一的框架中,可以提高语音识别性能。
在[4]中提供了有关RNN(以及LSTM)建模限制的完整概述。 LSTM的一个问题是时间建模是在输入特征xt(即log-mel特征)上完成的。然而,xt的高级建模可以帮助弄清输入中变化的潜在因素,这将使得更容易学习连续时间步长之间的时间结构[4]。 例如,已经表明,CNN可以学习说话者自适应/歧视性训练的特征,从而消除输入中的变化[5]。 因此,对LSTM进行几个完全连接的CNN层将是有益的。
实际上,在通过HMM执行时间建模之前,最先进的GMM / HMM系统使用诸如声道长度归一化(VTLN)和特征空间最大似然线性回归(fMLLR)之类的技术执行说话者自适应[6]。该配方订单已被证明适用于LVCSR任务[7]。 因此,在将输入xt传递到LSTM层以在时间上建模之前,有必要探索将输入xt传递到CNN层,以减少输入频率的变化。
另外,如[4]中所述,在LSTM中,ht和输出yt之间的映射也不深,这意味着没有中间的非线性隐藏层。 如果可以减少隐藏状态的变化因素,那么模型的隐藏状态可以更有效地总结先前输入的历史。 反过来,这可以使输出更容易预测。 可以通过在LSTM层之后放置DNN层来模拟减少隐藏状态的变化。从本质上讲,这与[4]中提出的“隐藏到输出”模型相似,并且也通过RNN [8]对语音进行了测试。
我们提出的模型是将输入要素(由时间上下文包围)馈入几个CNN层以减少频谱变化。然后,将CNN层的输出馈送到几个LSTM层中,以减少时间变化。 然后,最后一个LSTM层的输出将馈送到几个完全连接的DNN层,这些层将要素转换为一个空间,使该输出易于分类。
在[9]中已经探索了将CNN,LSTM和DNN结合起来的方法。但是,在该论文中,首先分别训练了三个模型,然后通过组合层将三个输出组合在一起。 我们的论文的不同之处在于,我们将CNN,LSTM和CNN合并到一个联合训练的统一框架中。 此外,我们在[4]中的分析激发了如何组合这些层的选择,这表明可以通过为LSTM提供更好的功能(CNN层通过减少频谱变化来提供)来改善LSTM性能,并提高 通过使隐藏单元和输出之间的映射更深(DNN层提供)来输出预测。
每个CNN,LSTM和DNN块以不同的比例尺捕获有关输入表示的信息[10]。 因此,我们探索通过组合多个尺度的信息是否可以获得进一步的改进。 具体来说,我们探索将长期特征传递给CNN,然后将其与短期特征传递给LSTM。 此外,我们探索了LSTM和DNN层的建模功能之间的互补性。具体来说,我们研究将CNN层的输出传递到LSTM和DNN层。 我们会将具有这些附加连接的CLDNN架构称为多尺度CLDNN。
我们最初的理解CLDNN行为的实验是在200小时的语音搜索任务上进行的。 我们发现,与LSTM相比,CLDNN体系结构在WER方面提供了4%的相对改进,而包括多尺度功能在内的WER则提供了1%的相对改进。 接下来,我们研究CLDNN架构在2个较大的语音搜索任务上的行为,即2,000小时的语音语音语料库和2,000小时的语音语音语料库。在这里,我们发现CLDNN的WER相对于LSTM的提高了4-5%,而多尺度添加又提供了1%的相对改进。 这证明了所提出的CLDNN体系结构在更大数据集和不同环境条件下的鲁棒性。
本文的其余部分如下。 在第2节中,我们描述了CLDNN体系结构以及多尺度的补充。 第3节中介绍了实验设置,第4节中介绍了了解CLDNN体系结构的初始实验,然后在第5节中讨论了较大数据集的结果。最后,第6节总结了本文并讨论了未来的工作。
2. MODEL ARCHITECTURE
This section describes the CLDNN architecture shown in Figure 1.
来源:CSDN
作者:datamonday
链接:https://blog.csdn.net/weixin_39653948/article/details/104575175