构建用于大词汇量语音识别的DNN声学模型

来源：wenku163.com 资料编号：WK16317800 资料等级：★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9AWK16317800

资料介绍

构建用于大词汇量语音识别的DNN声学模型(中文16000字,英文PDF)
摘要
了解深层神经网络（DNN）的体系结构选择对于改进最先进的语音识别系统至关重要。我们研究DNN声学模型设计的哪些方面对语音识别系统性能最重要，重点研究了前馈网络。我们研究了模型大小（层数，总参数），架构（卷积网络）和训练细节（损失函数，正则化方法）等参数对DNN分类器性能和语音识别器误码率的影响。在Switchboard基准语料库中，我们将标准DNN与卷积网络进行比较，并提出了第一个使用局部连接、非连接神经网络进行声学建模的实验。使用更大的2100小时训练语料库（结合Switchboard和Fisher），我们检查了非常大的DNN模型的性能，其参数比语音识别系统中通常使用的参数多十倍。结果表明，相对简单的DNN架构和优化技术可以提供强大的性能，我们提供有关网络深度超广度等架构选择的直觉。我们的研究结果扩展了以前的工作，以帮助建立一套构建DNN混合语音识别系统的最佳实践，并构成分析更复杂的循环，序列判别和无HMM架构的重要的第一步。
关键词：隐马尔可夫模型深度神经网络（HMM-DNN），神经网络，声学建模，语音识别，大词汇量连续语音识别（LVCSR）