中国开发网: 论坛: 程序员情感CBD: 贴子 901833
mamei: DNNs为语音识别带来新的进展
DNNs为语音识别带来新的进展
在2011年第12届国际语音通信协会年会(12th annual Conference of the International Speech Communication Association)上,微软研究人员发布了人工神经网络进行大词汇语音识别的论文,并认为这是语音识别的一大进展。



模型
来源:微软市场上的语音识别技术应用一般是声音转化成文本的软件或自动电话服务系统,其准确性就显得至关重要。并且声音文本转化软件大都需要用户事先对软件进行“培训”, 与之不同的是,自动语音识别的终极目标是提供没有局限的、无需“培训”的语音识别服务,该服务在任何条件、任何用户使用时都表现良好。

利用人工神经网络(ANN)来提高语音识别性能的概念最早在80年代提出,人工神经网络和隐码尔柯夫模型混合模型(ANN-HMM)使大词汇语音识别技术前景大好。但由于针对性的“培训”可以提高模型精确度,传统的高斯混合模型(GMM-HMMS)就在大词汇语音识别上比人工神经网络表现得更好,人工神经网络进行语音识别的技术就没有进行商业应用。

深度神经网络(DNNs)的进展让微软雷蒙德研究院的研究员俞栋和与他共同研究该项目的伙伴们看到希望。俞栋直接利用DNNs建立了数千个因素的模型,其他人也尝试了基于上下文的ANN模型,结果证明直接用DNNs建立的音素模型的方法在语音搜索的试验中,比传统的方法的相对误差减少了16%。

小组还通过通用的图形处理单元来对语句进行训练和解码。神经网络的计算在结构上类似流行的网游中使用的3D图形,现代的显卡可以同时处理近500个这样的计算,将这种运算能力用于神经网络增强了模型的可行性。

为了进一步加强该技术的实际应用,研究人员建立了有超过660万个神经联系的巨大的人工神经网络,是语音识别技术中所应用过的最大的网络。随后的实验表明错误率为18.5%,比最先进的常规系统相对提高33%。

正如微软亚洲研究院研究主管、高级研究员弗兰克·塞得(Frank Seide)所说,这项技术“将改变我们的工作和生活。试想它的这些应用:实时的自然口译、流畅的谈话、音频检索甚至用自然语言与计算机对话。”


相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录