解析深度学习-语音识别实践

本书特色

[

本书是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

]

内容简介

[

alphago与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳入大众的视野。alphago的大获全胜一定程度展示了深度学习在应用领域的成功,而语音识别正是深度学习取得显著成功的应用领域之一。本书是首次以深度学习为主线介绍语音识别应用的书籍,对读者了解语音识别技术及其发展历程有重要的参考价值。本书作者俞栋、邓力均是该领域的著名专家,他们是深度学习在应用领域取得突破性进展的推动者与实践者,他们在书中分享的研究成果一定程度上代表了本领域*的研究进展;译者俞凯、钱彦旻也是本领域的资深专家,并有众多实践成果。对于从事此领域研究的读者来说,本书无疑有重要的参考价值。 

]

作者简介

[

俞栋1998 年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150 多篇论文,是近60 项专利的发明人及有广泛影响力的深度学习开源软件CNTK 的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得2013 年IEEE 信号处理协会最佳论文奖。俞栋博士现担任IEEE 语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。邓力世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。 邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等。他在上述领域做出了重大贡献,是ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时,他也曾在顶级杂志和会议上发表过与上述领域相关的300 余篇学术论文,出版过5 部著作,发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主编。俞凯IEEE 高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是中组部“千人计划”(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市“东方学者”特聘教授;作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。现任中国声学学会语音语言、听觉及音乐分会执委会委员,中国计算机学会人机交互专委会委员,中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域,在本领域的一流国际期刊和会议上发表论文80 余篇,申请专利10 余项,取得了一系列研究、工程和产业化成果。在InterSpeech 及IEEE Spoken Language Processing 等国际会议上获得3 篇国际会议优秀论文奖,获得国际语音通信联盟(ISCA)2013 年颁发的2008—2012 Computer Speech and Language 最优论文奖。受邀担任InterSpeech 2009 语音识别领域主席、EUSIPCO 2011/EUSIPCO 2014 语音处理领域主席、InterSpeech 2014 口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统,曾获得美国国家标准局(NIST)和美国国防部内部评测冠军;作为核心技术人员,负责设计并实现的认知型统计对话系统原型,在CMU 组织的2010 年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI,他主持了欧盟第7 框架PARLANCE、国家自然科学基金委、上海市教委、经信委,以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014 年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。钱彦旻上海交通大学计算机科学与工程系助理研究员,博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起,任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授开展合作研究。现为IEEE、ISCA 会员,同时也是国际开源项目Kaldi 语音识别工具包开发的项目组创始成员之一。此外,担任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50 余篇,Google Scholar 总引用数近1000 次。其中包括在语音识别领域权威国际会议ICASSP、InterSpeech 和ASRU 上发表论文30 余篇,申请国家专利共3 项,已授权1 项。2008 年获科技奥运先进集体奖,2014 年获中国人工智能学会颁发的“吴文俊人工智能科学技术奖进步奖”。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。目前的研究领域包括:语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。

]

目录

译者序 iv序 vii前言 ix术语缩写 xxii符号 xxvii第 1 章 简介 11.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 人类之间的交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 人机交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.1 **部分:传统声学模型 . . . . . . . . . . . . . . . . . . . . . . 61.3.2 第二部分:深度神经网络 . . . . . . . . . . . . . . . . . . . . . . 61.3.3 第三部分:语音识别中的 dnn-hmm 混合系统 . . . . . . . . . . 71.3.4 第四部分:深度神经网络中的表征学习 . . . . . . . . . . . . . . 71.3.5 第五部分:高级的深度模型 . . . . . . . . . . . . . . . . . . . . . 7**部分 传统声学模型 9第 2 章 混合高斯模型 112.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 高斯分布和混合高斯随机变量 . . . . . . . . . . . . . . . . . . . . . . . . 122.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . . 16第 3 章 隐马尔可夫模型及其变体 193.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3.1 隐马尔可夫模型的性质 . . . . . . . . . . . . . . . . . . . . . . . . 233.3.2 隐马尔可夫模型的仿真 . . . . . . . . . . . . . . . . . . . . . . . . 243.3.3 隐马尔可夫模型似然度的计算 . . . . . . . . . . . . . . . . . . . . 243.3.4 计算似然度的高效算法 . . . . . . . . . . . . . . . . . . . . . . . . 263.3.5 前向与后向递归式的证明 . . . . . . . . . . . . . . . . . . . . . . 273.4 期望*大化算法及其在学习 hmm 参数中的应用 . . . . . . . . . . . . . 283.4.1 期望*大化算法介绍 . . . . . . . . . . . . . . . . . . . . . . . . . 283.4.2 使用 em 算法来学习 hmm 参数——baum-welch 算法 . . . . . . 303.5 用于解码 hmm 状态序列的维特比算法 . . . . . . . . . . . . . . . . . . . 343.5.1 动态规划和维特比算法 . . . . . . . . . . . . . . . . . . . . . . . . 343.5.2 用于解码 hmm 状态的动态规划算法 . . . . . . . . . . . . . . . . 353.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . . 373.6.1 用于语音识别的 gmm-hmm 模型 . . . . . . . . . . . . . . . . . 383.6.2 基于轨迹和隐藏动态模型的语音建模和识别 . . . . . . . . . . . . 393.6.3 使用生成模型 hmm 及其变体解决语音识别问题 . . . . . . . . . 40第二部分 深度神经网络 43第 4 章 深度神经网络 454.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . . 484.2.1 训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.2.2 训练算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3.1 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.3.2 模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.3.3 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.3.4 丢弃法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.3.5 批量块大小的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3.6 取样随机化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.3.7 惯性系数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.3.8 学习率和停止准则 . . . . . . . . . . . . . . . . . . . . . . . . . . 614.3.9 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.3.10 可复现性与可重启性 . . . . . . . . . . . . . . . . . . . . . . . . . 62第 5 章 高级模型初始化技术 655.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.1.1 受限玻尔兹曼机的属性 . . . . . . . . . . . . . . . . . . . . . . . . 675.1.2 受限玻尔兹曼机参数学习 . . . . . . . . . . . . . . . . . . . . . . 705.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79第三部分 语音识别中的深度神经网络–隐马尔可夫混合模型 81第 6 章 深度神经网络–隐马尔可夫模型混合系统 836

封面

解析深度学习-语音识别实践

书名:解析深度学习-语音识别实践

作者:俞栋

页数:336

定价:¥79.0

出版社:电子工业出版社

出版日期:2016-07-01

ISBN:9787121287961

PDF电子书大小:112MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注