自然语言处理综论(第2版)

本书特色

[

从本书*版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。本书*版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于*版做了全面的改写,增加了大量反映自然语言处理*成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。本书在*版的基础上增加了自然语言处理的*成就,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书共分五个部分。*部分“词汇的计算机处理”,讲述单词的计算机处理,包括单词切分、单词的形态学、*小编辑距离、词类,以及单词计算机处理的各种算法,包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、*熵模型等。第二部分“语音的计算机处理”,介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”,介绍英语的形式语法,讲述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、统计剖析,并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”,介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学,并介绍同指、连贯等计算机话语分析问题。第五部分“应用”,讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出,实例丰富,引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材,也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的**参考。

]

内容简介

[

从本书靠前版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。本书靠前版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于靠前版做了全面的改写,增加了大量反映自然语言处理近期新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色:    覆盖全面    强调实用    注重评测    语料为本内容简介本书全面论述了自然语言处理技术。本书在靠前版的基础上增加了自然语言处理的近期新成就,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书共分五个部分。靠前部分“词汇的计算机处理”,讲述单词的计算机处理,包括单词切分、单词的形态学、很小编辑距离、词类,以及单词计算机处理的各种算法,包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、优选熵模型等。第二部分“语音的计算机处理”,介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”,介绍英语的形式语法,讲述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、统计剖析,并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”,介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学,并介绍同指、连贯等计算机话语分析问题。第五部分“应用”,讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出,实例丰富,引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材,也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的推荐参考。

]

作者简介

[

Daniel Jurafsky现任斯坦福大学语言学系和计算机科学系副教授。在此之前,他曾在博尔德的科罗拉多大学语言学系、计算机科学系和认知科学研究所任职。他出生于纽约州的Yonkers,1983年获语言学学士,1992年获计算机科学博士,两个学位都在伯克利加利福尼亚大学获得。他于1998年获得美国国家基金会CAREER奖,2002年获得Mac-Arthur奖。他发表过90多篇论文,内容涉及语音和语音处理的广泛领域。James H. Martin现任博尔德的科罗拉多大学语言学系、计算机科学系教授,认知科学研究所研究员。他出生于纽约市,1981年获可伦比亚大学计算机科学学士,1988年获伯克利加利福尼亚大学计算机科学博士。他写过70多篇关于计算机科学的论著,出版过《隐喻解释的计算机模型》(A Computational Model of Metaphor Interpretation)一书。Daniel Jurafsky现任斯坦福大学语言学系和计算机科学系副教授。在此之前,他曾在博尔德的科罗拉多大学语言学系、计算机科学系和认知科学研究所任职。他出生于纽约州的Yonkers,1983年获语言学学士,1992年获计算机科学博士,两个学位都在伯克利加利福尼亚大学获得。他于1998年获得美国国家基金会CAREER奖,2002年获得Mac-Arthur奖。他发表过90多篇论文,内容涉及语音和语音处理的广泛领域。James H. Martin现任博尔德的科罗拉多大学语言学系、计算机科学系教授,认知科学研究所研究员。他出生于纽约市,1981年获可伦比亚大学计算机科学学士,1988年获伯克利加利福尼亚大学计算机科学博士。他写过70多篇关于计算机科学的论著,出版过《隐喻解释的计算机模型》(A Computational Model of Metaphor Interpretation)一书。
冯志伟:先后在北京大学和中国科学技术大学研究生院两次研究生毕业,获双硕士学位。任中国科学技术信息研究所计算中心机器翻译研究组组长、教育部语言文字应用研究所计算语言学研究室主任、杭州师范大学外国语学院高端特聘教授。长期从事语言学和计算机科学的跨学科研究,是我国计算语言学事业的开拓者之一。在中国,他是中国语文现代化学会副会长、中国应用语言学学会常务理事、中国人工智能学会理事、国家语言文字工作委员会21世纪语言文字规范(标准)审定委员会委员、全国科学技术名词审定委员会委员、全国术语标准化技术委员会委员、中国外语教育研究中心学术委员会委员、《数学辞海》总编辑委员会委员、《中国大百科全书》(《语言文字卷》)编辑委员会成员。在国际上,他是TELRI(Trans-European Language Resources Infrastructure)、LREC(Language Resources and Evaluation Conference)、COLING-2010(Computational Linguistics Conference)的顾问委员会委员,并担任IJCL(International Journal of Corpus Linguistics)、IJCC(International Journal of Chinese and Computing)等重要学术期刊编委以及英国Continuum出版公司系列丛书Research in Corpus and Discourse编委。承担国家自然科学基金项目和国家社会科学基金项目多项,出版专著30余部,发表论文300余篇。孙乐:1998年5月毕业于南京理工大学,获博士学位。1998年9月至2000年10月在中国科学院软件研究所从事博士后研究,博士后出站后留研究所工作至今,现为中国科学院软件研究所基础软件国家工程中心研究员,博士生导师。曾于2003年和2004年,先后在英国Birmingham大学、加拿大Montreal大学做访问学者,从事平行语料库和高精度信息检索方面的研究。目前主要研究方向:基于知识的自然语言理解、下一代信息检索模型、信息抽取与问答系统等。作为项目负责人承担国家自然科学基金项目、国家“863”项目和国际合作项目等10余项,在国内外重要学术刊物和会议上发表论文80多篇。

]

目录

第1章导论1.1语音与语言处理中的知识1.2歧义1.3模型和算法1.4语言、思维和理解1.5学科现状与近期发展1.6语音和语言处理简史1.6.1基础研究:20世纪40年代和20世纪50年代1.6.2两个阵营:1957年至1970年1.6.3四个范型:1970年至1983年1.6.4经验主义和有限状态模型的复苏:1983年至1993年1.6.5不同领域的合流:1994年至1999年1.6.6机器学习的兴起:2000年至2008年1.6.7关于多重发现1.6.8心理学的简要注记1.7小结1.8文献和历史说明**部分 词汇的计算机处理第2章正则表达式与自动机2.1正则表达式2.1.1基本正则表达式模式2.1.2析取、组合与优先关系2.1.3一个简单的例子2.1.4一个比较复杂的例子2.1.5高级算符2.1.6正则表达式中的替换、存储器与ELIZA2.2有限状态自动机2.2.1用FSA来识别羊的语言2.2.2形式语言2.2.3其他例子2.2.4非确定FSA2.2.5使用NFSA接收符号串2.2.6识别就是搜索2.2.7确定自动机与非确定自动机的关系2.3正则语言与 FSA2.4小结2.5文献和历史说明第3章 词与转录机3.1英语形态学概观3.1.1屈折形态学3.1.2派生形态学3.1.3附着3.1.4非毗连形态学3.1.5一致关系3.2有限状态形态剖析3.3有限状态词表的建造3.4有限状态转录机3.4.1定序转录机和确定性3.5用于形态剖析的FST3.6转录机和正词法规则3.7把FST词表与规则相结合3.8与词表无关的FST:Porter词干处理器3.9单词和句子的词例还原3.9.1中文的自动切词3.10拼写错误的检查与更正3.11*小编辑距离3.12人是怎样进行形态处理的3.13小结3.14文献和历史说明第4章 N元语法4.1语料库中单词数目的计算4.2简单的(非平滑的)N元语法4.3训练集和测试集4.3.1N元语法及其对训练语料库的敏感性4.3.2未知词:开放词汇与封闭词汇4.4N元语法的评测:困惑度4.5平滑4.5.1Laplace平滑4.5.2Good Turing打折法4.5.3Good Turing估计的一些高级专题4.6插值法4.7回退法4.7.1高级专题:计算Katz回退的α和P*4.8实际问题:工具包和数据格式4.9语言模型建模中的高级专题4.9.1高级的平滑方法:Kneser Ney平滑法4.9.2基于类别的N元语法4.9.3语言模型的自适应和网络(Web)应用4.9.4长距离信息的使用:简要的综述4.10信息论背景4.10.1用于比较模型的交叉熵4.11高级问题:英语的熵和熵率均衡性4.12小结4.13文献和历史说明第5章词类标注5.1(大多数)英语词的分类5.2英语的标记集5.3词类标注5.4基于规则的词类标注5.5基于隐马尔可夫模型的词类标注5.5.1计算*可能的标记序列: 一个实例5.5.2隐马尔可夫标注算法的形式化5.5.3使用Viterbi算法来进行HMM标注5.5.4把HMM扩充到三元语法5.6基于转换的标注5.6.1怎样应用TBL规则5.6.2怎样学习TBL规则5.7评测和错误分析5.7.1错误分析5.8词类标注中的高级专题5.8.1实际问题:标记的不确定性与词例还原5.8.2未知词5.8.3其他语言中的词类标注5.8.4标注算法的结合5.9高级专题:拼写中的噪声信道模型5.9.1上下文错拼更正5.10小结5.11文献和历史说明第6章隐马尔可夫模型与*大熵模型6.1马尔可夫链6.2隐马尔可夫模型6.3似然度的计算:向前算法6.4解码:Viterbi算法6.5HMM的训练:向前向后算法6.6*大熵模型:背景6.6.1线性回归6.6.2逻辑回归6.6.3逻辑回归:分类6.6.4高级专题:逻辑回归的训练6.7*大熵模型6.7.1为什么称为*大熵6.8*大熵马尔可夫模型6.8.1MEMM的解码和训练6.9小结6.10文献和历史说明第二部分 语音的计算机处理第7章语音学7.1言语语音与语音标音法7.2发音语音学7.2.1发音器官7.2.2辅音:发音部位7.2.3辅音:发音方法7.2.4元音7.2.5音节7.3音位范畴与发音变异7.3.1语音特征7.3.2语音变异的预测7.3.3影响语音变异的因素7.4声学语音学和信号7.4.1波7.4.2语音的声波7.4.3频率与振幅:音高和响度7.4.4从波形来解释音子7.4.5声谱和频域7.4.6声源滤波器模型7.5语音资源7.6高级问题:发音音系学与姿态音系学7.7小结7.8文献和历史说明第8章 语音合成8.1文本归一化8.1.1句子的词例还原8.1.2非标准词8.1.3同形异义词的排歧8.2语音分析8.2.1查词典8.2.2名称8.2.3字位-音位转换8.3韵律分析8.3.1韵律的结构8.3.2韵律的突显度8.3.3音调8.3.4更精巧的模型:ToBI8.3.5从韵律标记计算音延8.3.6从韵律标记计算F08.3.7文本分析的*后结果:内部表示8.4双音子波形合成8.4.1建立双音子数据库的步骤8.4.2双音子毗连和用于韵律的TD-PSOLA8.5单元选择(波形)合成8.6评测8.7文献和历史说明第9章语音自动识别9.1语音识别的总体结构9.2隐马尔可夫模型应用于语音识别9.3特征抽取:MFCC矢量9.3.1预加重9.3.2加窗9.3.3离散傅里叶变换9.3.4Mel滤波器组和对数9.3.5倒谱:逆向傅里叶变换9.3.6Delta特征与能量9.3.7总结:MFCC9.4 声学似然度的计算9.4.1矢量量化9.4.2高斯概率密度函数9.4.3概率、对数概率和距离函数9.5词典和语言模型9.6搜索与解码9.7嵌入式训练9.8评测:词错误率9.9小结9.10文献和历史说明第10章语音识别:高级专题10.1多遍解码:N*佳表和格10.2A*解码算法(“栈”解码算法)10.3依赖于上下文的声学模型:三音子10.4分辨训练10.4.1*大互信息估计10.4.2基于后验分类器的声学模型10.5语音变异的建模10.5.1环境语音变异和噪声10.5.2说话人变异和说话人适应10.5.3发音建模:由于语类的差别而产生的变异10.6元数据:边界、标点符号和不流利现象10.7人的语音识别10.8小结10.9文献和历史说明第11章计算音系学11.1有限状态音系学11.2高级有限状态音系学11.2.1元音和谐11.2.2模板式形态学11.3计算优选理论11.3.1优选理论中的有限状态转录机模型11.3.2优选理论的随机模型11.4音节切分11.5音位规则和形态规则的机器学习11.5.1音位规则的机器学习11.5.2形态规则的机器学习11.5.3优选理论中的机器学习11.6小结11.7文献和历史说明第三部分句法的计算机处理第12章英语的形式语法12.1组成性12.2上下文无关语法12.2.1上下文无关语法的形式定义12.3英语的一些语法规则12.3.1句子一级的结构12.3.2子句与句子12.3.3名词短语12.3.4一致关系12.3.5动词短语和次范畴化12.3.6助动词12.3.7并列关系12.4树库12.4.1树库的例子:宾州树库课题12.4.2作为语法的树库12.4.3树库搜索12.4.4中心词与中心词的发现12.5语法等价与范式12.6有限状态语法和上下文无关语法12.7依存语法12.7.1依存和中心词之间的关系12.7.2范畴语法12.8口语的句法12.8.1不流畅现象与口语修正12.8.2口语树库12.9语法和人的语言处理12.10小结12.11文献和历史说明第13章句法剖析13.1剖析就是搜索13.1.1自顶向下剖析13.1.2自底向上剖析13.1.3自顶向下剖析与自底向上剖析比较13.2歧义13.3面对歧义的搜索13.4动态规划剖析方法13.4.1CKY剖析13.4.2Earley算法13.4.3线图剖析13.5局部剖析13.5.1基于规则的有限状态组块分析13.5.2基于机器学习的组块分析方法13.5.3组块分析系统的评测13.6小结13.7文献和历史说明第14章统计剖析14.1概率上下文无关语法14.1.1 PCFG用于排歧14.1.2PCFG用于语言建模14.2PCFG的概率CKY剖析14.3PCFG规则概率的学习途径14.4PCFG的问题14.4.1独立性假设忽略了规则之间的结构依存关系14.4.2缺乏对词汇依存关系的敏感性14.5使用分离非终极符号的办法来改进PCFG14.6概率词汇化的CFG14.6.1Collins剖析器14.6.2高级问题:Collins剖析器更多的细节14.7剖析器的评测14.8高级问题:分辨再排序14.9高级问题:基于剖析器的语言模型14.10人的剖析14.11小结14.12文献和历史说明第15章特征与合一15.1特征结构15.2特征结构的合一15.3语法中的特征结构15.3.1一致关系15.3.2中心语特征15.3.3次范畴化15.3.4长距离依存关系15.4合一的实现15.4.1合一的数据结构15.4.2合一算法15.5带有合一约束的剖析15.5.1把合一结合到Earley剖析器中15.5.2基于合一的剖析15.6类型与继承15.6.1高级问题:类型的扩充15.6.2合一的其他扩充15.7小结15.8文献和历史说明第16章语言和复杂性16.1Chomsky 层级16.2怎么判断一种语言不是正则的16.2.1抽吸引理16.2.2证明各种自然语言不是正则语言16.3自然语言是上下文无关的吗16.4计算复杂性和人的语言处理16.5小结16.6文献和历史说明第四部分语义和语用的计算机处理第17章意义的表示17.1意义表示的计算要求17.1.1可验证性17.1.2无歧义性17.1.3规范形式17.1.4推理与变量17.1.5表达能力17.2模型论语义学17.3一阶逻辑17.3.1一阶逻辑基础17.3.2变量和量词17.3.3λ表示法17.3.4一阶逻辑的语义17.3.5推理17.4事件与状态的表示17.4.1时间表示17.4.2体17.5描述逻辑

封面

自然语言处理综论(第2版)

书名:自然语言处理综论(第2版)

作者:Daniel

页数:784

定价:¥198.0

出版社:电子工业出版社

出版日期:2018-03-01

ISBN:9787121250583

PDF电子书大小:53MB 高清扫描完整版



本文标题:《自然语言处理综论(第2版)》PDF下载

资源仅供学习参考,禁止用于商业用途,请在下载后24小时内删除!