大数据丛书大数据智能:数据驱动的自然语言处理技术

本书特色

[

本书是介绍大数据智能、人工智能技术的科普书籍,旨在让更多人了解和学习互联网时代的人工智能技术——自然语言处理技术,让大数据智能技术更好地为我们服务。全书包括大数据智能基础、技术和应用三部分,共14章。基础部分有3章:第1章以深度学习为例介绍大数据智能的计算框架;第2章以知识图谱为例介绍大数据智能的知识库;第3章介绍大数据的计算处理系统。技术部分有6章,分别介绍机器翻译、主题模型、情感分析与意见挖掘、智能问答与对话系统、个性化推荐、机器写作。应用部分有5章,分别介绍社交商业数据挖掘、智慧医疗、智慧司法、智慧金融、计算社会科学。本书后记部分为读者追踪大数据智能的*学术资料提供了建议。

]

内容简介

[

本书是介绍大数据智能、人工智能技术的科普书籍,旨在让更多人了解和学习互联网时代的人工智能技术――自然语言处理技术,让大数据智能技术更好地为我们服务。全书包括大数据智能基础、技术和应用三部分,共14章。基础部分有3章:章以深度学习为例介绍大数据智能的计算框架;第2章以知识图谱为例介绍大数据智能的知识库;第3章介绍大数据的计算处理系统。技术部分有6章,分别介绍机器翻译、主题模型、情感分析与意见挖掘、智能问答与对话系统、个性化推荐、机器写作。应用部分有5章,分别介绍社交商业数据挖掘、智慧医疗、智慧司法、智慧金融、计算社会科学。本书后记部分为读者追踪大数据智能的近期新学术资料提供了建议。

]

作者简介

[

刘知远 清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理和知识图谱。2011年获得清华大学博士学位,在人工智能领域著名国际期刊和会议上发表相关论文60余篇,Google Scholar统计引用超过4,000次。曾获清华大学优秀博士论文、中国人工智能学会优秀博士论文、清华大学优秀博士后、中文信息学会青年创新奖,入选《麻省理工科技评论》“35岁以下科技创新35人”中国区榜单、中国科协青年人才托举工程、CCF青年学者提升计划。担任中文信息学会青年工作委员会副主任,中文信息学会社会媒体处理专委会秘书长,ACL、EMNLP、COLING等著名国际会议领域主席。

崔安颀 薄言RSVP.ai联合创始人、AI负责人,从事智能对话的技术研发和商业化应用。2013年获得清华大学博士学位。曾访问美国卡耐基梅隆大学、新加坡国立大学,在加拿大滑铁卢大学担任博士后研究员。研究方向包括社交媒体情感分析、智能问答、数据挖掘等,发表相关著作20余篇,积累了丰富的科研和商业应用经验。参与研发薄言“轻语”企业助手平台、“薄言豆豆”智能机器人以及语义解析、机器问答、对话闲聊等算法引擎,将自然语言处理技术应用在智能家居、企业助手、智能客服等场景中。
刘知远 清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理和知识图谱。2011年获得清华大学博士学位,在人工智能领域著名国际期刊和会议上发表相关论文60余篇,Google Scholar统计引用超过4,000次。曾获清华大学优秀博士论文、中国人工智能学会优秀博士论文、清华大学优秀博士后、中文信息学会青年创新奖,入选《麻省理工科技评论》“35岁以下科技创新35人”中国区榜单、中国科协青年人才托举工程、CCF青年学者提升计划。担任中文信息学会青年工作委员会副主任,中文信息学会社会媒体处理专委会秘书长,ACL、EMNLP、COLING等著名国际会议领域主席。

崔安颀 薄言RSVP.ai联合创始人、AI负责人,从事智能对话的技术研发和商业化应用。2013年获得清华大学博士学位。曾访问美国卡耐基梅隆大学、新加坡国立大学,在加拿大滑铁卢大学担任博士后研究员。研究方向包括社交媒体情感分析、智能问答、数据挖掘等,发表相关著作20余篇,积累了丰富的科研和商业应用经验。参与研发薄言“轻语”企业助手平台、“薄言豆豆”智能机器人以及语义解析、机器问答、对话闲聊等算法引擎,将自然语言处理技术应用在智能家居、企业助手、智能客服等场景中。

张开旭 清华大学计算机系博士,研究方向为自然语言处理,THULAC工具草创者,SIGHAN 2012中文分词评测冠军,百度搜索中文CRF模块代码重构者,微信搜索DSSM模块开发者,腾讯围棋AI“绝艺”研发者。现供职于腾讯,尝试用BERT“搞事情”。

韩文弢 清华大学计算机系助理研究员。主要研究方向为大数据系统和类脑计算系统。2015年获得清华大学博士学位,在计算机系统相关国际期刊和会议上发表相关论文10余篇。曾获得西贝尔学者、NOI 2003金牌等荣誉和奖项。担任CCF NOI科学委员会委员。

赵 鑫 中国人民大学信息学院副教授、博士生导师。主要研究方向为数据挖掘和自然语言处理。2014年获得北京大学博士学位,在数据挖掘及其相关领域的著名国际期刊和会议上发表相关论文70余篇,曾获得CIKM 2017z佳短文提名及AIRS 2017z佳论文奖,Google Scholar统计引用2,800余次。曾获微软亚洲学者、北京大学优秀博士论文奖、中国人民大学杰出学者等荣誉称号,入选第二届CCF青年人才发展计划。长期担任国内外著名期刊和会议的评审。

苏劲松 厦门大学信息学院副教授、博士生导师。主要研究方向为自然语言处理和机器翻译。2011年获得中国科学院计算技术研究所博士学位,在人工智能、自然语言处理领域的著名国际期刊和会议上发表相关论文60余篇。担任CCF中文信息处理青年工作委员会常务委员,中文信息学会青年工作委员会委员,福建省人工智能学会理事,自然语言处理国际会议 NLPCC2018、EMNLP2019领域主席。

张永锋 罗格斯大学助理教授,主要研究方向为信息检索、推荐系统、机器学习及互联网经济。

严 睿 北京大学助理教授、研究员、博士生导师,曾任百度公司资深研究员,华中师范大学与中央财经大学客座教授与校外导师。主持研发了多个开放领域对话系统和服务类对话系统,发表高水平研究论文100余篇,担任多个学术会议(KDD、IJCAI、SIGIR、ACL、WWW、AAAI、CIKM、EMNLP等)的(资深)程序委员会委员及审稿人。

汤步洲 哈尔滨工业大学(深圳)计算机科学与技术学院副教授、博士生导师。主要研究方向为自然语言处理、知识图谱、医学信息处理、医疗支持决策。2011年获得哈尔滨工业大学博士学位,毕业后先后赴美国范德堡大学和德州大学休斯敦医学科学中心以博士后研究员身份从事研究工作。在人工智能、医学信息学领域著名国际期刊和会议上发表相关论文80余篇,Google Scholar统计引用1,300余次。多次在相关领域国际公开评测中获得冠军。

涂存超 清华大学计算机系博士后。主要研究方向为自然语言处理和法律智能。2018年获得清华大学博士学位。在人工智能及自然语言处理著名国际期刊和会议上发表相关论文10余篇。获得清华大学优秀博士毕业生、清华大学优秀博士论文奖、北京市优秀博士毕业生等荣誉,入选“博士后创新人才支持计划”。

丁 效 哈尔滨工业大学助理研究员、硕士生导师。主要研究方向为人工智能、自然语言处理、社会计算和事理图谱。2016年获得哈尔滨工业大学博士学位,已在AAAI、IJCAI、ACL、EMNLP、NAACL、COLING等人工智能领域的著名国际期刊和会议上发表相关论文20余篇。承担国家自然科学基金青年项目等省部级以上项目四项,参与国家重大科技基础设施建设项目、“新一代人工智能”重大项目、国家自然科学基金重点项目等多个科研项目。荣获全国青年人工智能创新创业大会三等奖、第五届全国青年计算语言学研讨会优秀论文奖等荣誉。

]

目录

1 深度计算——机器大脑的结构 1
1.1 惊人的深度学习 1
1.1.1 可以做酸奶的面包机:通用机器的概念 2
1.1.2 连接主义 4
1.1.3 用机器设计机器 5
1.1.4 深度网络 6
1.1.5 深度学习的用武之地 6
1.2 从人脑神经元到人工神经元 8
1.2.1 生物神经元中的计算灵感 8
1.2.2 激活函数 9
1.3 参数学习 10
1.3.1 模型的评价 11
1.3.2 有监督学习 11
1.3.3 梯度下降法 12
1.4 多层前馈网络 14
1.4.1 多层前馈网络 14
1.4.2 后向传播算法计算梯度 16
1.5 逐层预训练 17
1.6 深度学习是终极神器吗 20
1.6.1 深度学习带来了什么 20
1.6.2 深度学习尚未做到什么 21
1.7 内容回顾与推荐阅读 . 22
1.8 参考文献 23

2 知识图谱——机器大脑中的知识库 25
2.1 什么是知识图谱 25
2.2 知识图谱的构建 28
2.2.1 大规模知识库 28
2.2.2 互联网链接数据 29
2.2.3 互联网网页文本数据 30
2.2.4 多数据源的知识融合 31
2.3 知识图谱的典型应用 32
2.3.1 查询理解 32
2.3.2 自动问答 34
2.3.3 文档表示 35
2.4 知识图谱的主要技术 36
2.4.1 实体链指 36
2.4.2 关系抽取 37
2.4.3 知识推理 39
2.4.4 知识表示 40
2.5 前景与挑战 42
2.6 内容回顾与推荐阅读 45
2.7 参考文献 45

3 大数据系统——大数据背后的支撑技术 47
3.1 大数据有多大 47
3.2 高性能计算技术 49
3.2.1 超级计算机的组成 49
3.2.2 并行计算的系统支持 51
3.3 虚拟化和云计算技术 55
3.3.1 虚拟化技术 56
3.3.2 云计算服务 58
3.4 基于分布式计算的大数据系统 59
3.4.1 Hadoop 生态系统 60
3.4.2 Spark 67
3.4.3 典型的大数据基础架构 68
3.5 大规模图计算 69
3.5.1 分布式图计算框架 70
3.5.2 高效的单机图计算框架 71
3.6 NoSQL 72
3.6.1 NoSQL 数据库的类别 72
3.6.2 MongoDB 简介 74
3.7 内容回顾与推荐阅读 76
3.8 参考文献 77

4 主题模型——机器的智能摘要利器 78
4.1 由文档到主题 78
4.2 主题模型出现的背景 80
4.3 **个主题模型:潜在语义分析 81
4.4 **个正式的概率主题模型 84
4.5 **个正式的贝叶斯主题模型 85
4.6 LDA 的概要介绍 86
4.6.1 LDA 的延伸理解:主题模型广义理解 . 90
4.6.2 模型求解 92
4.6.3 模型评估 93
4.6.4 模型选择:主题数目的确定 94
4.7 主题模型的变形与应用 95
4.7.1 基于 LDA 的变种模型 95
4.7.2 基于 LDA 的典型应用 97
4.7.3 基于主题模型的新浪名人话题排行榜应用 100
4.8 内容回顾与推荐阅读 104
4.9 参考文献 105

5 机器翻译——机器如何跨越语言障碍 110
5.1 机器翻译的意义 110
5.2 机器翻译的发展历史 111
5.2.1 基于规则的机器翻译 112
5.2.2 基于语料库的机器翻译 112
5.2.3 基于神经网络的机器翻译 114
5.3 经典的神经网络机器翻译模型 114
5.3.1 基于循环神经网络的神经网络机器翻译 114
5.3.2 从卷积序列到序列模型 117
5.3.3 基于自注意力机制的 Transformer 模型 118
5.4 机器翻译译文质量评价 120
5.5 机器翻译面临的挑战 121
5.6 参考文献 123

6 情感分析与意见挖掘——机器如何了解人类情感 125
6.1 情感可以计算吗 125
6.2 哪里需要文本情感分析 . 126
6.2.1 情感分析的宏观反映 127
6.2.2 情感分析的微观特征 128
6.3 情感分析的主要研究问题 129
6.4 情感分析的主要方法 132
6.4.1 构成情感和观点的基本元素 132
6.4.2 情感极性与情感词典 134
6.4.3 属性-观点对 141
6.4.4 情感极性分析 143
6.5 主要的情感分析资源 148
6.6 前景与挑战 149
6.7 内容回顾与推荐阅读 150
6.8 参考文献 151

7 智能问答与对话系统——智能助手是如何炼成的 154
7.1 问答:图灵测试的基本形式 154
7.2 从问答到对话 155
7.2.1 对话系统的基本过程 156
7.2.2 文本对话系统的常见场景 157
7.3 问答系统的主要组成 159
7.4 文本问答系统 161
7.4.1 问题理解 161
7.4.2 知识检索 165
7.4.3 答案生成 169
7.5 端到端的阅读理解问答技术 169
7.5.1 什么是阅读理解任务 170
7.5.2 阅读理解任务的模型 172
7.5.3 阅读理解任务的其他工程技巧 173
7.6 社区问答系统 174
7.6.1 社区问答系统的结构 174
7.6.2 相似问题检索 175
7.6.3 答案过滤 177
7.6.4 社区问答的应用 177
7.7 多媒体问答系统 179
7.8 大型问答系统案例:IBM 沃森问答系统 181
7.8.1 沃森的总体结构 182
7.8.2 问题解析 182
7.8.3 知识储备 183
7.8.4 检索和候选答案生成 184
7.8.5 可信答案确定 184
7.9 前景与挑战 186
7.10 内容回顾与推荐阅读 186
7.11 参考文献 187

8 个性化推荐系统——如何了解计算机背后的他 190
8.1 什么是推荐系统 190
8.2 推荐系统的发展历史 191
8.2.1 推荐无处不在 192
8.2.2 从千人一面到千人千面 193
8.3 个性化推荐的基本问题 194
8.3.1 推荐系统的输入 194
8.3.2 推荐系统的输出 196
8.3.3 个性化推荐的基本形式 197
8.3.4 推荐系统的三大核心问题 198
8.4 典型推荐算法浅析 199
8.4.1 推荐算法的分类 199
8.4.2 典型推荐算法介绍 200
8.4.3 基于矩阵分解的打分预测 207
8.4.4 基于神经网络的推荐算法 213
8.5 推荐的可解释性 214
8.6 推荐算法的评价 217
8.6.1 评分预测的评价 218
8.6.2 推荐列表的评价 219
8.6.3 推荐理由的评价 220
8.7 前景与挑战:我们走了多远 221
8.7.1 推荐系统面临的问题 221
8.7.2 推荐系统的新方向 223
8.8 内容回顾与推荐阅读 225
8.9 参考文献 226

9 机器写作——从分析到创造 228
9.1 什么是机器写作 228
9.2 艺术写作 229
9.2.1 机器写诗 229
9.2.2 AI 对联 233
9.3 当代写作 236
9.3.1 机器写稿 236
9.3.2 机器故事生成 239
9.4 内容回顾 241
9.5 参考文献 242

10 社交商业数据挖掘——从用户数据挖掘到商业智能应用 243
10.1 社交媒体平台中的数据宝藏 . 243
10.2 打通网络社区的束缚:用户网络社区身份的链指与融合 245
10.3 揭开社交用户的面纱:用户画像的构建 247
10.3.1 基于显式社交属性的构建方法 247
10.3.2 基于网络表示学习的构建方法 249
10.3.3 产品受众画像的构建 250
10.4 了解用户的需求:用户消费意图的识别 254
10.4.1 个体消费意图识别 254
10.4.2 群体消费意图识别 256
10.5 精准的供需匹配:面向社交平台的产品推荐算法 258
10.5.1 候选产品列表生成 258
10.5.2 基于学习排序算法的推荐框架 259
10.5.3 基于用户属性的排序特征构建 260
10.5.4 推荐系统的整体设计概览 261
10.6 前景与挑战 262
10.7 内容回顾与推荐阅读 263
10.8 参考文献 264

11 智慧医疗——信息技术在医疗领域应用的结晶 265
11.1 智慧医疗的起源 265
11.2 智慧医疗的庐山真面目 267
11.3 智慧医疗中的人工智能应用 268
11.3.1 医疗过程中的人工智能应用 268
11.3.2 医疗研究中的人工智能应用 272
11.4 前景与挑战 273
11.5 内容回顾与推荐阅读 275
11.6 参考文献 275

12 智慧司法——智能技术促进司法公正 276
12.1 智能技术与法律的碰撞 . 276
12.2 智慧司法相关研究 . 277
12.2.1 法律智能的早期研究 278
12.2.2 判决预测:虚拟法官的诞生与未来 279
12.2.3 文书生成:司法过程简化 283
12.2.4 要素提取:司法结构化 285
12.2.5 类案匹配:解决一案多判 289
12.2.6 司法问答:让机器理解法律 292
12.3 智慧司法的期望偏差与应用挑战 293
12.3.1 智慧司法的期望偏差 293
12.3.2 智慧司法的应用挑战 294
12.4 内容回顾与推荐阅读 295
12.5 参考文献 295

13 智能金融——机器金融大脑 298
13.1 智能金融正当其时 298
13.1.1 什么是智能金融 298
13.1.2 智能金融与金融科技、互联网金融的异同 298
13.1.3 智能金融适时而生 299
13.2 智能金融技术 301
13.2.1 大数据的机遇与挑战 301
13.2.2 智能金融中的自然语言处理 303
13.2.3 金融事理图谱 307
13.2.4 智能金融中的深度学习 310
13.3 智能金融应用 314
13.3.1 智能投顾 314
13.3.2 智能研报 315
13.3.3 智能客服 316
13.4 前景与挑战 317
13.5 内容回顾与推荐阅读 319
13.6 参考文献 319

14 计算社会学——透过大数据了解人类社会 320
14.1 透过数据了解人类社会 320
14.2 面向社会媒体的自然语言使用分析 321
14.2.1 词汇的时空传播与演化 322
14.2.2 语言使用与个体差异 325
14.2.3 语言使用与社会地位 326
14.2.4 语言使用与群体分析 328
14.3 面向社会媒体的自然语言分析应用 330
14.3.1 社会预测 330
14.3.2 霸凌现象定量分析 331
14.4 未来研究的挑战与展望 332
14.5 参考文献 333
后记 334

封面

大数据丛书大数据智能:数据驱动的自然语言处理技术

书名:大数据丛书大数据智能:数据驱动的自然语言处理技术

作者:刘知远

页数:368

定价:¥89.0

出版社:电子工业出版社

出版日期:2018-01-01

ISBN:9787121375385

PDF电子书大小:33MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注