自然语言处理理论与实战

本书特色

[

基础部分

介绍在自然语言交叉学科中,工程应用常用的学科知识,包括自然语言处理概述、Python 基础知识和环境搭建、线性代数、概率论、统计学、语言学。

理论部分

介绍自然语言处理常用的理论知识,包括自然语言处理任务限制、技术范畴、语料库、中文自动分词、数据预处理、马尔可夫模型、条件随机场、模型评估和命名实体识别。

实战部分

通过GitHub 数据提取与可视化分析、微博话题爬取与存储分析,综合介绍网络爬虫、中文分词、数据处理、模型选择、数据分析、自然语言处理工具和数据可视化等技术点。

]

内容简介

[

本书分四个部分,靠前部分主要介绍基础知识,包括认识机器学习和自然语言处理、快速上手Python、线性代数、概率论和统计学;第二部分主要介绍自然语言处理技术,包括自然语言处理介绍、语料库技术、中文分词、数据预处理、马尔科夫模型、条件随机场、模型评估、剖析自然处理工具背后的原理;第三部分主要介绍机器学习技术,包括认识机器学习、常见机器学习算法、机器学习算法案例源码实现。第四部分主要介绍工程项目实践,包括Python项目实战、自然语言处理项目实战、机器学习结合自然语言处理综合项目实战。

]

作者简介

[

唐聃教授,中科院工学博士。现工作于成都信息工程大学软件工程学院。研究方向包括自然语言处理、信息安全、数据分析。曾参与多项国家863项目和中科院知识创新工程项目、省科技厅和教育厅项目;2016年入选中国科学院西部之光人才计划(中国科学院西部青年学者)。白宁超四川省计算机研究院软件开发工程师,曾参与多项四川省科技厅项目。其自然语言处理系列博文曾被CSDN、博客园、阿里云栖等多个技术社区转载。

]

目录

目录第1 章基础入门1.1 什么是自然语言处理1.1.1 自然语言处理概述 1.1.2 自然语言处理的发展历史 1.1.3 自然语言处理的工作原理 1.1.4 自然语言处理的应用前景 1.2 开发工具与环境 1.2.1 Sublime Text 和Anaconda 介绍 1.2.2 开发环境的安装与配置 1.3 实战:**个小程序的诞生 1.3.1 实例介绍 1.3.2 源码实现 第2 章快速上手Python2.1 初识Python 编程语言 2.1.1 Python 概述 2.1.2 Python 能做什么 2.1.3 Python 的语法和特点 2.2 Python 进阶 2.2.1 Hello World 2.2.2 语句和控制流 2.2.3 函数 2.2.4 List 列表 2.2.5 元组 2.2.6 set 集合 2.2.7 字典 2.2.8 面向对象编程:类 2.2.9 标准库 2.3 Python 深入——第三方库 2.3.1 Web 框架 2.3.2 科学计算 2.3.3 GUI 2.3.4 其他库 第3 章线性代数3.1 线性代数介绍 3.2 向量 3.2.1 向量定义 3.2.2 向量表示 3.2.3 向量定理 3.2.4 向量运算 3.3 矩阵 3.3.1 矩阵定义 3.3.2 矩阵表示 3.3.3 矩阵运算 3.3.4 线性方程组 3.3.5 行列式 3.3.6 特征值和特征向量 3.4 距离计算 3.4.1 余弦距离 3.4.2 欧氏距离 3.4.3 曼哈顿距离 3.4.4 明可夫斯基距离 3.4.5 切比雪夫距离 3.4.6 杰卡德距离 3.4.7 汉明距离 3.4.8 标准化欧式距离 3.4.9 皮尔逊相关系数 第4 章概率论4.1 概率论介绍 4.2 事件 4.2.1 随机试验 4.2.2 随机事件和样本空间 4.2.3 事件的计算 4.3 概率 4.4 概率公理 4.5 条件概率和全概率 4.5.1 条件概率 4.5.2 全概率 4.6 贝叶斯定理 4.7 信息论 4.7.1 信息论的基本概念 4.7.2 信息度量 第5 章统计学 5.1 图形可视化 5.1.1 饼图 5.1.2 条形图 5.1.3 热力图 5.1.4 折线图 5.1.5 箱线图 5.1.6 散点图 5.1.7 雷达图 5.1.8 仪表盘 5.1.9 可视化图表用法 5.2 数据度量标准 5.2.1 平均值 5.2.2 中位数 5.2.3 众数 5.2.4 期望 5.2.5 方差 5.2.6 标准差 5.2.7 标准分 5.3 概率分布 5.3.1 几何分布 5.3.2 二项分布 5.3.3 正态分布 5.3.4 泊松分布 5.4 统计假设检验 5.5 相关和回归 5.5.1 相关 5.5.2 回归 5.5.3 相关和回归的联系 第6 章语言学 6.1 语音 6.1.1 什么是语音 6.1.2 语音的三大属性 6.1.3 语音单位 6.1.4 记音符号 6.1.5 共时语流音变 6.2 词汇 6.2.1 什么是词汇 6.2.2 词汇单位 6.2.3 词的构造 6.2.4 词义及其分类 6.2.5 义项与义素 6.2.6 语义场 6.2.7 词汇的构成 6.3 语法 6.3.1 什么是语法 6.3.2 词类 6.3.3 短语 6.3.4 单句 6.3.5 复句 第7 章自然语言处理7.1 自然语言处理的任务和限制 7.2 自然语言处理的主要技术范畴 7.2.1 语音合成 7.2.2 语音识别 7.2.3 中文自动分词 7.2.4 词性标注 7.2.5 句法分析 7.2.6 文本分类 7.2.7 文本挖掘 7.2.8 信息抽取 7.2.9 问答系统 7.2.10 机器翻译 7.2.11 文本情感分析 7.2.12 自动摘要 7.2.13 文字蕴涵 7.3 自然语言处理的难点 7.3.1 语言环境复杂 7.3.2 文本结构形式多样 7.3.3 边界识别限制 7.3.4 词义消歧 7.3.5 指代消解 7.4 自然语言处理展望 第8 章语料库 8.1 语料库浅谈 8.2 语料库深入 8.3 自然语言处理工具包:NLTK 8.3.1 NLTK 简介 8.3.2 安装NLTK 8.3.3 使用NLTK 8.3.4 在Python NLTK 下使用Stanford NLP 8.4 获取语料库 8.4.1 国内外著名语料库 8.4.2 网络数据获取 8.4.3 NLTK 获取语料库 8.5 综合案例:走进大秦帝国 8.5.1 数据采集和预处理 8.5.2 构建本地语料库 8.5.3 大秦帝国语料操作 第9 章中文自动分词9.1 中文分词简介 9.2 中文分词的特点和难点 9.3 常见中文分词方法 9.4 典型中文分词工具 9.4.1 HanLP 中文分词 9.4.2 其他中文分词工具 9.5 结巴中文分词 9.5.1 基于Python 的结巴中文分词 9.5.2 结巴分词工具详解 9.5.3 结巴分词核心内容 9.5.4 结巴分词基本用法 第10 章数据预处理 10.1 数据清洗 10.2 分词处理 10.3 特征构造 10.4 特征降维与选择 10.4.1 特征降维 10.4.2 特征选择 10.5 简单实例 10.6 本章小结 第11 章马尔可夫模型11.1 马尔可夫链 11.1.1 马尔可夫简介 11.1.2 马尔可夫链的基本概念 11.2 隐马尔可夫模型 11.2.1 形式化描述 11.2.2 数学形式描述 11.3 向前算法解决HMM 似然度 11.3.1 向前算法定义 11.3.2 向前算法原理 11.3.3 现实应用:预测成都天气的冷热 11.4 文本序列标注案例:Viterbi 算法 第12 章条件随机场 12.1 条件随机场介绍 12.2 简单易懂的条件随机场 12.2.1 CRF 的形式化表示 12.2.2 CRF 的公式化表示 12.2.3 深度理解条件随机场 第13 章模型评估13.1 从统计角度介绍模型概念 13.1.1 算法模型 13.1.2 模型评估和模型选择 13.1.3 过拟合与欠拟合的模型选择 13.2 模型评估与选择 13.2.1 模型评估的概念 13.2.2 模型评估的评测指标 13.2.3 以词性标注为例分析模型评估 13.2.4 模型评估的几种方法 13.3 ROC 曲线比较学习器模型 第14 章命名实体识别14.1 命名实体识别概述 14.2 命名实体识别的特点与难点 14.3 命名实体识别方法 14.4 中文命名实体识别的核心技术 14.5 展望 第15 章自然语言处理实战15.1 GitHub 数据提取与可视化分析 15.1.1 了解GitHub 的API 15.1.2 使用NetworkX 作图 15.1.3 使用NetworkX 构建兴趣图 15.1.4 NetWorkX 部分统计指标 15.1.5 构建GitHub 的兴趣图 15.1.6 可视化 15.2 微博话题爬取与存储分析 15.2.1 数据采集 15.2.2 数据提取 15.2.3 数据存储 15.2.4 项目运行与分析 附录A Python 与其他语言调用 附录B Git 项目上传简易教程 参考文献

封面

自然语言处理理论与实战

书名:自然语言处理理论与实战

作者:唐聃 等

页数:360

定价:¥79.0

出版社:电子工业出版社

出版日期:2017-05-01

ISBN:9787121343902

PDF电子书大小:133MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注