面向机器学习的自然语言标注_PDF下载[64MB-百度云]詹姆斯.普斯特若夫斯基

本书特色

[

自然语言理解是人工智能的一个重要分支，主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面，包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等，既有对基础知识的介绍，又有对新研究进展的综述，同时还结合了作者（JamesPustejovsky，生成词库理论的创始人）多年的研究成果。本书内容全面、详略得当，结合实例讲解，使读者更易理解。

]

作者简介

[

James Pustejovsky教授是美国布兰代斯（Brandeis University）大学计算机科学系和Volen国家综合系统中心教授。先后在美国麻省理工学院和马萨诸塞大学获得学士学位和博士学位。
Pustejovsky教授主要从事自然语言的理论和计算研究。研究领域包括：计算语言学、词汇语义学、知识表征、话语语义学、时间推理和抽取等。已经出版多部专著。

]

目录前言1第1章基础知识71.1 语言标注的重要性 71.1.1 语言学描述的层次81.1.2 什么是自然语言处理91.2 语料库语言学简史101.2.1 什么是语料库131.2.2 语料库的早期应用151.2.3 当今的语料库171.2.4 标注类型181.3 语言数据和机器学习241.3.1 分类251.3.2 聚类251.3.3 结构化模式归纳261.4 标注开发循环261.4.1 现象建模271.4.2 按照规格说明进行标注301.4.3 在语料库上训练和测试算法311.4.4 对结果进行评价321.4.5 修改模型和算法33总结34第2章确定目标与选择数据362.1 定义目标362.1.1 目标陈述372.1.2 提炼目标：信息量与正确性382.2 背景研究432.2.1 语言资源442.2.2 机构与会议442.2.3 自然语言处理竞赛452.3 整合数据集462.3.1 理想的语料库：代表性与平衡性472.3.2 从因特网上收集数据472.3.3 从人群中获取数据482.4 语料库的规模492.4.1 现有语料库502.4.2 语料库内部的分布51总结53第3章语料库分析543.1 语料库分析中的基本概率知识553.1.1 联合概率分布563.1.2 贝叶斯定理583.2 计算出现次数583.2.1 齐普夫定律（Zip’s Law）613.2.2 n元语法623.3 语言模型63总结65第4章建立模型与规格说明664.1 模型和规格说明示例664.1.1 电影题材分类694.1.2 添加命名实体704.1.3 语义角色714.2 采用（或不采用）现有模型734.2.1 创建模型和规格说明：一般性与特殊性744.2.2 使用现有模型和规格说明764.2.3 使用没有规格说明的模型784.3 各种标准784.3.1 ISO标准784.3.2 社区驱动型标准814.3.3 影响标注的其他标准81总结82第5章选择并应用标注标准845.1 元数据标注：文档分类855.1.1 单标签标注：电影评论855.1.2 多标签标注：电影题材875.2 文本范围标注：命名实体905.2.1 内嵌式标注905.2.2 基于词例的分离式标注925.2.3 基于字符位置的分离式标注955.3 链接范围标注：语义角色965.4 ISO标准和你97总结97第6章标注与审核996.1 标注项目的基本结构996.2 标注规格说明与标注指南1016.3 准备修改1026.4 准备用于标注的数据1036.4.1 元数据1036.4.2 数据预处理1046.4.3 为标注工作分割文件1046.5 撰写标注指南1056.5.1 例1：单标签标注——电影评论1066.5.2 例2：多标签标注——电影题材1086.5.3 例3：范围标注——命名实体1116.5.4 例4：链接范围标注——语义角色1126.6 标注人员1146.7 选择标注环境1166.8 评价标注结果1176.8.1 Cohen的Kappa(κ)算法1186.8.2 Fleiss的Kappa(κ)算法1196.8.3 解释Kappa系数1226.8.4 在其他上下文中计算κ值1236.9 创建黄金标准（审核）125总结126第7章训练：机器学习1297.1 何谓学习1307.2 定义学习任务1327.3 分类算法1337.3.1 决策树学习1357.3.2 朴素贝叶斯学习1407.3.3 *大熵分类器1457.3.4 其他需要了解的分类器1477.4 序列归纳算法1487.5 聚类和无监督学习1507.6 半监督学习1507.7 匹配标注与算法153总结154第8章测试与评价1568.1 测试算法1578.2 评价算法1578.2.1 混淆矩阵1578.2.2 计算评价得分1598.2.3 解释评价得分1638.3 可能影响算法评价的问题1648.3.1 数据集太小1648.3.2 算法过于适合开发数据1668.3.3 标注中的信息过多1668.4 *后测试得分167总结167第9章修改与报告1699.1 修改项目1709.1.1 语料库分布和内容1709.1.2 模型和规格说明1709.1.3 标注1719.1.4 训练和测试1729.2 报告工作1739.2.1 关于语料库1749.2.2 关于模型和规格说明1759.2.3 关于标注任务和标注人员1759.2.4 关于ML算法1769.2.5 关于修改177总结177第10章标注：TimeML17910.1 TimeML的设计目标18010.2 相关研究18110.3 建设语料库18210.4 模型：初步的标注规格说明18310.4.1 时间18310.4.2 信号18410.4.3 事件18410.4.4 链接18410.5 标注：*初的尝试18510.6 模型：TimeBank中的TimeML标注规格说明18510.6.1 时间表达式18510.6.2 事件18610.6.3 信号18710.6.4 链接18710.6.5 可信度18910.7 标注：TimeBank的产生18910.8 TimeML成为ISO-TimeML19210.9 对未来建模：TimeML的发展方向19310.9.1 叙事容器19410.9.2 将TimeML扩展到其他领域19510.9.3 事件结构196总结197第11章自动标注：生成TimeML19911.1 TARSQI组件20011.1.1 GUTime：时间标志识别20111.1.2 EVITA：事件识别及分类20111.1.3 GUTenLINK20211.1.4 Slinket20411.1.5 SputLink20411.1.6 TARSQI组件中的机器学习20511.2 TTK的改进20611.2.1 结构变化20611.2.2 时间实体识别改进：BTime20711.2.3 时间关系识别20711.2.4 时间关系验证20811.2.5时间关系可视化20911.3 TimeML竞赛：TempEval-220911.3.1 TempEval-2：系统概述21011.3.2 成果综述21311.4 TTK的未来21311.4.1 新的输入格式21311.4.2 叙事容器/叙事时间21411.4.3 医学文档21511

封面

面向机器学习的自然语言标注

书名:面向机器学习的自然语言标注

作者:詹姆斯.普斯特若夫斯基

页数:293

定价:¥79.0

出版社:机械工业出版社

出版日期:2017-02-01

ISBN:9787111555155

PDF电子书大小:64MB 高清扫描完整版

百度云下载：http://www.chendianrong.com/pdf

面向机器学习的自然语言标注

本书特色

作者简介

目录

封面

发表评论