面向机器学习的自然语言标注

本书特色

[

自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对新研究进展的综述,同时还结合了作者(JamesPustejovsky,生成词库理论的创始人)多年的研究成果。本书内容全面、详略得当,结合实例讲解,使读者更易理解。

]

作者简介

[

James Pustejovsky教授是美国布兰代斯(Brandeis University)大学计算机科学系和Volen国家综合系统中心教授。先后在美国麻省理工学院和马萨诸塞大学获得学士学位和博士学位。
Pustejovsky教授主要从事自然语言的理论和计算研究。研究领域包括:计算语言学、词汇语义学、知识表征、话语语义学、时间推理和抽取等。已经出版多部专著。

]

目录

目录前言1第1章 基础知识71.1 语言标注的重要性 71.1.1 语言学描述的层次81.1.2 什么是自然语言处理91.2 语料库语言学简史101.2.1 什么是语料库131.2.2 语料库的早期应用151.2.3 当今的语料库171.2.4 标注类型181.3 语言数据和机器学习241.3.1 分类251.3.2 聚类251.3.3 结构化模式归纳261.4 标注开发循环261.4.1 现象建模271.4.2 按照规格说明进行标注301.4.3 在语料库上训练和测试算法311.4.4 对结果进行评价321.4.5 修改模型和算法33总结34第2章 确定目标与选择数据362.1 定义目标362.1.1 目标陈述372.1.2 提炼目标:信息量与正确性382.2 背景研究432.2.1 语言资源442.2.2 机构与会议442.2.3 自然语言处理竞赛452.3 整合数据集462.3.1 理想的语料库:代表性与平衡性472.3.2 从因特网上收集数据472.3.3 从人群中获取数据482.4 语料库的规模492.4.1 现有语料库502.4.2 语料库内部的分布51总结53第3章 语料库分析543.1 语料库分析中的基本概率知识553.1.1 联合概率分布563.1.2 贝叶斯定理583.2 计算出现次数583.2.1 齐普夫定律(Zip’s Law)613.2.2 n元语法623.3 语言模型63总结65第4章 建立模型与规格说明664.1 模型和规格说明示例664.1.1 电影题材分类694.1.2 添加命名实体704.1.3 语义角色714.2 采用(或不采用)现有模型734.2.1 创建模型和规格说明:一般性与特殊性744.2.2 使用现有模型和规格说明764.2.3 使用没有规格说明的模型784.3 各种标准784.3.1 ISO标准784.3.2 社区驱动型标准814.3.3 影响标注的其他标准81总结82第5章 选择并应用标注标准845.1 元数据标注:文档分类855.1.1 单标签标注:电影评论855.1.2 多标签标注:电影题材875.2 文本范围标注:命名实体905.2.1 内嵌式标注905.2.2 基于词例的分离式标注925.2.3 基于字符位置的分离式标注955.3 链接范围标注:语义角色965.4 ISO标准和你97总结97第6章 标注与审核996.1 标注项目的基本结构996.2 标注规格说明与标注指南1016.3 准备修改1026.4 准备用于标注的数据1036.4.1 元数据1036.4.2 数据预处理1046.4.3 为标注工作分割文件1046.5 撰写标注指南1056.5.1 例1:单标签标注——电影评论1066.5.2 例2:多标签标注——电影题材1086.5.3 例3:范围标注——命名实体1116.5.4 例4:链接范围标注——语义角色1126.6 标注人员1146.7 选择标注环境1166.8 评价标注结果1176.8.1 Cohen的Kappa(κ)算法1186.8.2 Fleiss的Kappa(κ)算法1196.8.3 解释Kappa系数1226.8.4 在其他上下文中计算κ值1236.9 创建黄金标准(审核)125总结126第7章 训练:机器学习1297.1 何谓学习1307.2 定义学习任务1327.3 分类算法1337.3.1 决策树学习1357.3.2 朴素贝叶斯学习1407.3.3 *大熵分类器1457.3.4 其他需要了解的分类器1477.4 序列归纳算法1487.5 聚类和无监督学习1507.6 半监督学习1507.7 匹配标注与算法153总结154第8章 测试与评价1568.1 测试算法1578.2 评价算法1578.2.1 混淆矩阵1578.2.2 计算评价得分1598.2.3 解释评价得分1638.3 可能影响算法评价的问题1648.3.1 数据集太小1648.3.2 算法过于适合开发数据1668.3.3 标注中的信息过多1668.4 *后测试得分167总结167第9章 修改与报告1699.1 修改项目1709.1.1 语料库分布和内容1709.1.2 模型和规格说明1709.1.3 标注1719.1.4 训练和测试1729.2 报告工作1739.2.1 关于语料库1749.2.2 关于模型和规格说明1759.2.3 关于标注任务和标注人员1759.2.4 关于ML算法1769.2.5 关于修改177总结177第10章 标注:TimeML17910.1 TimeML的设计目标18010.2 相关研究18110.3 建设语料库18210.4 模型:初步的标注规格说明18310.4.1 时间18310.4.2 信号18410.4.3 事件18410.4.4 链接18410.5 标注:*初的尝试18510.6 模型:TimeBank中的TimeML标注规格说明18510.6.1 时间表达式18510.6.2 事件18610.6.3 信号18710.6.4 链接18710.6.5 可信度18910.7 标注:TimeBank的产生18910.8 TimeML成为ISO-TimeML19210.9 对未来建模:TimeML的发展方向19310.9.1 叙事容器19410.9.2 将TimeML扩展到其他领域19510.9.3 事件结构196总结197第11章 自动标注:生成TimeML19911.1 TARSQI组件20011.1.1 GUTime:时间标志识别20111.1.2 EVITA:事件识别及分类20111.1.3 GUTenLINK20211.1.4 Slinket20411.1.5 SputLink20411.1.6 TARSQI组件中的机器学习20511.2 TTK的改进20611.2.1 结构变化20611.2.2 时间实体识别改进:BTime20711.2.3 时间关系识别20711.2.4 时间关系验证20811.2.5时间关系可视化20911.3 TimeML竞赛:TempEval-220911.3.1 TempEval-2:系统概述21011.3.2 成果综述21311.4 TTK的未来21311.4.1 新的输入格式21311.4.2 叙事容器/叙事时间21411.4.3 医学文档21511

封面

面向机器学习的自然语言标注

书名:面向机器学习的自然语言标注

作者:詹姆斯.普斯特若夫斯基

页数:293

定价:¥79.0

出版社:机械工业出版社

出版日期:2017-02-01

ISBN:9787111555155

PDF电子书大小:64MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注