海量网络学术文献自动分类研究_PDF下载[92MB-百度云]王效岳

节选

[

　　《海量网络学术文献自动分类研究》：　　HDFS中的块是一个抽象概念，作为分布式文件系统，HDFS被设计用来处理大文件，使用抽象块会带来很多好处。**个好处是，一个文件可以大于网络中任意一个磁盘的容量，文件的分块不需要存储在同一个磁盘上，可以利用集群上的任意一个磁盘；第二个好处是，使用抽象块而不是文件，作为操作单元，可简化存储子系统。简化存储子系统是所有系统的追求，但对于故障种类繁多的分布式系统来说尤为重要，存储子系统控制的是块，简化了存储管理。HDFS的块大小是固定的，这样就简化了存储系统的管理，特别是元数据信息可以和文件块内容分开存储；第三个好处是，块有利于提供容错和实用性而做的复制操作，在HDFS中为了处理节点故障，默认将副本数设定为3份，分别存储在集群的不同节点上。当一个块损坏时，系统会通过名称节点获取元数据信息，在另外的机器上读取一个副本并进行存储。文件块副本数可以根据需要进行配置，比如在有些应用中，可能会为操作频率较高的文件块，设置较高的副本数量以提高集群的吞吐量。　　2.名称节点与数据节点　　HDFS体系结构中有两类节点：名称节点（NameNode）和数据节点（DataNode）。在Hadoop集群中，一般会有一个名称节点和多个数据节点，名称节点管理集群中的任务调度，数据节点是具体任务的执行节点。名称节点通过远程过程调用接口，支持文件系统命名空间中文件和目录的打开、关闭和重命名等操作，决定数据块和数据节点的映射关系。名称节点负责维护文件系统的命名空间和客户端的文件访问，从名称节点中可以获得所有文件每个块所在的数据节点，这些信息不是永久保存的，名称节点会在每次启动系统时动态地自动重建这些信息。当运行任务时，客户端通过名称节点获取元数据信息，和数据节点进行交互以访问整个文件系统。　　……

]

内容简介

[

　　本书针对文本分类方法在发展过程中出现的问题，围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开探讨。深入研究了海量网络学术文献处理技术，比较分析了适合网络文献自动获取及并行处理的工具；设计了基于Heritrix与Hadoop平台的海量网络学术文献获取及并行处理模型和基于WordNet与SUMO本体集成的语义驱动自动文档分类模型；梳理了本体以及本体集成理论、方法和工具；开发了海量网络学术文献并行获取和自动分类原型系统。

]

作者简介

[

　　王效岳，男，1961年生，工学博士，教授，山东理工大学科技信息研究所所长。中国图书馆学会高等学校图书馆分会委员，山东省科技情报学会副理事长，山东省图书馆学会常务理事。研究方向为数据挖掘与信息处理技术。主编及参编学术著作6部，省部级课题6项、厅局级课题10余项，发表学术论文80余篇，其中被EI、CSSCI索引30余篇。授权发明专利3项。获省科技进步3等奖l项，厅局级科技进步2等奖2项、3等奖3项。白如江，男，1979年生，管理学博士，副研究馆员，山东理工大学图书馆数字资源部主任。研究领域包括文本数据挖掘、自然语言处理、信息检索技术、高科技战略情报研究等。主持国家社科青年基金项目l项，教育部人文社会科学青年基金项目等省部级课题多项。

]

序绪论**章网络爬虫**节网络爬虫一、开源网络爬虫工具二、爬虫工具比较分析第二节 Hadoop平台一、Hadoop与其他系统的比较二、Hadoop项目及结构三、Hadoop分布式文件系统四、MapReduce编程模型五、Hadoop平台搭建第二章海量网络学术文献获取及并行处理模型**节网络学术文献的主要来源及常用文件格式一、网络学术文献的主要来源及特点二、网络学术文献的常用文件格式第二节网络学术文献自动获取实验一、实验环境二、实验平台搭建第三节网络学术文献资源获取一、网络学术文献获取方案二、种子站点的选择三、抓取任务的配置四、文件类型和大小过滤五、网络学术文献获取实验结果第四节网络学术文献资源判定第五节网络学术文献并行处理一、数据预处理二、并行处理第六节 MapReduce任务优化一、任务调度二、任务数量三、Combine函数四、文件压缩五、重用JVM六、网络学术文献并行处理模块实验结果第三章本体集成**节本体研究一、本体概念二、本体基本构成要素三、本体类型四、本体表示语言第二节本体库研究一、国内外主要本体库二、本体库比较分析第三节本体集成基本过程第四节本体集成工具一、工具介绍二、工具比较与分析第五节本体集成方法一、基于形式概念分析（FCA）的本体集成方法二、基于范畴论的本体集成方法三、基于RDFS图闭包的本体集成方法第四章基于语义驱动文本自动分类研究**节文档自动分类基本理论一、文档自动分类基本概念二、文档自动分类基本流程三、文档自动分类性能评价指标第二节基于语义驱动文档自动分类概念第三节基于语义驱动文档自动分类实现基础第四节基于语义驱动文档自动分类方法模型一、词向量空间构建二、语义向量空间构建第五章基于本体集成的文档语义分类模型**节 SUMO和WordNet本体库概述一、WordNet本体库二、SUMO本体库第二节 WordNet与SUMO本体库映射机制研究一、映射动机二、映射模型三、映射实例四、映射效果及应用分析第三节基于WordNet与SUMO本体集成文档语义分类模型设计与实现一、实验平台构建二、实验数据集及方法三、集成本体库构建四、词向量空间到概念向量空间的映射五、概念向量空间通用化六、分类模型训练与测试过程描述七、实验评估指标八、实验及结果分析第六章海量网络学术文献自动分类系统**节海量网络学术文献自动分类系统一、开发环境二、海量网络学术文献自动获取模块三、海量网络学术文献词一文档矩阵处理模块四、本体集成模块五、基于语义驱动的分类模块第二节海量网络学术文献自动分类系统实现一、系统主要技术及标准二、系统功能第七章总结及展望**节总结第二节展望附录A附录B附录C附录D参考文献索引后记