基于上下文仲裁的语义信息集成研究

节选

[

  模式的外在语义和模式暗含的语义构成了模式的完整语义。在信息集成过程中应该全面解决模式的语义异构问题。即使在模式的外在语义异构已经得到全面解决的前提下,从信息集成系统返回的结果仍然是不够准确的。模式描述的是数据的“型”的问题,一个完整的数据应该由型和值共同组成。因此,要彻底解决分布数据源之问的语义异构,仅仅解决模式级的异构是不够的,还有数据级的异构需要解决。  数据级异构主要表现为现实世界中的同一个实体,在不同数据源中由于采用不同文字捕述而无法判断其是否相同。在同一个数据源内部个体的识别问题非常简单,主要有两种方法:①统一标识法:在同一个数据源内部,可以为相关实体分配标识符,标识符的唯一性可以由人工分配或系统软件采用一定的算法控制。②精确属性匹配法:如果实体没有唯一的标识符来区别不同实体时,数据源内部用来区别不同实体的方法一般是采用关键字法,即为一个实体指定若干个特征属性,这些特征属性的取值可以唯一地判定一个实体。这些属性的集合就是这个实体的关键字。通过对这些属性进行精确匹配来完成数据源内部不同实休的识别。  在分布环境中,各个数据源由不同的组织或个人出于不同的目的分别建立的.由于数据源的设计者关心的角度不同,即使是现实世界中的同一个个体,在不同的数据源中既不可能有相同的标识符,也不可能有相同的特征属性,更不要说这些特征属性会有完全相同的文字描述。例如,对于同一个实体“书”,在一个书店的数据库中名为《小学生每日20分钟数学弱项·二年级上》,而在另一个书店,书名为《新课标2年级上·小学生每日20分钟数学弱项》。因此在分布环境中采用实体的特征属性的精确匹配来进行个体识别也是不可能的。  根据信息集成应用的领域可以分为横向集成和纵向集成。横向集成主要指参加集成的数据源描述的是不同但相关的领域的信息,例如B2B电子商务活动中合作伙伴之问的信息集成,制造业供应链上的合作伙伴之问的信息集成等。纵向集成主要指参加集成的数据源描述的是相同领域的信息,例如Wcb上不同的零售商店(比较购物),不同航空公司的机票预定(智能订票)等。  为了能够进行有效的比较,无论是横向集成还是纵向集成,系统必须提供相应的手段来判断:不同数据源中的个体实际上是否是现实世界中的同一个个体。而传统的统一标识符法和属性精确匹配法显然无法做到,必须寻找其他的方法来实现分布数据源中个体识别的问题。  ……

]

内容简介

[

  对分布异构的数据源进行无缝访问来获得相关的信息,从而达到信息共享、重用和信息系统之间的互操作已经成为当前信息社会越来越紧迫的需要。’而数据源之间存在的多种异构极大地阻碍了这种需要的实现。信息集成是实现这种需要的可行的办法,其核心问题是消除数据源之间的语义异构。  基于本体的语义信息集成通过建立本体来描述全局模式,在本体和各个异构的数据源模式之间建立模式映射来消除数据源之间的语义异构。这种解决办法的不足之处在于:通过模式映射的方式解决的仅仅是数据源之间的模式级异构,而数据源之间的异构不仅仅包括模式异构,还包括其他类型的异构。片面地解决其中某一种异构,得到的结果不仅不能让用户充分共享和重用已有的信息,反而会给用户造成迷惑和误解,导致用户做出错误的判断。

]

作者简介

[

  周建芳,女,生于1972年,博士,副教授,硕士生导师。现为武汉体育学院体育工程与信息技术学院教师。长期从事信息技术应用研究和教学工作。主要研究方向为分布式数据库、语义信息集成等。

]

封面

基于上下文仲裁的语义信息集成研究

书名:基于上下文仲裁的语义信息集成研究

作者:周建芳

页数:174

定价:¥38.0

出版社:中国地质大学出版社

出版日期:2013-08-01

ISBN:9787562532460

PDF电子书大小:134MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注