《Principle of Data Integration.中文版》

Principle of Data Integration.中文版
AnHai Doan, Alon Halevy, Zachary Ive著,孟小峰等译
华章/机械工业出版社,即将于2014年6月出版

译者序

近20年里,数据产生的方式不断得到扩展,带来数据管理需求和任务的不断变化,促使数据管理技术不断推陈出新。数据库管理系统、数据仓库与数据挖掘、数据集成被视为三足鼎立的现代数据管理技术,其在构建信息系统中的作用相当、互为依存、缺一不可。但在人们的认知度上,数据集成技术远不及前两者,其主要原因或许在于缺乏像数据库系统、数据挖掘广为人知的专业教材,使得该技术虽“叫好(广为应用)”,但“不叫座(缺乏教学传播)”。大学鲜有开设此类课程,其知识的积累多散见论文、系统。本书可以说一举改变了数据集成没有专业教材的困局。尤其在当今大数据背景下,其作用尤为突出。

该书是有关数据集成技术的集大成之作。数据集成简单地说是指为多个数据源提供统一访问的技术。数据集成技术已有20多年的研究,大致可分为两个阶段:起初在数据库应用发展到一定阶段,积累了大量封闭、完备的异构数据库,形成了企业异构数据库范畴下的数据集成;其次,随着Web的出现,积累了大量开放、多源异构的数据源(一部分是DBMS支持的数据源,大量的是缺乏结构、不确定的数据源),遂形成了Web多源异构数据源范畴下的数据集成。两者的侧重点有所不同,技术和方法也有所差异,前者是基于封闭世界假设,后者则是基于开放世界假设,难度也大大增加。Alon Halevy等几位作者的研究背景涉及了这两个阶段,因此该书试图将这两个阶段研究成果的共性技术同时呈现在读者面前。该书是以教科书的逻辑整理有关内容,强调知识的基础性和理论性。其第一部分主要介绍数据集成的基本知识,主体基本来自数据库集成的内容,如查询的表示、数据源的描述、模式匹配、查询处理、集成方法等;穿插补充了Web数据集成的内容,如包装器、数据匹配(实体识别)等。第二部分主要介绍扩展数据集成的知识,主要包括XML、语义Web、不确定性、数据溯源等。第三部分介绍各种新的集成技术,包括Web数据集成、基于关键字的按需集成、对等集成、协同集成等。

值此翻译本书之际,译者也在撰写一部同类但侧重点不同的书籍,即《Web数据管理:概念与技术》。该书直接以Web数据为研究对象,系统地介绍了Web数据管理的关键技术,即以第二阶段的数据集成为主线。比较而言,本书的主线是数据集成的基本原理,其知识体系上的厚度和广度令人叹服,但有些内容不够系统略显遗憾。

本书的翻译、统稿和审校由孟小峰组织完成。本书堪称宏篇巨著。具体翻译分工如下:第1章由赵可君翻译;第2章由赵可君、马如霞、马友忠翻译;第3章由王淼翻译;第4章由王璐翻译;第5、7章由马友忠翻译;第6、9、10章由马如霞翻译;第8章由王江涛翻译;第11章由王春凯翻译;第12、13章由李勇翻译;第14章由韩旭翻译;第15章由张榆翻译;第16、17章由干艳桃翻译;第18、19章由慈祥翻译。本书于2013年秋译出初稿,之后由孟小峰逐章进行了修改或重译,并在实验室组织了为期两个月的每周课程讨论班,这期间三易其稿,最后由孟小峰、马如霞、马友忠负责统一定稿。

本书涉及面广,内容丰富,术语量大,翻译难度可想而知。本书译词主要遵从教科书中的习惯用法,并参考《计算机科学技术名词》等。在翻译中深感力不从心,译文中不当之处在所难免。诚恳读者批评指正并不吝赐教。如果你有任何建议或意见,欢迎发邮件给xfmeng@ruc.edu.cn。