大数据管理丛书

当下大数据技术发展变化日新月异,大数据应用已经遍及工业界和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在20世纪六七十年代编写的计算机知识体系上施教,无法把当下大数据带给我们的新思维、新知识传导给学生。

为此,我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。

在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。

丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之间的鸿沟,力图为现有的数据管理知识查漏补全,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。

丛书特点:丛书借鉴Morgan & Claypool Publishers 出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。

丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。

如今数据洪流席卷全球,而中国正在努力从数据大国走向数据强国,大数据时代的知识更新和人才培养刻不容缓,虽然我们的力量有限,但聚少成多,积小致巨。因此,我们在设计本套丛书封面的时候,特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅聚卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱,共同谱写出我们这个大数据时代的盛世华章。

编辑为本书封面选取了清代苏州籍宫廷画家徐扬的巨幅长卷画作《姑苏繁华图》。在画中,画家通过自己对城市的理解,重现了苏州“商贾辐辏,百货骈阗”的市井风情。令人惊叹的是,据说全画中有各色人物1万2千余人。将他们的活动一一刻画出来是一个浩大的工程,反映了画家对苏州居民生活和出行规律的深刻理解,这月完美呼应了本书的主题。

在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。

《大数据管理概论》

大数据管理概论
孟小峰 著,机械工业出版社

陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。

对数据库领域而言,真正的“预流”是Jim Gray和Michael Stone-braker等大师们。十三年前面对“数据库领域还能再活跃30年吗”这一问题,Jim Gray给出的回答是:“不可能。在数据库领域里,我们已经非常狭隘。”但他转而回答到:“SIGMOD这个词中的MOD表示‘数据管理’。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据和表示数据,特别是数据表示部分。针对数据查询已经做了相当多的工作,但这些工作仅仅围绕查询画了个‘艾普西龙球面’,而没有真正超越它。所以,如果我们还像以前一样把研究与现实脱离开来,还继续保持狭隘的眼光审视自己所做的研究,数据库领域将要消失,因为那些研究越来越偏离实际。现在人们已经拥有太多数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。如果你用一种大而广的眼光看,数据库是一个蓬勃发展的领域;如果采用审视的眼光看,现在做的很多研究对30年后的人们不会产生任何影响”(见《数据库大师访谈录》)。

最近人们提出了“数据湖”,以区别传统的“数据库”技术。两者的差别到底何在呢?偶读了费孝通先生所著的《乡土中国》后,笔者略有所悟。费老分析总结了中国乡土社会结构,指出中国社会呈现出所谓的“差序格局”,而西方社会呈现的是“团体格局”。传统数据库结构关系单一,呈现状态犹如“团体格局”,即以单个实体为本位,实体之间的关系好比一捆柴,几根成一把,几把成一扎,条理清楚,有共同的模式可循。而当下大数据来源广泛,关系复杂,远近亲疏各不同,这种关系就好比“差序格局”,以语义主题为本位,每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络,这个网络按照语义关系的紧密亲疏呈现“差序”状态,就如同湖面丢下的石子形成的水波纹依中心扩散开去的样子。这种状态随着实体间关系的变化而动态演化,并且每个网络的大小不同,体现的语义关系也不同,蕴含的价值也不同。

数据库的“团体格局”本质上是先有模式后有数据,因此数据集成可以采用中介模式(GAV和LAV)以自顶向下的方式实现集成。数据湖的“差序格局”是先有数据后有模式,因此需要按照自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中一个个维系我们社会的“水波纹”(即语义关联的紧密程度)。

本书涵盖大数据管理的理论、方法、技术等诸多方面,集成了大数据融合、存储、分析、隐私和系统等方面的工作。本书共分7章:第1章描述大数据的概念、演变过程和处理模式;第2章提出大数据融合的概念,分析大数据融合的独特性和任务,给出大数据融合的方法论;第3章介绍大数据存储与管理方法;第4章描述大数据分析技术,包括实时分析、交互分析、智能分析等;第5章讲述大数据涉及的隐私问题,主要介绍不同领域中的隐私保护问题及其隐私保护技术;第6章介绍大数据管理系统,并分析其体系结构;第7章是基于大数据的交叉学科研究,介绍在线用户行为演化的相关研究。本书适合对大数据管理领域有兴趣的学生、研究人员和相关从业人员阅读参考。

本书中涉及的研究工作得到众多科研项目的支持,其中包括:国家自然基金重点项目——“大规模关联数据管理的关键技术研究”(编号:61532010);国家自然基金重点项目——“面向大数据内存计算的计算机体系结构”(编号:61532016);国家重点研发项目——“科学大数据管理系统”(编号:2016YFB1000600);中国人民大学重点科学研究基金重大基础研究项目——“社会计算若干关键问题研究”(编号:11XNL010);高等学校博士学科点专项科研基金优先领域课题——“云计算环境下的在线聚集技术研究”(编号:20130004130001);国家自然基金重大研究计划重点项目——“大数据开放与治理中的隐私保护关键技术研究”(编号:91646203)。

本书架构的安排以及统稿、审校工作由孟小峰组织完成,这里要特别感谢王春凯、杜治娟、郭崎、杨晨、王硕、叶青青和李勇,在本书的编写过程中他们给予了极大的帮助。

本书涉及面广,内容丰富,术语量大,如果在阅读过程中发现有不当之处,恳请读者批评指正;如果有任何建议或意见,欢迎发邮件与作者(xfmeng@ruc.edu.cn)联系。

孟小峰
2016年9月28日于北京

《大数据、小数据、无数据》

大数据、小数据、无数据
孟小峰 张祎 赵尔平 译,机械工业出版社

已故的图灵奖得主吉姆·格雷(Jim Gray)在其《事务处理》一书中提到:6000 年前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上的,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及莎草纸、羊皮纸等阶段。19世纪后期,打孔卡片出现,并用于 1890 年的美国人口普查。用卡片取代土块,使得系统可以每秒查找或更新一个“卡片”(土块)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时社会结构的复杂程度和生产力水平密切相关的。

随着人类进入 21 世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构日趋复杂,生产力水平得到极大提升,人类创造性活力得到充分释放。与之相应的数据规模和处理系统也发生了巨大改变,从而催涌了当下众人热议的大数据局面。

其实数据本无所谓大小,也没有高低贵贱之分,只有应用才是促使我们前行的动力。人们使用“数据”这一术语已经是第五个世纪了,但其至今仍没有一个公认的定义。克莉丝汀L. 伯格曼在此书中认为数据既不是客观事物,也不是带有自身特征的自然对象,数据只是对客观对象中某些可观测到的现象的描述,这些描述会因人而异、因地而异和因时而异。如何把客观事物概念化为数据,就是大数据的本质。

本书立足于大数据背景,深入探讨了学术界的数据现状,并详细阐释了数据与学术之间的复杂关系,最终提出了数据学术在政策与实践中面临的挑战。全书主要分为三部分。第一部分是数据与学术,主要介绍数据相关的基本概念。其中,第1章描述了学术界“大数据”“小数据”和“无数据”三者并存的现状,“大数据”的特征,以及“小数据”甚至“无数据”的原因,并总结了大数据时代学术界面临的六大挑战。第2章全面介绍了“何为数据”这一问题,总结了不同的“数据”定义及其分类方式,并随之提出了本书中“数据”一词的含义,即出于研究或学术目的,一些现象需要观察结果、研究对象和其他实体承担论据的角色,而数据就是这些论据的表示方式。第3章在“知识基础设施”背景下,从社会与技术、开放学术、交流融合几个角度描述了数据与学术之间的复杂关系。第4章阐述了学术活动中数据的“多样性”特点,提出了数据大小问题,以及包括距离问题和外部影响因素在内的数据产生问题。该章内容奠定了第二部分中数据学术案例分析的基本框架。一般而言,学术可以分为自然科学、社会科学和人文学科三大领域,每个领域又囊括了不同学科。不同学科之间的数据量存在天壤之别。因此,第二部分从自然科学、社会科学和人文学科三个领域出发,在每个领域中分别选择了“大数据学科”和“小数据甚至无数据学科”的案例,从而进一步论证了数据与学术之间的复杂关系。基于前两部分内容,第三部分主要围绕三个问题展开:数据共享、发布与重用,数据信誉、归属与发现,保存何种数据及其原因。这一部分主要探索了数据政策与实践中涉及到的相关问题和严峻挑战。

“在中国传统文化中,最高的状态是意会的境界。大,意味着多。多,意味着无穷无尽,无穷无尽就是空。既无穷莫测,故实则虚之。实则虚之,是中国人的文化密码,投射到每个人的心中。”(引自《故宫100:至大无外》。)本书以数据为主线,将学术研究的三大学科贯穿起来,形成交叉学科的典范。希望本书能成为交叉学科研究的文化密码,投射到每个人的心中,打破数据的利益壁垒,构筑数据学术的大同世界。其实大数据的归宿是无穷无尽,无穷无尽就是空。

本书的翻译、统稿和审校由孟小峰组织完成。具体翻译分工如下:第1章由赵尔平翻译;第2章由张祎翻译;第3章由张祎、朱敏杰和杜治娟翻译;第4章由杜治娟和郭胜娜翻译;第5章由郭胜娜、李进、王春凯和吴文妹翻译;第6章由吴文妹、叶青青和杨晨翻译;第7章由杨晨、郝泽慧、任玮和郭豫龙翻译;第8章由郭豫龙、秦楷迪和翁祖建翻译;第9章由翁祖建、王硕和孙箐阳翻译;第10章由孙箐阳和忻日辉翻译。本书于2016年冬译出初稿,之后由孟小峰、张祎和赵尔平逐章进行了修改或重译,这期间三易其稿,最后由孟小峰负责统一定稿。

本书涉及自然科学、社会科学和人文学科三大领域的多个学科,内容丰富,术语量大,翻译工作的难度可想而知。本书术语主要遵从对应学科领域中学术论文的习惯用法。译者在翻译过程中备感力不从心,不当之处在所难免,恳请读者批评指正并不吝赐教。如果有任何建议或意见,欢迎发邮件至xfmeng@ruc.edu.cn。

译者
2017年5月16日于北京

《大数据集成》

大数据集成
王秋月 杜治娟 王硕 译,机械工业出版社

大数据集成是两大重要工作的结合:一个相对较老----数据集成;另一个相对较新----大数据。

只要存在人们要将多个数据集链接并融合起来以提升它们价值的情况,数据集成就必不可少。早在计算机科学家开始研究这一领域之前,统计学家们就已经取得了许多进展,因为他们迫切需要关联和分析随时间不断积累的普查数据集。数据集成任务具有很大的挑战性是由多种原因造成的,不仅仅因为我们表示现实世界中实体的方式多种多样。为了有效地应对这些挑战,在过去几十年里,数据集成研究者们已经在一些基础问题,即模式对齐、记录链接和数据融合,专门针对结构化数据的研究上,取得了巨大进步。

近年来,我们在将现实世界中的每个事件和交互都捕获成数字化数据方面的能力增长十分显著。伴随着这种能力的增长,我们渴望从这些数据中分析和抽取出价值,从而迎来了大数据时代。在大数据时代,数据的数量和异构性,以及数据源的数目,都极大地增长了,而且许多数据源是非常动态的并且质量千差万别。由于不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据要能使我们做出改变社会各方面的有价值的、数据驱动的决策,数据集成是关键。

大数据上的数据集成被称为大数据集成。本书探讨数据集成研究界在应对大数据集成带来的新的挑战方面已经取得的进展。它的目的是可以作为研究者、从业者和学生想要了解更多关于大数据集成的一个起点。我们试图覆盖该领域内各种各样的研究问题和工作,但非常清楚全面覆盖这样一个动态发展的领域是不可能的。我们希望本书的许多读者能对这个重要领域有所贡献,帮助发展大数据的美好愿景。

《位置大数据隐私管理》

位置大数据隐私管理
潘晓 霍峥 孟小峰 著,机械工业出版社

大数据时代,移动通讯和传感设备等位置感知技术的发展,将人和事物的地理位置数据化。与用户位置相关的数据通过各种各样的服务以多样形式产生。例如,用户通过签到等移动社交网络服务(如Foursquare、Yelp、Flicker等)以文本、图片形式主动发布时空行为。再如,通过用户手机通话、短信等记录,个人位置数据由基站自动隐式收集。无论自动发布还是被动被收集的位置数据均具有规模大、产生速度快、蕴涵价值高等特点。瑞典市场研究公司 Berg Insight 发布的最新报告预测,全球基于位置服务的市场规模到 2020 年将达到 348 亿欧元。位置大数据中蕴含人类行为的特征,在疾病传播、贫困消除、城市规划等重大科学社会问题以及路线推荐、乘车出行等重要生活应用中发挥了关键作用。

然而,位置大数据在带给人们巨大收益的同时,也带来了个人信息泄露的危害。这是因为位置大数据既直接或间接(隐含)包含了个人身份、行动目的、健康状况、兴趣爱好等多方面的敏感隐私信息。位置大数据的不当使用,会给用户各方面的隐私带来严重威胁。已有的一些案例说明了隐私泄露的危害,例如:某知名移动应用由于不注意保护位置数据,导致根据三角测量方法可以推断出用户的家庭住址等敏感位置引发多起犯罪案件。某著名移动设备厂商在未获得用户允许的情况下大量收集用户的位置数据,攻击者可以通过这些位置数据推测用户的身体状况等个人敏感信息。我国在十一届全国人大常委会第三十次会议上审议了“关于加强网络信息保护的决定草案”的议案,将个人信息保护纳入国家战略资源的保护和规划范畴,体现了国家对个人隐私保护问题的重视。随着个人隐私观念的增强以及相关法律法规的健全,如何在大数据多源数据融合的环境下,既不泄露用户隐私又能提高位置大数据的利用率;如何保证在牺牲最小代价的前提下,既满足服务质量要求又保护个人隐私是位置大数据隐私保护的研究重点。

本书内容在介绍了位置大数据等基本概念的基础上,总结归纳了传统位置隐私保护研究中经典的攻击模型和保护模型,详细介绍了若干基于数据失真的保护方法和基于数据加密的方法。全书共6章,内容包括位置隐私与隐私保护、典型攻击模型和隐私模型、快照位置隐私保护方法、动态位置隐私保护方法、连续轨迹数据隐私保护方法和面向隐私的查询处理技术。

本书可作为普通高等院校计算机和信息技术相关专业的大数据研究生课程的教材使用,也可供从事计算机相关的科技和学者作为技术参考。

《移动数据挖掘》

移动数据挖掘
连德福 张富峥 王英子 袁晶 谢幸 著,机械工业出版社

随着室内外定位、移动社交网络和物联网技术的发展与普及,移动数据的种类、规模和产生速度都在迅速增长。这些数据中有很大一部分是由人产生的,也就是通过各种方式记录下来的人的活动历史。它们包含了大量的知识,对于众多实际应用有着重要的价值。我们可以通过对这些数据进行挖掘,来发现人类出行的规律,并针对用户的属性和兴趣爱好生成画像,从而为用户提供更加个性化的服务,包括交通出行规划、旅游线路和购物餐饮推荐等。这些知识还能用来研究疾病传播、城市发展及人类迁徙等具有重大社会意义的科学问题。近年来,针对移动数据的挖掘已经成为学术界和工业界的热点之一。

在实际应用中,移动数据的形式多种多样,既有来自移动社交网络的签到数据,来自运营商的日志数据,也有来自公交计费系统的刷卡记录数据,还有很多并不是由人产生的数据,例如由车辆、船舶甚至动物的移动生成的数据。在本书中,我们试图以人群移动数据为例,探讨和设计针对移动数据的数据挖掘算法,并指出在该领域展开研究将面临的挑战,希望这些就经验也同样能应用到其它类型的移动数据上。

《短文本数据理解》

短文本数据理解
王仲远 著,机械工业出版社

当今世界,每天都有数十亿的短文本产生,比如搜索查询、广告关键字、标签、微博、问答、聊天记录等。与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则;其次,短文本由于字数少,本身所包含的信息也较少。前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息。简而言之,短文本具有较稀疏、噪声大、歧义多的特点,因而机器理解短文本面临极大的挑战。

而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现,使得机器理解短文本出现新的曙光。研究者们提出了许多将文本转换成机器所能理解的内部表示方法。这些方法可以分为三类:1)隐性知识表示方法,如基于深度学习产生的向量表示法;2)半显性知识表示方法,如主题模型;3)显性知识表示方法,如概念化模型。这些方法各有优缺点。一般而言,前两类方法适用广泛,已有若干成熟应用,但其所产生的模型难以被人类理解,因此优化较为困难。而后一类方法正蓬勃发展,涌现出许多新的模型,并已在许多大型互联网公司如Google、微软内部使用。如果读者对这几类方法的概况有进一步了解的兴趣,可以参见本书作者在国际自然语言处理顶级学术会议ACL 2016上的一个专题教程(Tutorial)报告“Understanding Short Texts”(理解短文本)。

本书主要介绍基于知识图谱进行显性短文本理解的方法,即由笔者提出的创新性概念化模型,并对不同情况下的概念化过程进行深入分析与探讨。本书许多章节的内容依托于发表在国际相关领域顶级学术会议或期刊上的技术论文,并已实际应用于微软的众多产品中(如必应搜索、广告系统、MSN查询推荐、Office 365等)

本书内容依照数据层、模型层和应用层逐步展开介绍。其中,第2章为数据层,第3~6章为模型层,第7章为应用层。第1章为“短文本理解及其应用”。主要介绍短文本理解的研究背景及意义,分析短文本理解的研究现状。第2章为“基于概率的属性提取与推导”。主要介绍一种在语义网络层,为百万级的概念推导出属性的方法。第3章为“单实体概念化模型”。介绍了一种基于典型性和点互信息(PMI)将单实体映射到概念空间的基本层次概念化(Basic-level Conceptualization,BLC)方法。第4章为“基于概念化的短文本理解”。介绍一种基于概念化的查询理解方法,把短文本(如搜索引擎中的查询关键字)所包含的实体映射到概念空间上,从而支持机器进行进一步的计算。第5章为“基于概念化的短文本主题词与修饰词检测”。基于概念化模型,将大量实体级别的“主题词-修饰词”对映射为精细且精确的带权重的概念模式,进而进行主题词与修饰词的检测。第6章为“基于概念化的词相似度计算”。利用概念化模型,将词映射为一种语义表示,从而计算任意两个词之间的语义相似度值。第7章为“基于概念化的海量竞价关键字匹配”。展示了本书所介绍的模型在实际系统中的应用,把短文本概念化成一组相关概念,通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。第8章为“短文本理解研究展望”。指出了短文本理解方向未来的研究工作。

《云数据管理》

云数据管理
马友忠 孟小峰 著,机械工业出版社

大数据和云计算是硏究文献和主流媒体中大量使用的两个术语。当我们走进云计算和数据洪流的时代,经常被问到的一个问题是:云数据管理中的新挑战是什么?本书就是由我们寻求回答这个问题发展而来,并使我们自己对这一问题有了更为深入的理解。本书首先介绍了一些初步的综述性论文,这些综述论文总结了适合键-值存储系统的主要设计原则,这些系统如谷歌的Bigtable、亚马逊的Dynamo和雅虎的PNUTS,通过在一个数据中心或者有可能在世界不同地方的多个数据中心中部署成千上万台服务器来达到前所未有的规模。由于这一领域引起了学术界和工业界越来越多的硏究人员的关注,该领域从键-值存储进一步发展到支持更丰富功能的可扩展数据存储,如事务或除简单键-值模型之外的模式。因此,我们将3个系统的简单综述在新加坡举办的VLDB 2010会议和在瑞典乌普萨拉举办的EDBT 2011会议扩展成一个3小时长的教程。后来又有很多相关资料的介绍,因为这些教程以及我们对该问题的理解也随时间的推移发生了改变。其间也提出了更多的系统。本书对我们这些年课程的学习以及来自于我们讲座的很多有趣的讨论进行了总结。

与传统数据管理时代事务处理与数据分析系统之间的划分一样,云数据管理也有一个类似的划分。一种是面向数据存储和服务于互联网应用的系统。这些系统与经典的事务处理系统类似,尽管有很多不同之处。另一种是数据分析系统,类似于数据仓库,通过分析大量数据来从中获得知识和智能。随着企业不断地搜集用户数据,并对来自于多种数据源的数据进行合并,基于MapReduce的系统,如Hadoop及其生态系统,使得数据分析和数据仓库更加大众化。云数据分析方面有几十个开源产品和数百篇相关领域的研究论文,已经成为一个热门的研究领域。因为企业试图从它们的数据库中获得新的见解,从而取得竞争优势,该领域会得到进一步扩展。

我们的研究、分析和调查主要关注于第一类系统,即数据管理和存储系统。因此,本书也主要关注这些系统。本书将深入探讨在设计这些更新密集型系统中存在的挑战,这些更新密集型系统必须对访问数据库小部分数据的查询和更新提供快速响应。在该类中,我们进一步将研究划分成两类系统。在第一类中,挑战在于对系统进行扩展,从而服务于拥有几千个并发请求和数百GB到数百TB频繁访问数据的大型应用。第二类包括这样一种情况,云服务提供商必须有效地服务于数十万个应用程序,每个应用程序的查询负载和资源需求都比较少。

本书共分7章。第1章介绍了云计算、云数据管理的基本概念,并描述了本书的组织结构;第2章主要介绍了分布式数据管理的相关知识,包括分布式系统、P2P系统、并发控制和分布式数据恢复等;第3章对云数据管理的早期研究工作进行了描述,包括不同的键-值存储系统在数据模型、数据分布和容错等方面的区别,以及Bigtable、PNUTS和Dynamo这三个有代表性的键-值存储系统的特点;第4章介绍了托管数据的事务问题,包括数据托管模式、托管数据的事务执行、数据存储和复制等内容;第5章主要介绍了分布式数据事务相关技术;第6章讨论了云数据管理中的多租户技术,包括多租户模型、云中的数据库弹性以及云中数据库附在的自动控制;第7章对相关经验教训进行了总结,并指出了未来的主要研究方向。

《个人数据管理》

个人数据管理
李玉坤 孟小峰 著,机械工业出版社

据IDC统计,2006年全球新产生的数据量达到1610亿GB,2007年达到2810亿GB,2010年达到12000亿GB(1.2ZB),信息的爆炸性增长使人们日常需要处理的信息量迅速增长,个人数据管理问题日益突出。微软公司的研究员Gordon Bell从2000年开始收集个人数据信息,包括阅读的文章、听过的音乐、建立的文档、访问的网页、个人医疗信息以及拍摄的照片等,到2007年其收集的个人信息量已经达到150GB。个人信息量的迅猛增长使人们管理个人信息的负担日益加重。许多人都有这样的体会:尽管人们在信息分类、存储、备份、安全保护等方面花费了大量时间和精力,但仍然频繁出现问题,如硬盘意外损坏造成大量个人数据丢失,记忆不准确造成个人数据查找困难,分散存储数据导致数据的不一致,无意之中造成个人隐私信息泄露,等等。如何高效管理个人数据信息日益成为学术界和产业界共同关注的问题,特别是近年来随着Web 2.0、物联网等相关技术的发展,以及手机等移动终端的普及,个人的健康信息、移动轨迹等数据都可能被收集起来,个人数据量会进一步增长,个人数据管理问题将更加突出。

目前大数据管理技术日益引起相关领域学者的关注。大数据管理的最终目的是提高人们的生活质量与工作效率,这是大数据管理的价值体现。个人数据管理问题本质上是分散、大规模、异构、复杂数据的管理问题在个人数据管理领域的反映,涉及数据存储、索引、查询、安全与隐私保护等诸多问题,这也都是大数据管理所要解决的基本问题。本书旨在基于近年来作者在这一领域的研究工作,对个人数据管理相关技术进行整理,以期对该领域的研究人员、技术人员或普通用户有所帮助。

本书与同类图书的比较,本书作者自2006年开始进行个人数据管理方面的研究。本书基于作者及合作者多年在个人数据管理方面的研究积累,对个人数据管理相关技术进行了总结,内容涵盖个人数据管理技术的发展、数据模型、数据集成、数据融合、数据存储、数据查询、系统实现、个人数据管理新技术发展几个部分。

目前并未看到一本系统介绍个人数据管理相关理论、技术与系统实现方面的著作,本书作者参与编写的《Web数据管理:概念与技术》一书中介绍了数据空间的相关理论与技术,但是并未特别针对个人数据信息管理技术进行系统的阐述。

《异构信息网络挖掘》

异构信息网络挖掘
段磊 朱敏 唐常杰 译,机械工业出版社

现实世界中物理的和抽象的数据对象互相联系,形成巨大、交织的网络。通过将这些数据对象和他们间的交互结构化为多种类型,这样的网络编程本结构化异构信息网络。现实世界中,大多数处理大数据的应用,包括互相联系的社交媒体和社交网络,科学的、工程的或医学的信息系统,在线电子商务系统以及大量数据库系统,都可以被结构化为异构信息网络。因此,如何有效地分析大规模异构信息网络成为一个有趣而重要的挑战。

本书讲述了异构信息网络挖掘的原理和方法。与许多现有网络模型将互相连接的数据视做同构图或网络不同,半结构化异构信息网络模型充分利用网络中各类型节点和链接的丰富语义,并从网络中发现大量丰富知识。半结构化异构网络建模为挖掘相互联系的数据提供了一系列崭新原理和有力方法,包括(1)基于排名的聚类与分类;(2)基于元路径的相似性搜索和挖掘;(3)关系强度感知挖掘,以及若干有潜力的进展。本书介绍了异构信息网络挖掘的前沿研究,并指出了若干有前景的研究方向。

本书是伊利诺伊大学香槟分校数据挖掘高级教程的参考教材,适合作为数据挖掘方向的研究生教材,也适合数据挖掘研究人员和专业技术人员参考。

《大规模元搜索引擎技术》

大规模元搜索引擎技术
朱亮 译,机械工业出版社

近年来,万维网(World Wide Web,检测Web)已经成为最大的信息源,开发先进的搜索工具一直是因特网(Internet)技术的一项关键研究和开发工作。由于Google和Yahoo!等主流搜索引擎的普及,目前在Web的搜索工具中,搜索引擎是认命最为熟知的。虽然这些主流搜索引擎非常成功,但也存在需要严重的局限性。例如,每个搜索引擎仅能覆盖Web上全部可用内容的一小部分;其基于爬虫的技术很难完全达到所谓的深层网(deep web,也成为深网),虽然这方面最近取得了很大的进展并且紧跟Web内容的变化和扩展而发展。

本书所介绍的大规模元搜索引擎技术具有克服这些主流搜索引擎局限性的潜力。元搜索引擎是一个支持统一访问一些现有搜索引擎的搜索系统。本质上,元搜索引擎将链接收到的查询发送给其他的搜索引擎,但这些被调用的搜索引擎返回结果后,元搜索引擎将这些结果聚集为一个排序列表并展示给用户。虽然开发元搜索引擎的最初动力是其结合多个搜索引擎搜索范围的能力,但它还有更多的益处,如可以获得更好、跟新的结果,能够访问深层网。

本书重点关注大规模元搜索引擎(large-scale metasearch engine)的概念。这种元搜索引擎连接成千上个搜索引擎。构建和维护大规模元搜索引擎需要先进的元搜索引擎技术,使其一些关键部件具有高度可扩展性和自动化解决方案。本书的目的就是广泛而深入地介绍大规模元搜索引擎技术,对作为Web搜索的竞争技术的大规模元搜索引擎技术的可行性进行了强有力的论证。本书将详细论证大规模元搜索引擎的主要部件:搜索引擎选择,这一部件用于识别最有可能为任何给定查询提供有用结果的各个搜索引擎;搜索引擎加入,这一部件与各个搜索引擎进行交互,包括从元搜索引擎发送查询给本地搜索引擎以及从不同的搜索引擎返回的相应页面中提取搜索结果;结果合并,这一部件将不同搜索引擎返回的结果合并为一个排序列表。大规模元搜索引擎技术包括高度准确和可扩展的搜索引擎选择算法、高度自动化的搜索引擎加入技术和高效的结果合并方法。

本书可作为Web数据管理和信息检索等Web技术相关课程的部分内容,也可作为Web搜索引擎领域的研究人员和开发人员的参考书。