TaijiDB (云数据库管理系统)
云数据管理小组, 网络与移动数据管理实验室, 中国人民大学
[主页] [研讨会] [学术交流] [系统] [论文著作] [下载] [人员]
 
云计算与WAMDM实验室
 

WAMDM的全称是"Web And Mobile Data Management"(即网络与移动数据管理实验室), 它是孟小峰教授所领导的一个研究型实验室。WAMDM实验室进行数据库相关的研究已经有许多年了,是国内最好的数据库研究小组之一。实验室的科研项目涵盖网络数据管理、XML数据管理,以及移动数据管理。

云计算(Cloud Computing)是一项正在兴起中的技术。它的出现,有可能完全改变用户现有的以桌面为核心的使用习惯,而转移到以Web为核心,使用Web上的存储与服务。人类有可能因此迎来一个新的信息化时代!

但是,云计算绝不仅仅是一个计算的问题,它需要融合许许多多的技术与成果。现有的许多研究问题将来必然是云计算的一部分,例如WAMDM实验室目前正在开展的多项研究:Web数据集成、个人数据空间管理、数据外包服务、移动路网上的研究以及隐私问题的研究,都会成为未来云计算的重要组成部分。

本专题通过云计算介绍以及相关研究问题的讨论,向大家展示WAMDM实验室同学对于云计算的思考。


 
综述:云计算的历史、发展与未来 (王仲远 Web组,硕士)
 

“云计算”越来越成为人们所关注的一个名词,因为它代表了信息时代的未来。

那么,什么是云计算?云计算有什么用处?它将如何改变整个世界?……一连串的问题等待解答。虽然,很多问题现在或许没有完整的答案,但是,本文试图通过分析云计算的起源以及云计算与网格计算、Web2.0之间的关系,来阐述云计算的历史、发展与未来。

一、两个故事

我们先通过两个故事来了解什么是云计算:

故事一:Tom是一家公司的员工,某天公司派Tom去伦敦出差。那么,Tom想要了解他所乘坐的航班信息,从他住所到机场的最佳路线以及伦敦最新的天气以及住宿信息等。在未来,所有的这些信息都可以通过云计算来提供!云计算将与各种各样的终端(例如个人电脑、PDA、手机、电视等)进行连接,为用户提供广泛、主动、高度个性化的服务。

故事二:Bob是这家公司的另一个员工,不过公司并没有派他出差,于是他照常到公司上班。到了公司,他打算管理一下自己最近的任务,于是他可以通过Google Calendar来管理自己最近的日程安排;整理完日程,Bob可以通过Gmail收发邮件,通过GTalk来与同事朋友进行联系;如果他这时打算开始工作,可以通过Google Docs来编写在线文档,在这个过程中,如果他需要查阅相关论文,可以通过Google Scholar进行搜索,他可以也可以使用Google Translate翻译一些英文,他甚至可以使用Google Charts来绘制一些图表;如果Bob工作累了,他可以通过Google Blogger来分享日志,通过Google的YouTube来分享视频,通过Google的Picasa来编辑分享图片。

或许有一天,当我们已经十分习惯使用Google所提供的每一项服务时,蓦然发现我们的生活已经处在云计算的时代!


 
有关Cloud Computing的几个观点 (刘伟 Web组,博士)
 

1、目前cloud computing并没有一个清晰的概念与体系,不同研究机构和IT企业都是从各自的角度或者各自专注的领域去理解,比如cloud中的数据如何存储与访问、如何在硬件体系上对cloud进行构建、如何对cloud中资源的配置等等。总之,cloud computing涉及了非常多的研究领域,cloud computing的出现也必然会带来诸多的挑战性问题,这需要我们深入的思考。

2、cloud computing的终极目标是让用户所有的数据和服务(各类软件)都放在cloud中,自己只要有一个可以上网的终端就可以了。用户看到的只是一个虚视图,实际上数据和服务可能分散在cloud中的不同位置。从某个角度来看,每个用户在cloud中都拥有一个自己的虚拟空间。这是不是将给data space提供了一个真实应用场景呢?

3、IT巨头们都在关注cloud computing,但在不同的层面。比如,IBM关注于cloud底层的硬件架构上,Google关注于一般的搜索和数据处理上,而微软关注于上层的软件。他们之间应该会是一个既竞争又合作的关系。但不可否认的是,IT巨头们的如此重视和投入必然会使cloud computing越来越清晰,而不是只停留在美好的概念上。

4、服务和数据的Web化趋势是必然的,即越来越多的在本地的服务和数据会逐渐转移到Web中。目前SaaS受到越来越多的软件生产商的关注,大家有兴趣的应该了解一下。这样发展给用户带来的直接的好处是硬件成本的降低,企业不再需要购买昂贵的硬件和聘用维护人员,因为everything is on the Web。作为Web数据管理的研究者必须给予足够的关注,发现其中的研究问题。


 
云计算与数据空间(DataSpace) (李玉坤 Web组,博士) 
 

作为一个新的概念,云计算日益引起人们的关注,云计算提出的背景大致有以下几个方面:

  • 数据量的高速增长与数据处理能力的相对不足。数字技术和互联网的发展,特别是Web2.0的发展导致数据量高速增长,因此对数据的处理能力提出了更高的要求。
  • 计算资源的利用率处于一种不平衡的状态,一些应用需要大量的计算资源和存储资源,同时大量的计算设备和存储资源没有得到充分利用。

作为一种新的计算模式和服务模式,云计算已经引起IBM,EMC,微软,Google等公司的重视,IBM已经开始着手建立云计算中心。同时,针对高速增长、丰富多样的数据信息,人们提出了一种新的数据管理理念:数据空间。这两个概念提出的背景相似,那么云计算与数据空间之间是一种什么样的关系,云计算会对数据空间的研究和应用带来什么样的影响。对这两个概念的比较可以从以下几个方面:

  • 从数据管理角度。数据空间是对新的数据特点的一种刻画。其研究焦点是数据模型、数据查询、数据索引等算法。而云计算侧重于系统的实现,其更大程度上是一种支持开放、共享的数据服务的底层架构。
  • 从相互之间的影响。数据空间为云计算提供了一种应用场景。随着云计算概念的提出,人们不禁会问,什么样的数据计算模式适于这样的系统架构,数据空间或许能够给出一个答案。个人数据空间的最终目的是能够实现个人数据信息的随时随地的访问,要实现这一目的,必须借助基于Web的存储资源和计算资源,否则是不可想象的。另一方面云计算拓展了数据空间研究的思路,为数据空间研究提出了新的问题。

对于个人和中小企业来说,目前,一方面存在数据管理的需求,另一方面他们对于计算能力的需求往往是不平衡的。如果购置大量的存储和计算设备,那么投资和维护费用会大大提高,同时低水平的利用率也会造成资源的巨大浪费。这样,云计算模式为这一问题的解决提出了一个新的思路,一些个人和企业可以在这种开放的体系架构下享受云计算提供的服务。那么如何实现这种服务,就需要数据空间等数据管理技术研究解决。

以上初步讨论了数据空间和云计算的关系。他们都是针对解决新的数据管理问题,只是侧重点不同,云计算侧重于一种新的数据管理底层架构;数据空间侧重于具体的数据管理技术的研究,他们互相影响,基于云计算模式的个人数据空间和企业数据空间研究或许会成为一个新的研究领域。云计算的提出为数据空间的研究提出了新的问题,促使我们从一个新的角度去思考和研究数据空间。

 
云计算上的隐私问题 (潘晓 Mobile组,博士)
 
通过数据之间的匹配来识别隐私
图: 通过数据之间的匹配来识别隐私

在云计算的概念下,计算机不再是一些各自独立的机器,而是网络中的一个节点,而网络本身将成为计算机。这种将计算任务交给全球运行的服务器网络,在提供各种便捷服务的同时,不可避免的事实是需要提供更多更详细的个人信息,才能获得更好的服务;但另一方面,越来越多的个人信息公之于众,使得人类毫无隐私可言。

一方面,政府机构以及公共服务机构越来越多的发布包含个人信息的数据,比如医疗数据、选民数据等等。如果没有可信的隐私保护,那么攻击者将利用多个数据之间的联系来获取个人隐私信息。如图所示,如果从专门为政府雇员购买医疗保险的机构获取了医疗信息,从负责选举的机构处获取选民信息。该医疗信息可以认为是匿名的,因为没有病人的姓名等唯一标志信息。当攻击者把医疗信息和选民信息结合之后,通过出生日期,邮编,性别的匹配,就可以把选民姓名和疾病联系起来,从而获得了非常隐私的个人信息。

另一方面,随着个人手持设备(PDA,SmartPhone等)的普及,人们越来越多的使用基于位置的服务(Location Based Service:LBS),包括紧急救援服务,基于位置的游戏,移动黄页服务等,这些保证了云计算的真实能力将得以展现。虽然服务提供商不要求人们在请求服务的同时发送自己的唯一标志例如姓名,网络地址等,但要求用户发送自己的当前位置,只有个人位置信息越精确,获得的服务才越满意。在这种情况下,用户的位置就成为了个人隐私信息。服务商(攻击者)可以通过把用户位置和地图进行匹配以及某些经验观察来发现用户的真实身份,进而对用户的服务请求进行分析,发现用户的个人爱好等隐私。

所以,在云计算的背景下,无论是数据发布中的隐私,还是位置服务中的位置隐私,用户个人信息的保护显的尤为重要。在人们把数据放于本机硬盘都还嫌不够安全的今天,如何保证所有个人数据公诸于天下的时候,依然保证个人隐私不泄漏,将是云计算是否能够普及将要攻克的另一难题之一。


 
云计算与移动数据管理 (郝兴 Mobile组,硕士)
 

随着计算机设备的飞速发展以及对计算性能要求的提高,计算已经由单机发展到分布式系统,从而提出了云计算的概念,大大提高了计算效率,降低了生产成本。

就移动数据管理领域而言,由于移动设备在存储及计算上的限制,现在的构架主要是由用户将数据发送给服务器,由服务器对数据进行管理和计算,并按照用户的要求返回计算结果。虽然减轻了移动存储设备的负担,但是对于大数据量的计算,服务器的任务是很重的,因此用户有时需要等待较长的时间得到需要的结果,现在已有一些工作考虑将任务分配一些给存储设备,利用不同存储设备之间的数据交互及计算以减轻服务器的负担。如果将云计算引入到移动数据管理中,通过使计算分布在大量的分布式计算机上,可以大大提高计算的效率,减少用户的等待时间。

此外,现在的移动数据服务,对于用户仍然不是透明的,即用户需要向服务器提出请求,等待返回结果。对于用户来说,没有任何信息,所有的信息都在服务器上。如果通过引入云计算,使这一过程变为对用户透明的,即对用户来说,好想所有的信息都存储在自己的移动设备上,自己只须对移动设备进行相应操作即可得到想要的结果,这将大大提高服务的质量。

数据的存储以及计算的分布,一定会引起隐私泄漏的问题。但是云计算的推广必将提高移动数据的管理能力以及服务质量,大大推动移动设备的广泛应用。

 
WAMDM, Renmin University of China, All Rights Reserved CloudDB Last Updated : 2010/05/13