WAMDM实验室年报

WAMDM Report 2016 New!

2006-2016一晃十年!当2006年即将过去的时候,我和我的学生们讲,我们是否应该总结些什么,总结过去,展望未来,或许对我们自己,对他人,对社会都是一种责任,一种鼓舞,一种鞭策。由此有了实验室的第一份年报。之后成为实验室的一种惯例,每年一册,算是对过去一年的一个交代,也是对未来一年的一个期盼。

过去十年IT技术突飞猛进,本实验室“网络与移动数据管理”(Web and Mobile Data management, WAMDAM)仍秉承萨师煊、王珊教授所一贯倡导的学术研究与系统开发并重的传统,以创新数据管理系统的研究为目标,立足云计算和大数据技术背景,将研究定位在数据融合与知识融合、大数据实时分析与交互分析、大数据隐私管理等方面,在十三五开局之年把握机遇,迎接挑战!



[detail]
WAMDM Report 2015

陈寅恪先生说:“ 一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。

对数据库领域而言,真正的“预流”是Jim Gray 和Michael Stonebraker等大师们。十三年前面对“数据库领域还能再活跃30年吗”这一问题,Jim Gray给出的回答是:“不可能。在数据库领域里,我们已经非常狭隘。”但其转而的回答是:“SIGMOD 这个词中的 MOD 表示‘数据管理’。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据、表示数据,特别是数据的表示部分。现在人们已经拥有太多的数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作,就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。”(见《数据库大数据访谈录》)。其实十三年前大师们已看到了“新材料”,而且指出了“新问题”。面对大数据浪潮,各种提法众多,我坚持用“大数据管理”概括抽象这个领域的研究,也是源于此。Jim Gray早于1998年因事务处理方面的成就获得图灵奖。Michael Stonebraker也于2015年因系统创新的成果如愿获得这迟到的殊荣,实乃众望所归,实至名归,可喜可贺。



[detail]
WAMDM Report 2014

"浅浅的知识比无知更使人栗六不安,深深的知识使人安定,我们无非是落在这一 片深深浅浅之中"。木心的语言总是那么平静而深邃。

过去的一年大数据话题仍是热热闹闹,深深浅浅。凭借坚守数据管理的理念,思考 着大数据管理的机遇与挑战,试图能给出一个比较"深深的知识"。

年底刚刚完成《计算机研究与发展》的一个专题:大数据管理。在此专题的前言中 总结了自己近期的一些思考。

已故的图灵奖得主Jim Gray 在其《事务处理》一书中提到:6000 年以前,苏美尔人 (Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇 家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类 似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等。19 世纪后期,打孔卡片出现,用于1890 年美国人口普查,用卡片取代土块,使得系统可以 每秒查找或更新一个"土块"(卡片)。可见,用数据记录社会由来已久,而数据的多少 和系统的能力是与当时的社会结构的复杂程度和生产力水平密切相关的。



[detail]
WAMDM Report 2013

"自从阴错阳差地掉进这片海里,不知不觉我也已经游了8年,并且于公元1998年惊奇发现,好象是真的已经游到了'胜利彼岸'。眼下,我衣衫褴褛、筋疲力尽,孤零零坐在岸边,而心里最想做的就是召唤故乡那些智慧勇敢的人们,一起来到这片肥沃而又辽阔的新大陆,跑马圈地,共建家园。" 十五年前的这段话,描写当下的心境也颇为合适。大数据的浪潮过去一年一浪高过一浪,自己凭着一点点见解到各处做了若干场大数据的报告,想起来犹如那位衣衫褴褛者,但无需召唤,蜂拥而至的人们一起涌向了这片新大陆,但只见跑马圈地,未见共建家园。

这一年仍在不停歇地思考大数据的根本问题。年初发表在计算机研究与发展的上的综述"大数据管理:概念、技术与挑战"获得了同行的广泛关注,下载次数一致高居中国知网的首位,由此可见大数据的热度非同一般。文中通过对数据源产生的演化分析,揭示了数据管理需求和任务的不断变化,促使数据管理系统不断推陈出新。回顾数据管理技术的发展,一脉相承的是追求在系统中提供尽可能贴近用户的数据抽象,数据抽象越到位,用户使用越方便。数据管理系统便是要实现这种抽象机制:面对企业数据的管理,DBMS提供了物理模式到逻辑模式(关系模型)的抽象;面对互联网数据的管理,数据集成(数据空间)提供了局部模式到全局模式的抽象;如今面对大数据管理,到底要实现什么样的数据抽象,苦苦思索,仍不得要领,但隐隐感觉这是正确的思考方向。



[detail]
WAMDM Report 2012

"这是一个最美好的时代,也是最糟糕的时代;这是智慧的年代,也是愚昧的年代;这是信仰的时期,也是怀疑的时期;这是光明的季节,也是黑暗的季节;这是希望的春天,也是失望的冬天;我们前途无量,同时又感到希望渺茫;我们一起奔向天堂,我们全都走向另一个方向......."这是狄更斯在其《双城记》中开篇之语,很耐人寻味。比照着,我们可以有:这是大数据(BD)的时代,也是小数据(DB)的时代;这是创新的时期,也是怀疑(钱学森之问)的时期;这是实干(兴邦)的季节,也是空谈(误国)的季节;这是中国的春天,也是世界的冬天;我们前途无量,同时又感到希望渺茫.......

大数据确实是当下最热的词汇,各种概念、判断、论调纷争。今年暑期去了一趟河南安阳的殷墟遗址,对大数据的内涵颇有感悟。河南安阳殷墟遗址的最大发现就是青铜器司母戊鼎和甲骨文。尤其是甲骨文,目前已出土了十四万片,在当年的发掘中发现了一个"甲骨文大坑",其中散落了一万七千余片的甲骨文残片,这些残片数量众多,其上所刻的文字内容繁杂。由于到目前为止还无法完全了解每个文字所代表的准确含义,所以整个甲骨文的解读仍处于一个相对初级的阶段。倘若我们能够发现一种方法,可以有效的对"甲骨文大坑"残片上的文字进行解读,并从中归纳出不同残片上文字之间的关联,那么就极有可能在此基础上整理出甲骨文的完整体系,从而最大程度的还原出当时的社会面貌,即体现出其价值所在。



[detail]
WAMDM Report 2011

去年我们将自己未来十年的研究概括为创新数据管理研究2.0,涉及云计算、闪存存储、隐私保护、移动互联网等关键词,试图探索为下一代计算技术和应用所需的数据管理技术。过去的一年研究使我们更坚定了这一定位。基于闪存、PCM等新型存储技术的数据库系统研究有可能产生基础性的创新,隐私保护是未来众多技术发展中不可逾越的障碍,移动互联网的普及同样有若干关键问题需要解决。倒是目前最热的云计算、物联网目前还未找到实质的感觉,看来“云里雾(物)里和海里”的探索还是有些飘忽不定,需要扎到应用中去积累。至少能解决一些现实问题,理论创新不敢想。

本年度,实验室继续在研究上保持好的势头,发表相关方向高水平科研论文20余篇(包括IEEE TKDE等)。在系统开发方面,中文文献集成系统学术空间C-DBLP(http://www.c-dblp.cn/)的功能得到提升,增加了期刊和学术机构的论文录用情况,比如给出了计算机领域学术机构论文列表Top50,这和学科评估的结果差不多,同时也给出了Top50(近三年),Top50(近五年),Top50(近十年)结果。此外我们推出了中文文献导读,是一个非常便利的计算机领域权威中文期刊导读指南,它以美观大方的数字电子刊形式展示计算机领域核心期刊的最新发表论文目录,方便学者浏览。此外,导读还自动将某领域的论文聚合成为专辑如《数据库领域论文辑录》,这在一定程度上解决了目前计算机领域“泛刊”(综合性)偏多,缺乏“专刊”(领域性)的问题。



[detail]
WAMDM Report 2010

新世纪以来,数据库界普遍面临的一个问题是,在传统的数据库技术成熟之后,数据库研究应向何处去?凭借自己对当时技术趋势的判断,将研究目标定位在解决数据库技术与Web计算和移动计算交叉结合所产生的挑战性问题,即结构多样的Web数据管理,半结构化XML数据的管理,以及移动环境下的数据管理问题,并创立了“网络与移动数据管理实验室(Web and Mobile Data Management)”,致力于这方面的研究,取得了一些国内外所共知的研究成果。我把这一阶段的研究概括为创新数据管理研究1.0。今年是又一个十年的伊始,我一直在思索实验室下一个十年的研究布局。我们不难发现数据库技术的变革(其实任何信息技术亦如此)主要来自三方面的驱动力,即:计算模式,硬件技术,应用模式的不断创新。基于新的三方面驱动力的需求,把对下一个十年的研究概括为创新数据管理研究2.0,具体包含如下的研究方向:闪存数据库系统的研究、云数据库系统的研究、Web 与社会计算的研究、Mobile与隐私保护研究、纯XML数据库系统研制。

数据库系统发展经历了三十年,大致呈现出了“分久必合、合久必分”规律。六七十年代广泛的应用需求的出现促成了各类数据库系统的产生。八九十年代大型网络分布计算环境的普及使得政府、企业的应用需求趋同,导致几大数据库系统的“大一统”局面出现。当下互联网特别是云计算的出现,使得应用需求再趋多样化,人们更期盼与自己的需求功能相宜的数据库系统,而不是面面俱到的“大拼盘”系统,多样化时代重新到来。最近日渐火爆的“NoSQL”运动正是迈向这一目标的尝试。我们在本年度报告里试图把这些我们观察到的、看明白或没看明白的一些问题总结成短文,与大家交流,抛砖引玉。



[detail]
WAMDM Report 2009

在过去的十年间,随着互联网的迅速发展,整个Web 的数据量已经超过了 200,000TB,并仍在快速地增长,这使其成为人们获取有用信息的最重要的途径 之一。另一方面,随着3G 时代的到来,大量的手机、移动设备需要频繁访问互 联网,以从互联网上获取丰富的信息,这是一个必然的趋势。而3G 所来带的高 带宽,使得未来手机将不再是一个简单的通话工具,人们从互联网上获取信息将 越来越依赖于手机和以及其它移动设备。如何解决面向移动用户的Web 数据集成问题, 成为实验室今后关注的一个新的研究领域,目前研究界还缺乏有关的研究成果, 我们认为这是一个创新的机遇。

云计算是当今信息产业最受关注的一种计算模式,在这种模式下,企 业和个人可以根据自己的需要购买存储设备和计算能力,而不是花费大量资金购 买大规模高性能计算机。作为云计算的一项关键技术,云数据存储和云数据管理 为业界带来巨大的潜在商用价值。随着信息产业的发展,企业和公司产生的数据 量快速增长,通常数据规模可以达到TB 甚至PB 级别。如何管理和分析海量数据 是目前很多领域所面临的问题,例如在医疗、通信和互联网领域。。对此实验室的提出的新的研究课题是 云计算环境下数据库技术,实现一种具有高可用性、高容错性、可扩展性和高性 能的云数据库系统。



[detail]
WAMDM Report 2008

图灵奖获得者Jim Gray 曾在1998 年的获奖演说中,对未来数据量急剧增长的规律 做过这样的预言:未来每18 个月产生的数据量等于有史以来的数据量之和! 最近,我们又看到美国《未来学家》杂志根据世界未来学会年度预测,对未来世界 发展前景进行了展望,其中认为未来的数据将以佑字节(Yottabyte,即十亿GB)为单 位进行存储。这种发展趋势将引伸出网络环境下数据管理新的科学问题:即以佑字节为单位的数 据管理!这不同于通常所说的海量数据管理,它将面临完全不同的应用需求和完全不同 的存储。

当一个产业的根本需求和底层架构发生如此重大变化的时候,与挑战同时到来的是 巨大的机遇,能否抓住这次机遇,在这片崭新的天地写下属于我们自己的一笔,这正是 我们实验室近期研究的巨大动力。在国家自然基金重点项目和863 计划探索项目的支持下,近期我们开展了闪存数据 库技术和个人数据空间管理的研究工作。一年即将过去,在继过去两年有关实验室科研情况的年度报告的基础上,再次整理 了2008 年的年度报告,内容涉及技术展望,系统研发,论文精选和学术交流等。



[detail]
WAMDM Report 2007

正像去年在序中所说的,“总结过去,展望未来,或许对我们自己,对他人,对社会都是一种责任,一种鼓舞,一种鞭策。”所以在2007 年结束之际,我们又编辑了这样一份报告,是对大家的感谢,也是完成对自己的承诺。

本年度报告的结构仍延续去年的风格,报告第一部分汇集了我们实验室的技术综述,展示我们对数据管理技术发展;本年度报告的第二部分汇集了我们的系统工作;报告的第三部分是论文汇集,本年我们在VLDB2007 发表一篇长文,在DASFAA2007 发表3 篇文章,论文质量有所提高;实验室一贯重视国际学术的交流,实验室几乎每一位在读学生都有机会出国合作研究或参加国际会议,经常有国外学者来实验室交流访问。



[detail]
WAMDM Report 2006

当2006年即将过去的时候,我和我的学生们讲,我们是否应该总结些什么,总结过去,展望未来,或许对我们自己,对他人,对社会都是一种责任,一种鼓舞,一种鞭策。经过近一个月的努力,我们终于有了手头的这部集子,算是对过去一年的一个交代,也是对未来一年的一个期盼。

过去五六年间,我们的研究工作始终围绕数据库技术与网络计算与移动计算环境的结合。因此实验室的名字为"网络与移动数据管理"(Web and Mobile Data management, WAMDM)。实验室的研究风格秉承萨师煊、王珊教授所一贯倡导的学术研究与系统开发并重的传统,以创新数据管理系统的研究为目标。



[detail]