2015学术活动

WAMDM 实验室举办复杂关联数据管理的理论与方法研讨会
2015 年 12 月 20 日,第一届复杂关联数据管理的理论与方法研讨会在清华大学 FIT 楼 1区 315 会议室如期举行,清华大学、中国人民大学和北京大学联合主办了本次研讨会。清华大学的王建勇教授主持了此次会议,中国人民大学信息学院孟小峰教授和王秋月老师参加了此次研讨会,此外还邀请到了美国 RPI 大学的季姮教授、复旦大学的汪卫教授、微软亚洲的聂再清主管研究员、北京大学的邹磊副教授、南开大学的沈玮老师、北京明略软件系统有限公司的冯是聪博士和清华大学的刘知远老师。
研讨会将复杂关联数据管理问题分为了四个主题:跨语言实体知识库的扩展;实体及其关联的挖掘、融合、存储及查询;面向大数据的关联分析及应用实践;实体知识库的表示及应用。实验室的王秋月老师在最后一个专题里做了题为“基于大规模知识库的语义搜索和自然语言问答”的报告。主要介绍了在无结构文本和结构化知识库相结合的数据集上如何实现复杂的检索任务,即对信息需求的满足分散在不同的文档甚至数据源中,而不是像传统信息检索技术所假设的存在同一个文档内。

孟小峰教授应邀参加西北师范大学“学科交叉融合,创新驱动发展”系列学术报告
12 月 9 日,应学校邀请,中国人民大学信息学院博士生导师孟小峰教授来我校作了题为《大数据管理的问题与思考》的学术报告。报告会由计算机科学与工程学院院长党小超主持。学校副校长张生勇,相关部门及学院师生约 160 余人参加了报告会。
孟小峰教授以数据库专业学者的视角,从大数据的概念及内涵、大数据时代数据管理及研究范式的转变、大数据管理的关键技术以及大数据的生态系统等方面,详细分析了大数据管理的基本问题。并结合他所领导下的中国人民大学网络与移动数据管理实验室的最新的科研成果及演示系统,介绍了大数据集成、新硬件下的大数据存储、大数据隐私保护、大数据分析等方面的关键核心技术,以及该团队对大数据管理所存在的一系列理论或实践问题所进行的思考和研究。他认为大数据的意义与价值在于如何帮助人类解释复杂的社会结构和行为,以及提高人类生产制造的能力,进而丰富人类发现自然和社会规律的手段。
报告会后,孟小峰教授与计算 机科学与工程学院教师进行座谈, 为计算机专业在大数据时代的发展 提出了建议。他以贵州省贵安新区 基于大数据产业成功实现转型,并 得到党和国家领导人的高度重视为 例,说明西部欠发达地区在新形式 下必须抓住大数据时代带来的机遇。他认为中国人民大学的计算机专业 以数据库方向为龙头,打造小、精、 尖的研究团队,成功实现在国内外
该领域中具有较大影响力。西北师大的计算机专业也应该在大数据时代下抢抓机遇,实现跳跃式发展。孟小峰教授特别指出在大数据的浪潮下,学科的人才培养和就业形势急剧变化,学科与学科之间的竞争也越来越剧烈,计算机和物理等学科似乎正在“入侵”社会科学、生物学、地理学等学科。可以预期,下一个十年,其他学科,特别是社会科学等将面临着计算机科学在数据的搜集和分析方面的“入侵”。西北师大的计算机专业应当在跨学科研究领域,特别是在“一带一路”背景下的经济、社会大数据分析中找到自己的发展机遇。

WAMDM 实验室举办大数据体系结构研讨会
2015 年 12 月 2 日,由中科院计算所和中国人民大学联合主办的大数据体系结构研讨会在中国人民大学逸夫会议中心召开。中科院计算所徐志伟研究员和中国人民大学孟小峰教授担任大会主席。研讨会共邀请到俄亥俄州立大学张晓东教授、上海交通大学戚正伟教授、国防科学技术大学窦勇教授、中科院计算所陈云霁研究员、加州大学圣芭芭拉分校谢源教授、
清华大学舒继武教授、华中科技大学冯丹教授、北京工业大学丁志明教授、南洋理工大学何丙胜教授、卡内基•梅隆大学郭崎博士后等 10 位专家参加,并就大数据计算系统架构、大数据微体系结构、大数据存储系统和大数据系统软件等 4 个议题展开讨论。
大数据计算系统架构议题中,张晓东教授作题为《计算机体系结构在大数据处理中暴露的问题》的报告,重点介绍数据存储面临问题和现有解决方案。徐志伟研究员就《面向大数据内存计算的计算机体系结构》进行讲解,重点介绍可重塑处理器的相关研究。戚正伟教授的《GPU 的虚拟化》报告了云环境下,GPU 的虚拟化技术的相关工作。
大数据微体系结构议题中,窦勇教授的《应对高效能计算机挑战—通过定制计算获得高效能》报告就定制计算的相关工作展开介绍,并提出新型体系结构生态圈建设的问题。陈云霁研究员的《神经网络处理器》报告重点介绍了“DianNao”系列的相关研究工作。谢源教授的《计算存储一体化架构设计》介绍了 processing-in-memory(PIM) 和near-data-computing(NDC)思想,和围绕该思想的相关神经网络和数据库加速器。
大数据存储系统议题中,舒继武教授的《基于非易失存储器(NVM)的存储系统构建探讨》重点探讨了NVM 分别作为主存和外存所面临的问题和挑战。冯丹教授的《数据去冗余》报告介绍了 HDFS 的稳定性和性能提升的相关研究工作。丁治明教授的《物联网感知大数据的存储、分析及应用》的报告就通过传感器和多媒体进行数据获取,及分层系统设计等问题展开介绍。
大数据系统软件议题中,何丙胜教授的《When HPC Meets Big Data》报告介绍了嵌入式内存数据库相关研究工作。孟小峰教授的《非易失存储数据库》报告重点介绍了针对 SSD特性的数据库系统相关优化技术研究。郭崎博士的《面向数据密集型应用的内存加速库》报告围绕通过加速库函数可间接加速其上代码,从而提高加速器程序可移植性等相关技术研究展开介绍。
本次研讨会,专家们认为传统存储和计算架构难以适应当下数据密集型应用,并结合各自领域从不同侧面介绍了缓解上述问题的研究工作。然而,专家们一致认为大数据存储、计算和系统生态圈建设问题未最终解决,未来其上的工作将依然是研究热点。

孟小峰教授参加中国保密协会隐私保护专业委员会成立大会并当选副主任委员
为推进我国隐私保护研究和工作开展,2015 年 11 月 28 日,中国保密协会隐私保护专业委员会在北京成立。中国保密协会领导和隐私保护专业委员会组成人员、单位代表等,共 60 余人出席成立大会。会议中,孟小峰教授当选为专委会副主任委员。会议期间,中国人民大学教授孟小峰作了题为《大数据隐私保护技术现状与展望》的报告。在报告中,孟小峰教授指出,大数据处理技术的出现使得隐私泄露的风险与日俱增,大数据本身的大规模性、高速性和多样性等特征使传统的数据加密、匿名化与模糊化技术遇到了极大的瓶颈。接下来从介绍传统的隐私保护技术开始,探讨了位置服务下的隐私保护、数据发布与分析中的隐私保护、移动互联网中的隐私保护、云环境下的隐私保护等方面,最后了分析了大数据独有的隐私问题和传统隐私保护技术的不足,提出了主动式大数据隐私管理框架。其主要思想是考虑大数据的整个生命周期内的隐私泄露情况,并主动参与到整个大数据隐私处理流程中去。

“CCF 走进高校”之孟小峰走进河北农业大学
2015 年 11 月 26 日,“CCF 走进高校”活动来到河北农业大学。CCF 常务理事、会士、杰出演讲者、中国人民大学信息学院孟小峰作了题为“大数据管理及在线聚集分析”的学术报告。河北农业大学相关专业 100 余师生聆听了报告。
报告通过分析数据产生方式的变化,对比大数据与数据库的差异,揭示了大数据时代的机遇与挑战。分析了大数据集成、大数据计算、大数据存储、大数据分析等一系列问题。孟小峰结合自己多年从事数据库研究与实践经验,介绍了大数据分析特别是在线聚集分析方面的工作。报告结束后孟小峰与师生进行了交流互动。
老师和同学们反馈通过这次活动收益颇丰,为自己以后的学习和工作指明了方向,增添了动力!

孟小峰教授应邀参加河北大学计算机科学学院作学术报告暨学院首届学术论坛启动仪式
2015 年 11 月 25 日下午, 在河北大学新校区 C1-522 报告厅,中国人民大学孟小峰教授为全院师生作了题为“大数据隐私保护” 的学术报告。报告由计算机科学与技术学院副院长杨晓晖教授主持。本次报告也是计算机科学与技术学院首届学术论坛正式启动后的第一场学术报告。
报告中,孟小峰教授首先从大数据的由来、大数据带来的挑战两方面介绍了大数据的发展和背景知识;然后详细介绍了大数据隐私保护和管理的概念、方法和最新研究进展;最后详细解答了在场师生提出的问题。
报告后,孟小峰教授还与计算机科学与技术学院申报 2016 年度国家自然科学基金的教师进行了长时间的深度座谈,认真审阅了每一份基金申报书,并给出了细致中肯的修改意见。
孟小峰教授在学术研究上的严谨和在创新方法上的独到见解深深感染了在场师生,其报告不仅开阔了师生的学术视野,提供了新的研究方向,而且为学院学术论坛的顺利举办奠定了基础。有助于活跃学院学术气氛,加强各研究方向间的学术交流。

孟小峰教授应邀参加 2015“泛在测绘与位置大数据应用”国际工程论坛并做特邀报告
2015 年 11 月 6 日-8 日,“泛在测绘与位置大数据应用”国际工程论坛在武汉召开。该论坛是由中国工程院主办,武汉大学承办的高端国际学术论坛。此次国际论坛围绕泛在测绘理论及工程技术,位置大数据的挖掘理论、方法与信息安全,位置服务体系及典型应用等方面展开学术交流。隐私管理科研工作中的宝贵经验。
本次论坛邀请中国人民大学孟小峰教授作特邀报告。孟小峰教授报告的题目是《位置大数据隐私保护》。孟小峰教授首先 分析总结了现有的位置隐私保护关键技术,并指出现有保护技术在大数据环境下的局 限性。由此提出了大数据隐私主动式管理 框架,以主动防御的方式来构筑全方位的 隐私防御体系。报告结合讲者多年来从事 的数据库领域研究与实践,分享了大数据隐私管理科研工作中的宝贵经验。

王璐同学参加第 16 届网络信息系统工程国际会议(WISE2015)
第 16 届网络信息系统工程国际会议(WISE2015)于 2015 年 11 月 1 日-3 日在美国迈阿密举行。WISE每年举办一次,会议包括大会报告(keynote),研究报告 (research sessions),辅导报告 (tutorial)等,除此之外,本次会议设置了三个专题,包括大数据中的数据质量和可信专题(QUAT-15),分散社交网络专题(DeSN-2015),和特邀专题(invited session)。本次会议 共收录了 53 篇长文,17 篇短文,内容覆盖大数据技术和应用,深层网络,网络集成,语义 网络,社交网络计算,网络隐私与安全等方向。实验室博士研究生王璐的论文“Evaluating k nearest neighbor query on road networks with no information leakage”被录用为长文并参会宣讲。该论文主要针对服务器为半可信的情况下,用户提交空间查询时涉及到的隐私泄露问题。本 文提出利用私有信息检索技术与查询计划的有效结合的安全处理框架来保证查询隐私的强保护。具体的,用户在提交路网环境下的近邻查询时,在安全处理框架下保证返回用户精确结果而不向服务器泄露任何有关查询的信息。

孟小峰教授访问普渡大学签署合作研究协议
2015 年 10 月 29 日, 孟小峰教授应著名计算机科学家伊莉莎•伯蒂诺(Elisa Bertino)教授邀请访问美国普渡大学(Purdue University),并报告了网络与移动数据管理(WAMDM)实验室在大数据隐私的前沿问题上的研究工作。继 2015年 1 月 20 日伊莉莎•伯蒂诺应邀访问中国人民大 学之后,为深化双方在大数据隐私研究上的合作,孟小峰教授与伊莉莎•伯蒂诺教授经协商签署了 合作研究协议,旨在推动双方实验室教师与学生 交流与合作。
Elisa Bertino 教授是普渡大学计算机系教授,是普渡大学Cyber Center 研究中心主任,信息安 全保障教育与研究中心(CERIAS)主任,电气 与电子工程师学会会士(IEEE Fellow)、计算机 协会会士(ACM Fellow)。曾获得 2002 年 IEEE 计算机协会技术成就奖(IEEE Computer Society 2002 Technical Achievement Award)、2005 年 IEEE 计算机协会 Kanai 奖( IEEE Computer Society 2005 Kanai Award)等。其研究领域涵盖 信息安全和数据库系统领域的多方面,包括访问 控制,云数据安全、隐私保护技术、数字化身份 管理、安全计算机体系结构、移动设备安全技术 等。
本次交流访问Elisa Bertino 教授做了精心的安排,普渡方面首先介绍了其Cyber Center和 CERIAS 中心的研究成果。孟小峰教授也就网络与移动数据管理(WAMDM)实验室的研究工作进行了介绍。之后,双方学生代表分别报告了自己当前在做的研究工作。期间大家热烈
提问和讨论,就大数据隐私管理问题进行了深入的交流和探讨。普渡大学计算机系李凝辉教授也参加了本次活动。最后,Elisa Bertino 教授和孟小峰教授签署合作研究协议,以期深化合作,在大数据隐私管理的研究上有重大突破。

李勇同学在实验室举办集智俱乐部“集体注意力与人类计算”专题读书会
2015 年 10 月 25 日下午 2 点 30 分,实验室博士生李勇在实验室举办了集智俱乐部关于“集体注意力与人类计算”的专题读书会。会上李勇做了题为“Web 站点影响力的动力引擎”的报告。报告中提出以下观点:如果把 Web 看作一个虚拟生命组织,根据新陈代谢理论,Web就必须吸收“能量”来生长、繁衍和发展。
从 CNNIC 获得志愿者用户在线行为的样本数据,把站点的影响力看作新陈代谢,将在线群体用户的注意力看作站点的能量,基于实证数据建立的注意力流网络研究了群体注意力在不同站点间的分布与流动。研究表明在线群体用户的注意力正是 Web 影响力发展的动力来源,一个站点的影响力与群体注意力在该站点上的停留时间呈亚线性关系,而站点的影响力与流经该站点的注意力流的强度呈超线性关系。会后大家进行了热烈的讨论,并合影留念。

马如霞同学的 NDBC2015 会议论文荣获萨师煊优秀论文奖
第 32 届中国数据库学术会议(NDBC2015)于 2015 年 10月 16 日-17 日四川省成都市举行。会议主要关注数据库技术所面临的新挑战问题和研究方向,着力反映我国数据库技术研究的最新进展。大会包括大会报告、新技术报告、专题讨论、分组报告、企业报告、研究生辅导和系统演示等环节。本次会议共收录了 89 篇研究论文和 23 篇系统演示论文,内容涵盖 Web数据管理与数据库、数据挖掘和知识发现、查询处理与查询优化、大数据管理与分析、内容与知识管理、图数据与时空数据处理等方向。
实验室博士研究生马如霞的论文“MTruths:Web信息多真值发现方法研究”被推荐至计算机研究与发展正刊,并评为萨师煊优秀论文。文章针对多值属性的真值发现问题,提出了一个多真值发现方法 MTruths,将多真值发现问题转化为一个最优化问题,有效提高了真值发现算法的准确率和召回率。实验室硕士研究生郝泽慧同学的学者谱系构建系统 DegreeTree,在系统展示环节引起参会者的广泛关注。该系统利用Deep Web 数据集成技术自动集成互联网上权威的学位论文数据源,从中挖掘出师生关系,并从不同角度进行生动形象的可视化展示。学者谱系(师生关系)不仅有助于进一步了解学者的影响力,还可以避免评审人与论文的作者、项目的申请人有利益相关。

“CCF 走进高校”之孟小峰走进天津理工大学
2015 年 7 月 17 日上午,CCF YOCSEF 天津在天津理工大学计算机与通信工程学院举办了“大数据管 理:问题与思考”学术报告会。本次报告会邀请到中国 人民大学孟小峰教授作特邀报告,报告主要涉及了在 云计算、物联网、社交网络等新兴服务促使人类社会 的数据种类和规模正以前所未有的速度增长的情况下,产生的新的应用需求提出了新的挑战。报告通过分析 数据产生方式的变化,对比数据库与大数据的差异, 揭示大数据管理的本质挑战问题。报告结合讲者多年 从事数据库研究与实践经验,介绍了大数据管理的点滴体会。

“CCF 走进高校”之孟小峰走进天津大学
2015 年 7 月 17 日下午,CCF YOCSEF 天津在天津大学计算机学院举办了“大数据管理:问题与思考”学术报告会。本次报告会邀请到中国人民大学孟小峰教授作特邀报告,执行主席为CCF YOCSEF 天津 AC 委员、学术秘书、天津大学王鑫博士和 CCF YOCSEF 天津委员、天津大学张小旺博士,会议由王鑫博士主持。
在本次报告中,孟小峰教授首先阐述了云计算、物联网、社交网络等新兴服务促使人类社会的数据 种类和规模以前所未有的速度增长;接着报告通过 分析数据产生方式的变化,对比大数据与数据库的 差异,从大数据集成、大数据计算、大数据存储、 大数据分析和大数据隐私等方面对大数据管理的本 质挑战问题及其解决方法进行了深入地揭示和探讨。同时,报告结合讲者多年来从事的数据库领域研究 与实践,分享了大数据管理科研工作中的宝贵经验。
最后,讲者就目前大数据管理提出了“大数据的局限性”、“如何不被大数据误导”和“大数据人工智能”这 3 个方面的思考。报告兼具广度和深度,解答了在场师生对于大数据管理领域的若干疑惑,同时提出了独到的见解与思考。
报告会现场气氛热烈、活跃,听众提问积极踊跃,教师和学生们与孟小峰教授进行了深入交流和讨论,获益匪浅。本次学术报告会在掌声中取得了圆满成功。

孟小峰教授接受《北京科技报—科技生活周刊》专访
2015 年 6 月 8 日,《北京科技报—科技生活周刊》总第 3533 期的深度栏目刊发了题为 “隐私的终结”一文,该文是在对孟小峰教授等多位数据隐私专家的专访后整理成文的。孟小峰教授在采访过程中指出“现代意义上的隐私是伴随信息的公开化而生的”,并以“晒工资”为例实际开始搜索相关信息,从网上发布人遗留的访问轨迹出发,一步步找到该匿名发布者的工作单位,直至发现该匿名者可能患有肝病的隐私,全程展示了如何通过对公开信息的搜集而获得个人隐私的过程。
孟老师进一步以欧美的公开选民信息、医疗卫生信息为例,阐述了隐私泄露的风险以及隐私保护在这里应该如何发挥作用。孟老师同时强调,所有这些信息都是公开获取的,并没有人去 做黑客,不需要去侵入别人的电脑来获取这些数据,很多人会 把数据隐私和信息安全混在一起,但两者是有区别的。信息安 全是指防止别人获取不应访问的数据,而隐私是指在可公开数 据中如何不泄露个体信息。

博士生慈祥参加第 16 届 Web-Age 信息管理国际会议(WAIM2015)
2015 年 6 月 8 日至 10 日,第 16 届 Web-Age 信息管理国际会议(WAIM2015)在中国山东青岛市举行。WAIM 国际会议每年举办一次,本次会议分为了四个主题,分别是图与社会网络、信息与知识、大数据和推荐系统。
实验室博士生慈祥参加了此次会议,并在会议上作了题为“ An Efficient Block Sampling strategy for Online Aggregation in the Cloud”的报告,主要阐述了在线聚集在内的各种以采样为基础的近似查询中,带有 Group by 的查询会导致一种我们称之为“小组”的特殊问题。其出现的根本原因在于简单随机采样自身的特性会使得数量较小的组在最终的样本中得不到足够的代表样本,或者代表样本比例偏差较大。这些情况都会导致基于样本的估计结果出现很大的偏差。在实际的查询中,这种不同分组规模差异较大的情况经常出现,而且在很多场景下,较小的组才是用户真正感兴趣的组。面对这一特殊问题,报告结合云环境下在线聚集数据存储的自身特性,设计了一种自适应的块级别的采样方法。这种方法既可以在一定程度上消除“小组”的影响,也可以通过停止条件的设定加速整个数据处理过程。

WAMDM 实验室举办大数据隐私管理研讨会
2015 年 5 月 14 日,由 WAMDM 实验室主办的“大数据隐私管理研讨会”在中国人民大学逸夫会议中心第一会议室举行,来自中国科学院信息工程研究所、香港浸会大学、中国人民大学三个单位的相关科研人员出席了研讨会。会议由中国人民大学孟小峰主持并致开幕
词。信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点,是 IT 业正在发生的深刻技术变革。但它在提高经济和社会效益的同时,也为个人和团体的隐私保护以及数据安全带来极大风险与挑战。
本次研讨会上,来自中国科学院信息工程研究所的 林东岱研究员作了题为:“信息安全:从实践走向科学” 的报告,本报告重点介绍了近年来网络空间安全科学的 发展现状以及网络空间安全中关键科学问题,以期加强 对信息安全深层次问题的理解。香港浸会大学徐建良博士作了题为:“可信查询处理”的报告,介绍了实验室在可信查询处理方法的工作,并讨论了未来的研究方向。
中国科学院信息工程研究所的吴保峰博士后作了题为: “Permutable Encryption Functions and Homomorphic Encryption Functions”的报告,对两类重要的加密技术 交换加密以及同态加密做了详细的讲解。张啸剑作了题为:“Differential privacy and big data”,首先阐述差分隐 私与大数据之间的关系,接着介绍差分隐私相关技术,最后介绍基于差分隐私的直方图数据分析技术。孟小峰 教授做了总结发言,分析了大数据管理中存在的隐私风 险和隐私管理关键技术;提出了大数据隐私主动式管理 建议框架以及该框架下关于隐私管理技术的主要研究
内容,并指出相应的技术挑战。最后孟小峰教授提出希望三个单位研究小组相互之间加强协调沟通,以期在大数据隐私管理的研究上有重大突破。

孟小峰教授应邀参加“国家安全管理”双清论坛并做主题报告
国家自然科学基金委员会第 134 期双清论坛于 2015 年 5 月 6-8 日在北京会议中心召开本次论坛主题为“国家安全管理中的重大基础科学问题”。本次论坛由管理科学部、信息科学部和政策局联合主办,清华大学公共安全研究院承办。
本次论坛共进行了 8 个大会主题报告,29 个专题报告。中国人民大学信息学院孟小峰教授在会议中做了主题为“面向国家安全的大数据隐私管理”的报告。报告中首先指出大数据处理技术的出现,使得国家安全管理面临着诸多困难,并严重威胁着国家政权的稳定,大规模性数据采集技术、新型存储技术以及高级分析技术使得大数据的隐私管理面临更大的挑
战;然后通过两个实例来说明隐私问题的重要性,一个是移动轨迹信息,它通常蕴含着丰富 的个人敏感信息,另一个是基因序列信息,它往往隐含着个人疾病情况;接着指出大数据独有的隐私问题使得那些传统的被动式保护技术束手无策,我们需要更加新型的隐私保护技术;最后提出主动式大数据隐私管理框架,其主要包括隐私风险监测与评估技术、隐私主动管理技术、查询隐私管理技术、基于数据溯源的问责技术等。 |

王璐等 3 位同学参加第二十届先进应用数据库系统国际会议(DASFAA2012)
第 20 届先进应用数据库系统国际会议(DASFAA2015)于 2015 年 4 月 20 日-23 日,在越南河内举行。DASFAA 是国际数据库领域传统的重要会议,每年举办一次,会议包括大会报告(keynote),研究报告(researchsessions)、系统演示(Demo)、辅导报告(tutorial)、研讨会(workshop)等。本次会议共收录了 63 篇学术论文,3 篇工业论文,6 篇系统演示,内容覆盖大数据,众包,云数据管理,数据挖掘,查询处理和优化,实时数据管理,推荐系统,数据流和时序数据,基于新硬件的数据库,图数据管理,安全和可信等 32 个研究方向。本次会议,实验室共有三篇长文被录用,分别为:
博士研究生王江涛的论文“An Efficient Design andImplementation of Multi-Level Cache for Database Systems”和“SASS:A High-Performance Key-Value Store Design for Massive Hybrid Storage ”, 以及博士研究生王璐的论文“Bichromatic Reverse Nearest Neighbor Query withoutInformation Leakage”。此外,博士研究生慈祥的论文“Needle in a Haystack:Max/Min Online Aggregation in the Cloud”被本次会议的 workshop 收录。

WAMDM 实验室举办复杂关联数据管理研讨会
2015 年 4 月 8 日,由 WAMDM 实验室主办的“复杂关联数据管理研讨会”在中国人民大学逸夫会议中心第一会议室举行,来自北京大学、清华大学、中国人民大学、微软亚洲研究院四个单位的相关科研人员出席了研讨会。会议由中国人民大学孟小峰主持并致开幕词。
大数据的出现颠覆了传统的数据管理模式,在数据来源、数据处理方式和数据思维等方面带来了革命性的变化。如何从缤纷繁杂、充满噪音信息的大数据海洋中获取有价值的信息、发现可用的知识,已成为学术界和工业界广为关注的问题。2006年,W3C的创建者 Tim Berners-Lee 提出了发展数据Web(Web of Data)的思想,其核心和关键技术就是是关联数据(Linked Data)。关联数据基于 RDF、HTTP、IRI/URI、SPARQL 等技术,在 Web上发布结构化数据并将不同数据源的数据相互关联,使一个数据源的数据可以有效地与其它数据源数据相互关联,并且规定了数据的发布原则,为数据发布提供指导关联数据的提出为大数据的处理提供了借鉴思路,目前已引起了工业界和学术界广泛关注,2012 年 5 月 17 日,谷歌官方宣布发布“知识图谱”(Knowledge Graph)智能搜索功能,标志着关联数据在工业界真正进入实践。
本次研讨会上,来自微软亚洲研究院的王仲远副研究员(王仲远系 WAMDM 实验 2010 届校友)作了题为:“基于知识库的短文本概念化及其应用”的报告,系统介绍了该团队基于概率建模的知识库 Probase 上所做的研究及应用。
中国人民大学王秋月博士作了题为:“基于大规模知识库的语义搜索和自然语言问答”的报告,并介绍了她访问德国马克斯普朗克研究所 Gerhard Weikum 教授所领导的数据库与信息系统研究组期间,了解到的国际上关联数据的研究概况。中国人民大学覃飙副教授作了题为: “基于 hive 的日志数据挖掘”的报告。北京大学邹磊副教授作了题为:“基于图的 RDF 数据管理”报告,介绍了该团队在 gStore 系统的基础上以大图匹配等为核心方法所做的关联数据查询处理方面的研究工作。清华大学王建勇教授作了题为:“Entity Linking with a Knowledge Base for Heterogeneous Data”的报告,介绍了用知识图谱方法解决异质数据实体关联的研究。孟小峰教授最后做了总结发言,对本次研讨会做了点评,希望四个单位研究小组相互之间加强协调沟通,以期在关联数据的研究上有重大突破。

美国普渡大学 Elisa Bertino 教授访问网络与移动数据管理实验室
2015 年 1 月 20 日下午,美国普渡大学(Purdue University)的伊莉莎•伯蒂诺(Elisa Bertino)教授应邀来访孟小峰教授所领导的网络与移动数据管理实验室,并就数据隐私与安全、数字身份管理、安全数据溯源技术等方面的最新研究进展与研究成果进行介绍。
Elisa Bertino 教授是电气与电子工程师学会会士(IEEE Fellow)、计算机协会会士(ACM Fellow)。曾获得 2002 年 IEEE 计算机协会技术成就奖(IEEE Computer Society 2002 Technical Achievement Award)、2005 年IEEE计算机协会Kanai 奖(IEEE Computer Society 2005 Kanai Award)。Elisa Bertino 教授目前任教于普渡大学计算机系,是普渡大学Cyber Center 研究所主任。Bertino 教授精彩的报告引发了大家热烈的提问和讨论。讲座后,Elisa Bertino 教授和 WAMDM 实验室许多同学就大数据隐私管理等研究问题进行了深入的交流和探讨,为今后的合作研究奠定了基础。

Maintained by WAMDM Administrator() | Copyright © 2007-2017 WAMDM, All rights reserved |