2017亮点

孟小峰教授主编“大数据管理丛书”出版发行,版权输出至欧美
2017 年 5 月,由中国人民大学孟小峰教授主编,机械工业出版社华章分社出版的“大数据管理丛书”正式发行。
孟小峰教授等专家学者策划组织的这套大数据管理丛书,旨在培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识点,拉近教材体系与大数据应用的距离,为学术研究和人才培养提供可供参考的“基石”,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
丛书借鉴 Morgan & Claypool Publishers 出版的 Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。
在这个数据洪流席卷全球的时代,中国正在努力从数据大国走向数据强国,虽然我们的力量有限,但聚少成多,积小致巨。因此,本套丛书封面特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅巨卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱。
2017 年 8 月 23 日,机械工业出版社(华章分社)与 Springer 出版社联合举办的“大数据管理丛书”版权输出签约仪式在第 24 届北京国际图书博览会(BIBF)上隆重举行。
“大数据管理丛书”主编、中国人民大学孟小峰教授,机械工业出版社常务副社长李奇,北京华章图文信息有限公司常务副总经理温莉芳,Springer 全球学术出版执行副总裁Hubertus von Riedesel 博士,Springer Nature 大中华区总裁 Arnout Jacobs 及 Springer Nature 企业传播总监 Renate Bayaz 共同出席并圆满完成本次签约仪式。
自 1992 年中国加入《伯尔尼公约》和《世界版权公约》,尽管我国图书版权输出数量屡创新高,但 IT 领域技术图书的版权输出却是凤毛麟角,绝大部分是引进外版项目,逆差极大。在这种背景下诞生的“大数据管理丛书”打破了这一僵局,首次将整套学术图书英文版权输出到欧美。本次版权输出无疑是对华人科学家在大数据管理领域研究成果及贡献的极大肯定,开启了“中国制造”走向世界的崭新篇章。

孟小峰教授应邀出席多场国内重要学术会议并作专题报告
2017 年 8 月 2 日至 8 月 12 日,孟小峰教授先后出席了分别在云南昆明、贵州贵阳、甘肃兰州举办的第四届科学数据大会、2017(第二届)中国隐私保护学术会议以及 2017 年全国大数据与社会计算学术会议三场重要学术会议并分别作了关于“科学大数据管理系统实践与展望”、“大规模隐私泄露问题与挑战”“大数据与社会计算促进交叉学科发展”三场专题报告。其中,孟小峰教授担任 2017(第二届)中国隐私保护学术会议以及 2017 年全国大数据与社会计算学术会议的共同主席。
孟小峰教授在“科学大数据管理系统实践与展望”报告中指出来自于天文学、生命科学和高能物理等应用领域的迫切需求正挑战着当今所有数据管理系统的极限,“科学大数据管理与分析能力及水平”将成为重大科学发现中能否胜出的关键。他重点分析了数据的内涵和本质,以及数据在智能科学发现、实时交互分析、知识图谱构建、交叉领域科学发现的挑战,并以国家重点研发计划“科学大数据管理系统”中构建的两个科学数据管理系统——GWAC 天文数据实时交互分析与管理系统和大规模微生物知识图谱作为实践系统,希望通过该系统的实施,探索“大数据驱动的科学发现”新模式,突破科学大数据管理与分析的瓶颈问题,实现超越“日本:社会 5.0”,领跑“中国:科学 6.0”的宏伟目标。
在“大规模隐私泄露问题与挑战”报告中,孟小峰教授围绕大数据时代的隐私问题,阐释了大规模隐私泄露的基本概念,并对大规模隐私泄漏面临的一系列问题与挑战展开分析——在大数据时代下,大规模数据搜集、数据交易、数据流通等盛行,这造成一种新的隐私风险泄露,即大数据隐私泄露问题。它表现在用户在完成不知情的情况下有第三方导出的隐私泄露,涉及人群广,泄露隐私量大。通过探索大数据应用中的大规模隐私风险,结合近期的研究成果对这些问题进行探讨,给出了大规模隐私泄露保护技术的构想,即大规模隐私风险的动态量化评估、大规模隐私风险的保护方法和支持数据正确使用的数据透明管理。
在“大数据与社会计算促进交叉学科发展”报告上,孟小峰教授指出数据至今仍没有一个公认定义。他围绕大数据在交叉学科所扮演的重要角色展开,首先阐释大数据的概念和技术,然后从自然科学、社会科学和人文学科三大领域出发,以案例分析的形式详细阐述社会计算的含义和现状,最后针对社会计算面临的挑战展开分析,重点介绍大数据与社会计算面临的隐私保护问题。

孟小峰教授在《计算机研究与发展》上组织面向新型硬件的数据管理专题
数据特性和硬件特征是高效数据管理的两个关键因素。一方面,随着大数据时代的到来,数据管理系统需要支持越来越海量、高速、多样的数据。另一方面,计算机系统的硬件正在经历着深远的变化。更大容量的主存、NVM 技术等正改变着存储系统的面貌。如何把这两者相结合,利用新型的存储和计算硬件高效地支持数据管理的需求成为一个重要的学术课题。
有鉴于此,由孟小峰教授担任特约主编的发表于《计算机研究与发展》的“面向新型硬件的数据管理”专题,公开征文并从中遴选出 7 篇文章,内容涵盖面向新型非易失存储 NVM 的数据管理和面向新型加速硬件的数据管理两大方面。其中 5 篇论文来自学术界,反映了国内学术界在面向新型硬件的数据管理方面的最新研究成果,2 篇论
文来自产业界,分别来自华为公司和阿里巴巴公司的数据库系统团队,体现了产业界对数据管理系统中应用新型硬件的关注。专题内容侧重面向新硬件的数据库技术、面向新硬件的大数据系统、软硬件协同设计(Co-Design)的数据处理等方面,探讨面向新型硬件的数据管理基础理论研究及其应用,讨论该领域内最新的突破性进展,交流新的学术思想和新方法,展望未来的发展趋势,实现了学术界与工业界的深度结合!

实验室相继发布学术关系知识图谱和学者关系图谱
在 Web 上,与学者相关的学术信息广泛分布,但并未有效关联起来。2008 年至今,中国人民大学信息学院网络与移动数据管理实验室(WAMDM)开发的中文学术信息集成系统 ScholarSpace,已收集了 25 个领域的千万篇中文论文。该系统将来自不同数据源的学术数据集成在数据库中。如果进一步完成实体和实体关系的抽取,就可以构建一个学术关系知识图谱,描述其中蕴含的丰富知识,从而提供更加高效的查询和多样化的服务。基于此种考虑,在 ScholarSpace 大量工作基础上,我们进一步对数据进行了整理,生成了学术关系知识图谱 ScholarGraph,v1.0 涵盖了七大领域 673,044 位学者、 6,428,056 篇论文的数据,共计 10,612,497 个三元组,之后 WAMDM 实验室将继续发布其他领域百万学者的数据。
同时,我们参照 CSRankings 系统及其评价方法,基于 C-DBLP(ScholarSpace)中文文献数据,对国内计算机学科单位及学者进行排名,构建了学者排名系统 ScholarRankings。本系统的排名不仅取决于论文数量,还将每篇论文的合作者数量考虑进来,综合计算得分。并且,系统还能获取论文的发表年份、发表期刊和学者单位等重要信息,以满足用户多样的需求,在不同组合条件下,能够展示出更具参考价值的排名结果。近年来国内科研水平不断提高,ScholarRankings 从中文文献中挖掘出的信息,能够帮助用户更好地了解国内计算机学科发展状况,激励各单位和学者积极参与科学研究工作。另外,高质量的排名结果,还可用于专家推荐系统,在选择论文或项目的评审人时提供参考意见。
中国人民大学孟小峰教授团队历经十年积累,使得 学术空间 ScholarSpace 的数据不断丰富,功能得到进一 步扩展,逐步推出学者师生关系查询系统 ScholarTree(原 DegreeTree)、学者信息交互分析系统 ScholarExplorer、学术关系知识图谱 ScholarGraph 和学者排名系统 ScholarRankings,同时,在研系统包括学术关系发现系 统 ScholarFinding 和学者推荐系统 ScholarRec。团队成 员通过数据集成、分析、挖掘和展示等相关技术,充分 利用 ScholarSpace 的中文文献数据构建的 Scholar 系列 系统,对于提高中文文献关注度,增强学术自信具有重 要意义。目前,系统尚在不断升级完善中,我们将陆续 添加新数据和新功能,为广大用户带来更佳的使用体验!

WAMDM 实验室在大规模手机 App 隐私量化方面取得突破性进展
随着智能手机的普及和应用市场的快速发展,人们在享受各类移动应用 APP 服务的同时也面临着巨大的个人隐私风险。针对移动设备用户数据泄露问题,WAMDM 实验室隐私组提出了 APP 场景下隐私风险量化模型。
移动用户的隐私风险量化是指根据用户使用手机时个人数据的泄露范围及泄露后对该用户隐私产生的危害对该用户的隐私风险进行估算,具体与两方面的因素相关:一是该用户个人数据的传播范围;二是该用户个人数据的危害值,即数据泄露后对用户造成的安全威胁。
移动用户每次风险操作均会泄露的一定的隐私数据,这些数据构成了用户的隐私项操作列表。对于移动用户某次操作产生的隐私风险,首先,基于项目反应理论求解出每个隐私数据的传播度范围;
然后,基于客观赋权法求解每个隐私数据的危害值;最后,根据已得出的传播范围和危害值,计算得到该次操作的隐私风险值。
基于该隐私风险量化模型,隐私组整理分析了当前移动市场上移动应用 APP 类型,并以TalkingData 移动用户数据集为例,分析样本用户 APP 使用状况并进行风险定量计算,揭示出移动用户隐私风险的产生原因和变化趋势,完成《中国移动用户隐私分析报告》。此外,设计并实现了 OrientAP 移动用户隐私风险量化评估系统,完成对移动用户 APP 风险操作的模拟监测与风险量化预警功能。

孟小峰教授受邀担任由Springer 出版Big Data Management 丛书主编
大数据技术发展变化日新月异,学术界和工业界对于大数据研究和工程人才的需求极剧增加。由此,Springer 出版社即将出版发行 Big Data Management 丛书,并邀请到中国人民大学信息学院孟小峰教授担任丛书主编。
Big Data Management 丛书旨在更新并扩充数据管理与分析研究中的理论与知识框架,反映大数据领域的最新研究成果与实际应用,并突出目前开发中的关键计算工具与技术,对大数据管理问题的普及宣传教育工作发挥了积极作用,具有深远影响。
本丛书邀请到了美国伊利诺伊大学香槟分校韩家炜教授、日本东京大学喜连川优(Masaru Kitsuregawa)教授、美国伊利诺伊大学芝加哥分校 Philip S Yu 教授、中科院谭铁牛教授和北京大学高文教授担任名
誉顾问。另外,美国亚利桑那州立大学Daniel Dajun Zeng 教授、华中科技大学金海教授、Facebook 王海勋教授、美国亚利桑那州立大学刘欢教授、复旦大学王晓阳教授、美国纽约州立大学宾汉姆顿分校孟卫一教授受邀担任本丛书编委。

Maintained by WAMDM Administrator() | Copyright © 2007-2017 WAMDM, All rights reserved |