2018亮点

实验室发布《中国隐私风险指数分析报告》
随着物联网技术的迅猛发展,移动设备广泛普及。以中国市场的智能手机为例,中国互联网信息中心第41次《中国互联网络发展状况统计报告》指出,截至2017年12月,中国手机网民规模达7.53亿,较2016年底增加5734万人,约占总体人口规模的二分之一。移动设备的普及使得移动应用(Mobile Application,以下简称App)应运而生并蓬勃发展。据工信部网站发布消息,截至2017年12月,中国市场监测到App数量达403万款,其中本土第三方应用商店App数量为236万款。App种类丰富,包括游戏、社交、购物以及金融理财等,覆盖个人方方面面的数据信息。这些信息无时无刻不被App服务提供商收集,在大数据时代数据挖掘与分析技术的推动下,个人在移动互联网中几乎没有隐私可言。
基于此,WAMDM实验室针对使用移动设备的用户(以下报告中简称移动用户)的个人数据被收集情况进行调研分析,从移动场景下两大数据主体——数据拥有者(移动用户)、数据收集者(App开发者)角度入手,提出基于权限的隐私风险评估方法,构建隐私风险量化模型,制定中国隐私风险指数体系,从数据收集者角度揭示用户数据的流向,并从自然属性、社会属性、行为属性等维度揭示不同数据拥有者群体的隐私风险特征,最终撰写并发布中国隐私风险指数分析报告。
中国隐私风险指数分析报告所使用的数据集包含三部分内容,一是用户App使用数据,即用户安装或卸载App事件日志数据;二是用户属性画像数据,包括用户的自然属性、社会属性、地域信息及行为属性信息;三是App数据,通过爬取第三方应用网站得到的各App相关信息,包括App名称、类别、开发者、版本、权限、大小、评分等信息。其中,用户样本集来自对中国333个地级行政区(截至2018年8月1日)的移动用户分层抽样,总样本量为30,907,758,即约3000万;爬取App数量为294,358,即约30万。
隐私风险评估方法的基本思想包含两方面:其一,用户数据是通过App权限设置多少而泄露的,同时开发者收集数据也是基于App权限的多少而获得的;其二,隐私的风险来自于用户所使用App的权限,不同权限有不同的隐私风险程度取值。基于此思想,我们构建了基于权限的隐私风险量化模型,并据此分析数据收集者隐私风险指数和数据拥有者隐私风险指数(区域隐私风险指数、人群隐私风险指数、行为隐私风险指数)。
本报告后续将进一步加以完善,具体从以下四个方面开展工作。第一,对造成隐私风险指数差异的成因进行更深入的研究;第二,转换分析角度,尝试行为分析、计量分析等多种分析方法;第三,进行隐私风险量化模型的敏感度测试与合理性检验;第四,与国家有关职能部门进一步沟通,为我国相关隐私保护政策的制定提供科学支持。

实验室组织以“frontier in AI&DB” 为主题的优秀毕业生分享活动
由深度学习驱动的新一代人工智能变革给传统计算系统带来巨大冲击,机器学习和数据库作为两种截然不同的技术呈现出不断结合的趋势。一方面,机器学习系统应当从传统数据库研究中获取新灵感,实现机器学习算法的易用性和可解释性;另一方面,结合机器学习进一步优化数据库管理系统,让机器学习与数据库技术互相结合促进优化显得更加重要。
本次会议邀请了WAMDM实验室往届的优秀毕业生返回中国人民大学,与实验室及相关人员进行学术交流,报告内容聚焦AI&DB。
特邀报告,王海勋,博士,2000年获得美国加州大学洛杉矶分校(UCLA)计算机博士学位,是国际数据库领域一流学者,美国沃尔玛电子商务部人工智能实验室资深数据专家,高级技术工程师。报告主要内容北美最大的电子商务网站之一的walmart上提出解决搜索问题的挑战。特别是,将介绍产品搜索的挑战,以及我们在查询理解和可视化搜索方面的最新进展。
AI&DB实践报告,谢敏(2009实验室硕士毕业),陈继东(2007实验室博士毕业),王仲远 (2010实验室硕士毕业),朱金清(2009实验室硕士毕业)等优秀往届毕业生依次,AI for E-commerce Search,“从刷脸支付到数字身份探索” - 人工智能算法商业化的思考和实践,知识图谱及其落地应用,大数据+智慧交通应用等题目的精彩报告,实验室人员受益匪浅,最后孟老师结尾送给大家一点对未来的看法,希望大家再超前一步:万物互联的时代已经来临,当下的技术还停留在互联网上,多是以织网为主,万物互联时代织网终将不成问题,人们需要的是剪网(借用丰子恺的《剪网》一文“所以我想找一把快剪刀,把这个网尽行剪破,然后来认识这世界的真相”)。谁能找到这把快剪刀,谁就能制胜未来!

实验室开发了AstroServ:全时态天文大数据管理系统
实验室云组从2016年8月至今艰苦奋斗,终于研发出了全时态大数据管理系统,是以时域天文学为代表的一大类典型科学应用,为科学大数据的管理与分析提出了新的挑战。基于时域天文学问题与数据的特点,AstroDB可以把数据的管理与分析结合应用的特点高效地集成起来,相互支持。同时设计实现了在线与离线,流式与批处理相结合的新型共生处理模式,为基于天文大数据的科学发现提供了基础性软件系统平台的支持。
AstroDB主要目标集中在关系型科学大数据的全时态管理,分为实时层和离线层两部分,实时层主要用于支持实时科学事件发现,其具有百亿行数据的管理能力,能保证130万行/每秒的数据插入吞吐率,并支持实时的异常事件管理和分析,平均查询延迟3秒。离线层主要用于历史数据管理和长周期科学规律的分析,其具有千亿行数据的管理能力,具备15万行/每秒的数据插入吞吐率,支持典型大规模历史科学数据分析,平均查询延迟27秒,此外设计的压缩方案能保证数据量压缩为默认方案的30%。
国家天文台观测设备具有大视角短时标的国际领先水平,16台光学望远镜组成阵列每15秒观测一次。我们的系统需要5秒左右完成32万数据处理,一晚上处理7.7亿数据,力图找到异常天文现象。这是一次成功的与自然科学跨领域合作,技术上克服了重重困难,积累了交叉学科研究的经验。

实验室在安全和隐私顶级会议IEEE S&P 2019发表论文
近日,中国人民大学孟小峰教授团队博士生叶青青在安全和隐私顶级会议IEEE S&P 2019发表论文“PrivKV: Key-value Data Collection with Local Differential Privacy”,研究基于“键值对”(key-value pair)数据的本地化差分隐私(Local Differential Privacy,LDP)保护方面的工作。
孟小峰教授所带领的网络与移动数据管理实验室于2006年开始开展隐私保护研究,包括位置隐私保护、数据发布和分析中的隐私保护、互联网搜索中的隐私保护和云计算中的隐私保护等,其中涉及的技术包括匿名化技术、隐私信息检索和差分隐私技术等。其中,对于本地化差分隐私保护技术,其主要从大数据时代下伴随数据收集问题而来的数据安全和隐私问题出发,以数据扰动的方式保证个人的隐私信息不被泄露。本地化差分隐私保护方法是目前新兴的技术,严格的保护模型和极强的适应性使其在工业界得到广泛应用,包括谷歌、苹果和微软等。
S&P全称是IEEE Symposium on Security and Privacy,是安全与隐私领域传统的学术会议,已有40年的历史。在最近刚刚发布的计算机谷歌学术指标(Google ScholarMetrics, GSM)安全领域中排名第二,其全年投稿录用率大约为10%,发表难度较高。过去三年国内在此会议发表论文不超过10篇,本论文是人大首次在该顶级会议发表论文。孟小峰教授团队的此项研究课题受到国家自然科学基金重大研究计划“大数据驱动的管理与决策”重点项目“大数据开放与治理中的隐私保护关键技术研究”,国家重点研发计划项目等的资助。

孟小峰教授组织多场国内重要学术会议
2018年8月29日至30日,第三届全国大数据与社会计算学术会议(BDSC2018)在石家庄召开。本次大会由全国大数据与社会计算指导委员会主办,河北经贸大学和中国人民大学、香港城市大学共同承办,京津冀大数据产业协会和河北新龙科技股份有限公司协办。校党委书记董兆伟教授、中国人民大学信息学院孟小峰教授、香港城市大学计算社会科学祝建华教授、国家信息中心信息化和产业发展部主任单志广担任共同主席。大会开幕式由河北经贸大学科研处负责人主持,副校长武义青出席。
2018于2018年9月14日—15日,2018中国计算机学会第十五届中国信息系统及应用大会-wisa在山西太原成功召开。本次会议由中国计算机学会主办,信息系统专业委员会及太原理工大学承办,洛阳师范学院、信息系统协会中国分会(CNAIS)、山西财经大学协办。大会主席由中国人民大学孟小峰教授、太原理工大学李明教授共同担任。大会主题是“大数据与智能信息系统”,旨在围绕未来智能信息系统主题,关注智慧城市、政务信息系统、智慧医疗健康、金融科技与安全等领域,聚焦数据共享、数据治理、知识图谱、区块链等关键问题,搭建学术、企业、政府交流平台,拓展会议的影响。
2018年9月27-29日,2018(第三届)数据安全和隐私保护大会在杭州举行。大会将邀请国内外数据安全与隐私保护相关的政策法律标准、产业实践、前沿技术等领域专家学者,探讨政策、产业和技术的最新进展和发展趋势。作为中国最权威顶级、规模最大的数据安全领域会议,本届大会以“数据安全 隐私保护”为主题。
2018年11月30日至12月1日,首届科学大数据管理国际会议在北京举行,会议以“大数据驱动的科学发现”为主题,特别邀请2017年诺贝尔物理学奖获得者,“引力波”之父Barry C. Barish教授、中国科学院院士郭华东研究员、约翰霍普金斯大学彭博杰出教授Alexander S. Szalay教授等嘉宾做主题演讲。本次会议由中国科学院计算机网络信息中心、中国人民大学、CWI和MonetDB Solutions等发起,由中国科学院计算机网络信息中心具体承办。

WAMDM 实验室举办ScholarSpace十周年活动
2018年6月17日,WAMDM实验室以“ScholarSpace十周年”为主题举办了相关毕业生的返校活动。活动邀请到2010届硕士生王仲远、2012届硕士生陈威和2016届硕士生赵可君。具体活动包括孟老师的实验室研究进展介绍、毕业生分享等。2000年至今,WAMDM实验室将目标定位在解决数据库技术与Web技术和移动计算交叉所产生的挑战问题上,并为此十余年攻坚,取得了一些国内外所公认的研究成果。以2011年为界,创新数据管理进入了新阶段。实验室一直在思索新数据时代的研究布局,并将新时代的研究方向概括为数据创新数据管理2.0,其中涉及云计算、闪存存储、隐私保护、大数据融合和知识图谱等关键词力图探索下一代计算技术和应用所需的数据管理技术。一直以来,实验室的研究风格秉承萨师煊、王珊教授所树立的以系统为重的人大风格,坚持理论研究与系统开发并重的双轨制研究方式。
学术空间ScholarSpace便是实验室开发完成的众多系统之一。它是一个学术信息集成系统,采用类数据仓库式的集成方式,从不同数据源抽取中文学术信息,并经过实体抽取、关系挖掘和语义建模等,为用户提供数据查询、文献导读和领域Top分析等服务。自2008年起,该系统已囊括ScholarSearch、ScholarTree、ScholarExplorer、ScholarGraph和ScholarRankings共5个子系统。各子系统之间相互依赖,共同促进。目前,系统已收录2,297,097篇论文(25个领域)、4,003,276篇学位论文(53个领域)和1,350,755位研究人员。

孟小峰教授在“YOCSEF 二十周年”庆典活动中荣获多项奖励
2018年5月26日下午,YOCSEF 举行了隆重的20周年庆典仪式。YOCSEF凭借他的独特的视角、犀利的选题、鲜明的立场、多样化的观点在中国IT界异军突起,其品牌知名度也迅速上扬,在社会上形成了相当的影响力。YOCSEF还在学会组织建设与制度建设方面做了诸多大胆创新,比如YOCSEF的班子是一年一选的公选制,每个职位都是差额选举。这些大胆的制度不但20年前没有,即便是在今天的中国也属罕见。
随着时光的推移,YOCSEF从组织上越来越壮大了。从最初的十几人,发展到现在的3000多人。可是由于外界环境的巨大变化,一代代年轻继任者们对YOCSEF创立者的初心未必能完全理解与传承,论坛的质量有所下降,社会影响力有消退的趋势。对于任何一个组织而言,如何保持创建时的活力,都是极大的挑战。此次“YOCSEF20周年庆典”一方面是总结所取得的成绩,另一方面也是及时地反思自己的不足,为今后发展打下坚实的基础。我们坚信:只要我们不忘初心,坚持我们的信仰与价值观,YOCSEF的再次崛起指日可待! 论坛邀请了资深的YOCSEF荣誉委员李明树、孟小峰、胡事民,以及CCF荣誉会员、中青报谢湘畅谈了YOCSEF 20年的发展历程。
二十周年庆典活动期间,举行了颁奖活动,颁发了大会青竹奖、YOCSEF年度奖和YOCSEF二十周年奖励等多种奖项。孟小峰教授YOCSEF荣誉委员荣获“YOCSEF二十周年最佳荣誉委员奖”和“YOCSEF二十周年最具影响力的论坛及主持人奖”。

孟小峰教授应邀出席多场国内重要学术会议并作专题报告
2018年5月25日上午,2018中国国际大数据产业博览会大数据安全高峰论坛在贵阳举行。此次论坛由2018中国国际大数据产业博览会组委会支持,贵州警察学院、贵州师范大学、贵州大学主办,公安部网络安全保卫局、贵州省公安厅、贵阳市人民政府、贵州省大数据发展管理局指导,主题为提高大数据及网络综合治理能力。中国保密协会隐私保护专委会副主任孟小峰,以保障国家网络安全”“我国大数据隐私现状分析与发展趋势”“提升贵州政府治理体系数字化与保障大数据安全”作了主题演讲。来自公安部、民航公安局、北京工业大学、中国科学院的特邀嘉宾,各省、市、自治区公安机关的同志,华为、阿里、360、腾讯、贵州东冠等省内外企业的领导参加了论坛。
2018年保密技术交流大会暨产品博览会于10月31日在青岛国际博览中心盛大开幕。由中国保密协会主办,中国保密协会隐私保护专委会、杭州世平信息科技有限公司承办的“人工智能与隐私保护”主题论坛备受关注、亮点纷呈。
论坛围绕 “人工智能”、“数据安全”、“网络安全法律法规”等关键词展开。来自学术界和企业界的专家在会议上作了报告。旨在推动企业与用户、企业与企业、国内与国际之间进行保密技术交流合作,增强机关、单位干部职工保密意识,普及公众信息安全保密防范常识,提高保密科技研发和产业发展水平。同时增强机关单位干部职工保密意识,普及公众信息安全保密防范常识,充分发挥保密科技发展政策引领作用、市场资源配置作用、企业创新主体作用,提高保密科技研发和产业发展水平。会展由保密技术交流大会、2017年度保密科学技术奖励大会、保密技术产品博览会、保密技术论坛等活动组成,同时,设立了信息安全保密公众体验区,围绕公众关心的信息安全保密问题,通过警示教育、态势感知、互动演示、视频播放、图书展览等方式,普及保密法律法规和信息安全知识,增强公众信息安全保密防范意识,提高基本防范技能。

Maintained by WAMDM Administrator() | Copyright © 2007-2017 WAMDM, All rights reserved |