WAMDM实验室研讨会  
  • 2017-06-02 数据库系统实现线性代数 by 吴文妹
  • Abstract: 数据分析,包括机器学习和大规模统计处理,是当今一个重要的应用领域。这些分析技术中经常要用到线性代数。要实现线性代数可以用传统的关系数据库来实现,也可以用阵列数据库来实现。本报告介绍了如何关系数据库和阵列数据库来实现线性代数。
  • 2017-06-02 PRA和SFE的对比分析 by 张祎
  • Abstract: PRA是基于知识图谱拓扑结构的经典知识库补全技术。其算法核心是通过随机游走获取路径特征。虽然随机游走可以降低计算成本,但也会导致补全结果不稳定。Matt Gardner提出了更简单有效的SFE算法。本报告将重点解释SFE算法的核心思想,并进行实验结果分析。为进一步对PRA和SFE进行对比分析,我也在Freebase上进行了对应实验。

    2017
     2017.06.02  会议地点:理工配楼一楼会议室
     (Cloud Group) 数据库系统实现线性代数 
    Abstract:
    数据分析,包括机器学习和大规模统计处理,是当今一个重要的应用领域。这些分析技术中经常要用到线性代数。要实现线性代数可以用传统的关系数据库来实现,也可以用阵列数据库来实现。本报告介绍了如何关系数据库和阵列数据库来实现线性代数。
     (Web Group) PRA和SFE的对比分析 
    Abstract:
    PRA是基于知识图谱拓扑结构的经典知识库补全技术。其算法核心是通过随机游走获取路径特征。虽然随机游走可以降低计算成本,但也会导致补全结果不稳定。Matt Gardner提出了更简单有效的SFE算法。本报告将重点解释SFE算法的核心思想,并进行实验结果分析。为进一步对PRA和SFE进行对比分析,我也在Freebase上进行了对应实验。
     2017.05.26  会议地点:理工配楼一楼会议室
     (Mobile Group) 基于神经网络的词和文档语义向量表示方法 
    Abstract:
    在自然语言处理领域,最常用的语义表示方法是词袋子模型,该方法存在数据稀疏问题,并且不能保留词序信息。早期方法中提出的词性、句法结构等复杂特征,往往只能对特定的任务带来性能提升。报告从词和文档两个层次对文本的语义表示技术进行系统的总结分析,具体如下:一、 词向量表示技术的理论及实验分析;二、基于字词联合训练的中文表示及应用;三、基于循环卷积网络的文档表示及应用;四、总结与展望。
     2017.05.12  会议地点:理工配楼一楼会议室
     (knowledge fusion) 生成式对抗网络介绍 
    Abstract:
    本次分5个方面来介绍一下GAN的有关知识:(1)为什么生成模型值得研究;(2)生成模型如何工作及GAN与其他生成模型的比较;(3)GAN的具体实现;(4)GAN的研究前沿;(5)将GAN与其他方法相结合的若干模型。
     (Privacy Group) 基于差分隐私保护的系统及应用 
    Abstract:
    近年来,随着大数据时代的到来,关于数据隐私保护的问题越来越引起人们的关注,如何更加有效地保护数据发布、存储和分析中的隐私成了研究热点问题。传统的隐私保护技术很多都依赖于特定的背景知识,例如k-匿名等隐私保护方法,离开了特定的背景知识则保护方案失效。因此,在近些年出现了差分隐私保护技术。它是一种新兴的数据隐私保护方法,不依赖于特定的数据背景知识,是一种由严格数学理论支持的新兴的,强健的隐私保护策略。目前关于差分隐私保护的研究多停留在理论层面,而相关原理展示与应用实践系统很少。因此本文研究开发了OrientDP系统,它是基于差分隐私保护策略的原理展示与验证系统,并且选择了交通坐标流量监测的应用场景,来实际应用差分隐私保护技术保护汽车坐标隐私,达到了良好的效果。
     2017.04.28  会议地点:理工配楼一楼会议室
     (Web Group) 基于神经网络的微生物生长环境关系抽取 
    Abstract:
    微生物生长环境关系抽取旨在从生物文献中自动地抽取微生物和栖息地之间的关系。这不仅对构建全面的、可理解的微生物及其栖息地的关系数据库有指导作用,而且能促进微生物、健康科学和食物加工等领域的发展与实际应用。目前针对微生物生长环境关系抽取任务的主要方法主要分为基于规则的方法和基于机器学习的方法。这两种方法都需要人工设计大量的规则和特征,选择分类器,而且不能利用未标注的语料,存在一定的局限性。基于神经网络的微生物生长环境关系抽取方法,可以实现特征的自动学习,避免了过多的人工干预,同时能够利用大量未标注语料中的领域知识。本次报告主要介绍小组在利用神经网络进行微生物生长环境关系抽取的进展以及未来的工作。
     (Cloud Group) ICDE2017参会报告 
    Abstract:
    介绍了ICDE2017上的两篇论文(1.多处理器架构中流数据处理系统的测试与改进。2.CPU-GPU架构中Key-Value数据库的设计)和两篇Demo。
     2017.04.21  会议地点:理工配楼一楼会议室
     (Privacy Group) 手机隐私综述?评估APP隐私和用户隐私保护方法 
    Abstract:
    差分隐私允许数据收集者在保证用户隐私的情况下进行统计分析,但是这仍存在隐私风险,因为收集者仍持有用户的原数据。本地化差分隐私允许每个用户在发送数据给不可信第三方前随机化自己的数据,解决了这一难题。谷歌从2014年就开始在谷歌浏览器上使用本地化差分隐私。谷歌开源项目Rappor在严格的用户隐私保证下通过从客户端用户获取数据来进行统计分析。
     (Cloud Group) GWAC 持久化和查询实现v.1 
    Abstract:
    GWAC 天文大数据系统的持久化和查询系统的设计和实现。1.持久化指的是,在白天GWAC需要在有限的时间内将晚上缓存在redis中的数据通过spark读取出来,建立表结构,最后存入HDFS。2.介绍我们针对天文大数据的实时查询和离线查询的需求,设计了查询引擎
     2013.04.07  会议地点:理工配楼一楼会议室
     (Cloud Group) ICDE2017预报告 
    Abstract:
    Storm 是一个流行的实时流处理系统,应用于包括实时分析、日志处理、预警等场景中。但是,在使用Storm运行任务(Topology)的时候,需要提前指定许多参数,并且这些参数在任务运行中是不可变的。这就导致Storm无法适应流速动态变化的场景,进而产生资源的浪费或者无法提供满足要求的吞吐量。为了解决这个问题,本次组会介绍了一种能够根据流速特点动态改变Storm参数的系统AdaStorm。这个系统旨在能够使用尽可能少的资源来满足流处理的需求(提供低延时和满足要求的吞吐量)。我们采用的方法是定期收集Storm运行时的参数,得到训练样本,训练出能够对资源、吞吐量和延时数据准确预测的模型,每当需要改变配置的时候,就能够从模型中得到最优参数设置。我们实验表明了使用AdaStorm能够节约大约15%的CPU和60%以上的内存。
     (Web Group) 基于微生物数据的关系发现及其交互分析 
    Abstract:
    随着测序,质谱等检测手段的不断进步,伴随着科技的发展,数据产生的效率获得了极大的提升,微生物各类大数据的综合分析也日渐成为关键问题。如何去存储微生物大数据,如何提取数据之中的关键信息,最后又如何去进行交互式的可视化展示,这一切都成为大数据时代微生物数据分析的挑战。
     2017.03.31  会议地点:理工配楼一楼会议室
     (Cloud Group) 大规模时空数据的处理 
    Abstract:
    Secondo作为一个可扩展的系统,能够提供各种数据类型和算法去有效的表示和处理时空数据。但是,当今时空数据爆炸性增长,如使用导航和移动设备产生大量数据,单机版的Secondo已不能满足实际的时空数据处理需要,本报告讲述了并行和分布式Secondo系统。
     (Cloud Group) GWAC data real-time processing and interval query 
    Abstract:
    超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性。目前天文台和人大等单位参与的GWAC天文望远镜数据处理项目具有以下鲜明的特点:(1)数据源在固定频率下以流形式产生数据;(2)数据以块形式产生;(3)能低延迟查询当前观测夜数据。目前,天文台方案以MonetDB数据库做底层支持,星的相关数据存入一张逻辑表中,虽然方案实现简单,但是monetDB每隔几十个文件会出现跳点,加载时间提高到10秒左右,不稳定性可能会导致数据入库的滞后。目前人大方案以Redis cluster作为底层支持,每颗星的数据形成KEY-LIST结构,但该结构的入库对网络延迟要求高,且数据管理的内存开销大。面对上述问题,我们对方案进行了改进,每颗异常星数据以KEY-LIST结构存储,剩余数据以块的形式按KEY-LiST存储。该方案优势是,能够兼顾入库速度和查询效率,但对于间隔查询这类特殊查询会降低查询效率,因此我们计划引入一种特殊的倒排索引和线段树构建时间序列索引,以提高整体查询速度。
     2017.03.10  会议地点:理工配楼一楼会议室
     (Cloud Group) 分布式数据流管理系统中在线连接的数据倾斜问题研究 
    Abstract:
    在并行无共享环境中的可伸缩连接处理需要一个分区策略,用于均匀分配处理负载,同时尽量减少状态维护的大小和消息传递的数量。像传统的数据库处理一样,数据流上的在线θ连接的计算代价是昂贵的,而且是基于内存的处理,他们需要较高的内存空间。Join-Biclique模型具有三个特点:内存高效、可擦写和可扩展的。然而,现有的Join-Biclique模型无法动态分配查询节点,需要手动设置分组参数。更严重的是,在全历史连接查询下,数据偏斜的效果更差。在本次报告中,为确保查询语句的一致性,我们引入了一个贪婪的算法来处理数据流的倾斜问题。
     (cloud Group) Spark核心编程与内核架构深度剖析 
    Abstract:
    对本学期开学起来所学进行整理汇报,主要针对spark特性,核心编程原理,算子案例介绍,内核架构分析。
     2017.03.03  会议地点:理工配楼一楼会议室
     (Web Group) 基于PRA算法的知识库补全技术 
    Abstract:
    现有知识库的规模虽然越来越大,但依旧很不完整。知识库补全模型一共包括三类:图特征模型、隐性特征模型和马尔科夫随机场。该报告将主要分享一个图特征模型,即PRA(Path Ranking Algorithm)以及基于PRA的两种改进方法。第一种改进方法是在PRA原有的知识库信息基础之上加入了文本信息;另外一种则针对PRA提出了多任务并行处理框架,即CPRA(Coupled PRA)。这两种优化方法是否同样适用于隐性特征模型?是否可以通过结合图特征模型和隐性特征模型来提升算法性能?报告在最后将会对这两种模型进行简单对比。
     (Web Group) 基于Deepdive的知识库构建 
    Abstract:
    由实体和关系组成的知识库描述了不同层次和粒度的抽象概念,是对客观世界的知识映射,在商业搜索引擎、问答系统、电商平台和社交网站均有广泛应用,。Deepdive是斯坦福大学开发的一个开源知识库构建工具。本次报告首先介绍Deepdive的开发背景和实现架构,然后根据一个例子(Spouse关系构建)讲述Deepdive的应用开发流程。最后会报告一下目前运用Deepdive存在的难点和未来的工作。
     2017.02.25  会议地点:理工配楼一楼会议室
     (Knowledge Fusion) 知识库的自动构建:NELL, EntityCube, Watson, 或 DeepDive 
    Abstract:
    大型知识库(KB)的实体、它们的属性以及实体之间的关系,已经成为在网站内容和其他大数据上完成语义搜索、资产分析和智能推荐的一个重要的资产。知识库构建技术正是完成知识库构成的关键,比如它可以从无结构的输入中找出事实信息存入关系数据库。知识库构建的关键挑战是如何从不同类型的和海量的数据中构建高质量的知识库,更为复杂的是这些数据需要关系操作和机器学习技术共同完成。下面就从实际的几个KBC系统来介绍其技术实现和发展现状。
     (Web Group) 为关系型数据库简历交互的自然语言接口 
    Abstract:
    自然语言一直是查询接口设计者的圣杯,但除了在限定好的具体情况下,通常认为很难实现。本次报告描述了关系型数据库可交互的自然语言查询接口的体系架构。通过限定与用户的交互,以能广泛应用于多种领域的方式,正确解释复杂的自然语言查询。通过这些方法,逻辑复杂的英文句子能正确转化为 SQL 查询,其中可能包括聚集、 嵌套及各种类型的连接,并可根据 RDBMS进行 评估。利用这些思想,我们构建了NaLIR系统 (Natural Language Interface for Relational Databaces)。实验表明NaLIR 完全可以投入实际应用,即使新手使用者也能完成相当复杂的查询。
     2017.01.12  会议地点:理工配楼一楼会议室
     (Cloud Group) 入库程序探讨 
    Abstract:
    利用spark在白天对一晚上积累在redis中的数据往HDFS中入库,本次报告和大家详细讲解入库程序的实现,和实际遇到的问题,以及我们是如何解决的。
     (Web Group) 基于Big Data Footprint以及Sirius的benchmark分析讨论 
    Abstract:
    通过阅读对比Big Data Footprint以及Sirius两篇论文,比较benchmark的主要研究方向以及研究点。其中,针对Big Data Footprint,相应的benchmark通过讨论比较精度,能耗以及存储空间来提出了相关的性能优化,通过算法以及硬件的调整,实现了能耗的大幅度下降以及精度的保证。而针对Sirius,通过比较Sirius Suite,解决相关的瓶颈问题。通过对比两篇论文,明确了benchmark的关注要点,为下一步的深入研究提供基础。

    2016
     2016.12.29  会议地点:理工配楼一楼会议室
     (Web Group) 基于深度学习的知识库问答 
    Abstract:
    深度学习在图像、语音等领域取得了极大的进展,自然语言理解也加入这项变革中。自然语言理解的一些常见任务,如词性标注、分词、命名实体识别、实体抽取、关系分类、分本分类,运用深度学习也取得了很好的效果。本次报告关注KB-QA(基于知识库的问答系统,Knowledge-based Question Answering),介绍深度学习在KB-QA常见的处理方法,Web小组在KB-QA的一些进展,以及未来的工作。
     (Cloud Group) 天文大数据挑战与实时处理技术 
    Abstract:
    超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性。这些最新天文成果发现的背后建立在海量天文数据的近乎实时产生、管理与分析的基础上,因此给目前的数据管理系统带来了新的挑战。以我国自主研发的GWAC天文望远镜为例,15秒的采样和处理周期都处于短时标观测领域的世界前列,但却对数据管理系统提出了很多问题包括:多镜头并行输出数据管理,实时瞬变源发现、当个观测夜数据的秒级查询、数据持久化和快速离线查询等。本文基于上述问题,设计了分布式GWAC数据模拟生成器用于模拟真实GWAC数据产生场景,并基于产生的数据特性,提出一种两级缓存架构,使用本地内存解决多镜头并行输出、实时瞬变源发现,使用分布式共享内存实现秒级查询。为了平衡持久化和查询效率,设计一种星表簇结构将整个星表数据划分后聚集存储。根据天文需求特点,设计基于索引表的查询引擎能从缓存和星表簇以较小的代价对星表数据查询。通过实验验证,当前方案能够满足GWAC的需求。
     2016.12.22  会议地点:理工配楼一楼会议室
     (Cloud Group) 磁盘节能技术 
    Abstract:
    当今由于数据量的爆炸式增长,需要存储海量的数据同时还要处理海量的数据,会带来高能耗问题。而且数据中心的能耗还是呈逐年快速增长。数据中心的很大部分能耗由磁盘引起的。当前存储系统的能耗占整个IT中心能耗的37%,同时存储能耗还以很高的速度递增。本报告总结了基于磁盘的节能方法,并探讨对于特殊应用的节能想法。
     (Web Group) 基于QA技术补全知识库 
    Abstract:
    在过去几年中,大量的世界知识积累在公共可用的知识库,如Freebase,NELL和YAGO。 然而,尽管它们看起来巨大,但这些知识基础是非常不完整的。 在论文“通过基于搜索的问答(WWW 2014)的知识库完成”中,作者提出了一种利用现有的基于网络搜索的问答技术来有目的地填补知识库空白的方法。 特别地,对于每个实体属性,它们学习要询问的最佳查询集,使得搜索引擎返回的答案片段最可能包含该属性的正确值。论文还讨论了如何跨越 多个查询,最终返回每个属性的可能值的概率预测。
     2016.12.15  会议地点:理工配楼一楼会议室
     (Web Group) 基于知识图谱的实体关系路径发现 
    Abstract:
    在许多领域,寻找实体之间的关联关系是一种常见的需求,例如社交平台基于已有的关系网推荐朋友,国家安全部门需要掌握犯罪分子之间的关联,生物学家通过基因蛋白质疾病等对象之间关系发现病因研制药物。近年来Web上以图结构表示的数据越来越多,描述方法(如RDF)也越来越成熟,与从文本中提取相比,实体间的关联可以通过寻找图上的路径或子图来确定,实体关系发现变得更加自然。本次报告对比了一些成型的关系发现系统,同时介绍了一些生物医学领域的实体关系发现问题。
     2016.12.08  会议地点:理工配楼一楼会议室
     (Cloud Group) ARM TCM的构建及SQLite数据库系统能耗优化 
    Abstract:
    通过前期的实验发现在数据库应用的能耗当中,数据搬移的部分大约占据60%,而仅L1缓存的数据交换就占了其中90%。本次报告针对这一问题,提出相应的改进方案。总体思想即利用软件控制的ARM TCM来部分替代传统的由硬件控制的L1 cache,改进的目标为嵌入式系统当中流行的数据库系统SQLite。报告首先描述了硬件和软件环境的选择和构建,TCM的用户空间接口实现。接着针对SQLite的实现进行了分析,提出了热点数据结构、B树以及基本操作优化的初步构建和实现。实验结果与前一次报告的结论基本吻合。
     (Privacy Group) 隐私保护下的数据发布 
    Abstract:
    当人们想对涉及个人敏感信息的数据进行发布和挖掘时,隐私是一个不可回避的问题。保护个人隐私信息的研究涉及了多个领域,包括计算机科学、统计学、经济学和社会科学等。报告主要介绍关于隐私保护下数据发布的研究问题。它主要回答了这么一个问题:诸如医院、政府机构或保险公司等这样的组织机构,如何在不泄露个人隐私信息的的情况下进行数据发布?
     2016.12.01  会议地点:理工配楼一楼会议室
     (Web Group) 基于知识库的关系提取初步调研 
    Abstract:
    知识是当今信息时代中最特殊的一种数据,其往往表现为关系的形式。虽然知识很容易被人类理解,但由于事物之间的关系错综复杂,对其进行自动分析往往很难。因此,本报告基于当前文献和典型系统,分享几种基于知识库的关系提取技术以推动决策支持和科学研究。
     (Privacy Group) 手机隐私综述?评估APP隐私和用户隐私保护方法 
    Abstract:
    随着手机APP的发展和其对用户数据的收集和滥用,手机隐私问题成为一大隐患。目前主要有三种方式分析手机隐私状况:权限分析、静态代码分析、动态分析。除此之外,基于权限和隐私条款的分析也用来评估APP的隐私泄露情况。为了保护手机用户的数据隐私,研究者们目前主要提出了三类保护方式:基于权限的拓展保护方式、发送匿名数据和局部差分隐私。
     2016.11.24  会议地点:理工配楼一楼会议室
     (Web Group) 微生物领域自然语言处理-文本挖掘技术 
    Abstract:
    随着生物医学信息的快速增长,单纯依靠人工阅读获取和理解所需知识变得异常困难,如何从海量生物医学文献中整合已有知识、挖掘新知识成为当前研究热点。文本挖掘能够帮助人们从大量非结构化、半结构化生物医学文本中挖掘提取隐含在其中的、人们事先不知道的,但又是具有潜在价值的信息和知识,现在它被广泛应用于生物医学研究。会议如BioNLP提出生物生物医学文本挖掘的任务,通过不同方法进行探索和实践,推动本领域研究的发展。本次报告主要介绍BioNLP历次报告中心,并以两篇论文为例进行阐述。最后提出自己的思路。
     (Cloud Group) 基于资源解耦的大数据系统量化方法 
    Abstract:
    大数据系统是复杂的,且难以分析性能瓶颈。很多研究提出了许多模型的方法来识别性能瓶颈,但只能量化的部分组件的瓶颈,且容易出错。我们提出了一种资源解耦方法,系统地量化的主要组件的瓶颈。我们做了以下工作:(1)提出了四种定量方法解决CPU、内存、磁盘和网络瓶颈;(2)我们提出一种理想的加速量化非CPU组件的最小加速度的潜力;(3)我们开发一个工具来监控性能事件,以交叉验证性能瓶颈的序,找出细粒度的原因;(4)利用Spark作为大数据系统的一个例子,并使用两个SQL Benchmark评估其性能。
     2016.11.17  会议地点:理工配楼一楼会议室
     (Cloud Group) CIKM2016参会报告 
    Abstract:
    第25届信息与知识管理国际会议(CIKM2016)于2016年10月24日--10月28日在美国印第安纳波利斯圆满举办。此次会议共收到research paper投稿935篇,其中160篇被接收为长文(长文接收率22.8%),55篇被接收为短文(短文接收率23.5%)。此次会议日程丰富,共有3个keynote,7个tutorial,4个industry talk,和50个paper session。 。
     (Web Group) 深度学习与自然语言处理中的若干问题 
    Abstract:
    自然语言处理问题由来已久,早期多是基于规则的方法,但是真正有效的处理语言是从2000年之后,这主要是因为基于统计的自然语言处理技术的兴起。经过了十多年的发展,随着大数据技术的出现和发展,海量数据的获取不再是难题,新的深度机器学习方法首先在语音和图像两个领域取得了突破,自然语言处理也自然加入到这项新技术的变革之中。深度学习技术开始应用在自然语言处理中的诸多问题上,比如词的表示、情感分类、实体抽取、关系抽取、阅读理解、看图说话等方方面面,在很多问题上已经优于基于统计的方法了。本次报告就从以上问题中选取若干出来并结合上最新的深度学习方法来进行初步的探讨。
     2016.11.10  会议地点:理工配楼一楼会议室
     (Cloud Group) URMDA:用于诊断Spark的性能瓶颈的系统 
    Abstract:
    :本文演示URMDA的诊断Spark的性能瓶颈。 我们实现资源解耦方法来量化主要组件的瓶颈,包括CPU,磁盘,网络和内存,以及构建一个细粒度的监视器来做Spark的深度分析通过与几个分析相结合来实现性能瓶颈功能。 我们演示URMDA使用两个SQL基准,并得出如下结论。 (1)网络很可能瓶颈尤其是当带宽为100Mbps时。 (2)CPU总是主要的瓶颈。 (3)内存中的Spark是不如官方宣传那么快,因为缓存不足操作。
     (Web Group) 数据可视化技术应用与研究 
    Abstract:
    数据可视化技术应用需求的增长和用户的不断扩大推动了新的可视化技术应用工具和平台的发展。在追溯数据可视化的概念缘起与发展历程基础上,着重分析了数据可视化技术应用的发展趋势,并对目前出现的若干种数据可视化技术应用的新技术工具和服务平台加以功能分类和比较,归纳出主要的功能类型,分别是呈现多维内容信息的可视化新应用、揭示数据关联趋势的可视化新服务、有助于发散形象思维的可视化新工具和提供社区交流空间的可视化新平台。
     2016.10.27  会议地点:理工配楼一楼会议室
     (Privacy Group) 差分隐私demo系统演示 
    Abstract:
    差分隐私是对数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或者不在数据集中,对计算结果的影响微乎其微。所以,一个记录因其加入到数据集中所产生的隐私泄露风险被控制在极小的、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息,这次报告内容为隐私保护模型系统模型实现。
     (Privacy Group) 差分隐私保护数据挖掘 
    Abstract:
    我们解决正式的隐私保障数据挖掘问题,给出了基于微分隐私框架数据访问接口。微分隐私要求的计算是在任何特定的个人记录的变化不敏感,从而限制了数据泄露的结果。隐私保护接口,确保无条件的安全访问的数据,并不需要从数据挖掘任何专业知识的隐私。然而,正如本文中,利用一个原始的接口来构建隐私保护的数据挖掘算法可能会导致劣质的数据挖掘结果。我们解决这个问题,考虑的隐私和算法的要求,同时,专注于决策树归纳作为一个示例应用程序。隐私保护机制对由数据挖掘者选择方法的性能产生深远的影响。我们证明这个选择可以作出准确的分类和一个完全无用的人之间的区别。此外,一种改进的算法可以实现相同的水平的精度和隐私作为天真的实现,但与一个数量级较少的学习样本。
     2016.10.20  会议地点:理工配楼一楼会议室
     (Web Group) 知识图谱的循环嵌入表示 
    Abstract:
    嵌入表示技术为知识图(KG)上的机器学习提供了便利,其将实体和关系解码为连续向量空间,然后拟合<实体,关系,实体>三元组。然而,KG嵌入模型对不频繁的对象和不确定的对象敏感。此外,学习能力和学习成本之间存在矛盾。为此,我们提出循环嵌入(CirE)来学习完整KG的嵌入表示,它可以准确地建模各种对象,节省存储空间,加快计算,易于训练和易于扩展到非常大的数据集。我们有以下贡献:(1)通过结合全息投影和投影度提高各种对象的建模和学习的准确性。 (2)通过采用循环矩阵作为从实体空间到关系空间的投影矩阵来减少参数和存储。 (3)通过针对各种对象的自适应参数更新算法动态变化学习时间,加速收敛并减少训练时间。 (4)通过快速傅里叶变换(FFT)加快计算并增强可伸缩性。广泛的实验表明,CirE在链接预测和实体分类中优于已有方法,证明了效率和CirE的可扩展性。
     (Cloud Group) OrientStream:一种分布式数据流管理系统的动态资源分配框架 
    Abstract:
    分布式数据流管理系统(DDSMS)常常由上层的关系查询系统(RQS)和下层的流处理系统(SPS)构成。当用户提交查询到RQS时,查询计划被转成运行在SPS之上的有向无环图(DAG)。根据不同的查询需求和数据流的属性,SPS需要配置不同的部署策略。然而,如何动态预测SPS的配置属性以进一步提高处理的吞吐率并降低资源的使用效率是一个大的挑战。本文使用增量机器学习技术,提出了一种分布式数据流管理系统的动态资源分配框架OrientStream。通过引入数据层,查询计划层,算子层和集群层等四层的特征抽取机制,并使用不同的查询任务构建训练集来预测资源的使用情况,并选出最优的配置方案。我们以Storm作为SPS的实验平台,实验表明,OrientStream可以降低8%-15%的CPU使用率和38%-48%的内存使用率。
     2016.10.13  会议地点:理工配楼一楼会议室
     (Cloud Group) 智能存储 
    Abstract:
    随着物联网、社交网等技术的发展,每天都会产生海量的数据,如何能存储和处理这些数据是迫在眉睫的问题。而当今客户对于海量的数据要求实时的反馈。传统的基于CPU-内存-磁盘的体系结构已经不能满足数据存储和处理的需求,需要一种新的体系结构。本报告介绍把计算移近存储,使存储智能化的体系结构极其实例。
     (Web Group) 训练大规模神经网络语言模型的策略和经验 
    Abstract:
    神经网络因其在图像音频等领域突破性的表现,也被学者广泛运用到自然语言处理领域,得到了一些不错的结果。想要通过神经网络得到准确率高的语言模型,通常要在大量文本上训练,又因为神经网络需要根据不同应用场景,反复调整参数才能找到最好的模型,训练过程非常耗时。本次报告从训练文本、循环次数、词汇表、隐藏层等角度,结合训练RNNLM模型的经验,分享了一些训练大规模神经网络语义模型的策略,以供大家借鉴。
     2016.9.29  会议地点:理工配楼一楼会议室
     (Cloud Group) 基于两级缓存结构的天文大数据分析框架 
    Abstract:
    本次报告介绍一种用于处理GWAC天文大数据的原型系统设计框架。不同于第一版本的两层分析框架,新框架为三层结构,以满足新的性能需求。第一层本地内存缓存,做突变检测,毫秒级别,第二层分布式内存系统,做短时标瞬变源发现,秒级别,第三层分布式数据库,做离线分析和long term storage,分钟级别。
     (Web Group) 基于知识库的单一关系问答 
    Abstract:
    单一关系问答是搜索和社区问答中最常见的问题。把Question转换成KB query后,知识库(KB)如Freebase和DBPedia可以帮助回答这样的问题。然而,自动把Question 转换成KB Query是一个具有挑战性的任务。本次报告将会介绍这一领域的最新进展。
     2016.09.24  会议地点:理工配楼一楼会议室
     (Cloud Group) 数据库应用中的数据搬移问题 
    Abstract:
    数据从内存移到处理器当中的能耗是处理器计算能耗的200倍,而随着CPU速度的提升和内存发展的相对停滞,这种差距还会越来越明显。因此在大数据应用,特别是数据库应用当中,可以预见的是数据从内存搬移到处理器的能耗开销会越来越大。而具体的开销目前并没有人进行量化的评估,因此我们首先量化分析了数据在各级内存之间移动的单位能耗开销,在此基础上,分析了PostgreSQL数据当中基本操作以及TPC-H查询的能耗。为了找到数据库应用的能耗瓶颈,对比分析了CPU2006典型基准测试集的能耗,发现在数据库应用当中,L1 cache是能耗的瓶颈所在。针对这一发现,初步设想了从软硬件层面改进的思路,总结了SPM( scratchpad memory )的用法,并提出了针对数据库基本操作的改进方法。
     (Privacy Group) 基于差分隐私的列计数数据发布 
    Abstract:
    列计数数据的发布是一个较新提出的问题,这类统计数据有着广泛而重要的应用,包括贸易、交通和医疗等领域的数据分析。该问题最大的挑战在于其高度敏感性,为使其满足差分隐私,则需要加入很大的噪声。GS方法最早被提出,其首先对计数值取均值进行分组和平滑操作。分组策略主要是基于采样机制,最小化平滑的噪音。DPSence和DPSense-S是针对高维数据列计数值发布的最新方法,其核心思想是通过设定阈值降低元组对敏感度的影响。
     2016.06.24  会议地点:理工配楼一楼会议室
     (Web Group) MonetDB简介 
    Abstract:
    MonetDB由荷兰CWI 2002年推出,是当前性能最好的列存储数据库之一,在OLAP分析、GIS和data mining中有很多应用。本次报告先介绍MonetDB提出的背景,其架构和BAT代数,然后对其所采用的典型技术,如Late Materialization,Database Cracking 和Hardware-Conscious Query Processing进行详细介绍,以便大家对其有更深入了解。
     (Web Group) 运用谷歌 BigQuery 与 TensorFlow 做公共大数据预测 
    Abstract:
    谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对特定商业应用的模型,预测用户需求。本次报告简单介绍BigQuery、TensorFlow的相关知识和应用案例,主要是为大家带来信息、提供学习资料。
     2016.06.20  会议地点:理工配楼一楼会议室
     (Web Group) 开发PINQ演示系统 
    Abstract:
    PINQ是类似LINQ接口的数据集隐私计算集合,它可以对数据集进行查分隐私加噪。基于上述方法,在本学期开发了一个PINQ演示系统。
     (Mobile Group) ICDE2016&XLDB2016参会报告  [ppt]
    Abstract:
    王硕就这次参加ICDE2016和XLDB2016会议做参会报告
     2016.6.3  会议地点:理工配楼一楼会议室
     (Web Group) 利用DataLawyer实现数据使用策略的自动识别 
    Abstract:
    因商业分析和研究目的,数据越来越多的被用于交换。然而,数据使用策略限制了数据的使用。目前只有少量的特定方法来执行这些数据使用策略。新提出的DataLawyer方法,可以形式化具体的数据使用策略,并在DBMS查询执行时自动检查。
     2016.5.27  会议地点:理工配楼一楼会议室
     (Cloud Group) 猜测数据集中的极值:一种基于贝叶斯的方法及其应用 
    Abstract:
    对于大多数的数据管理问题,获取数据集中的一些样本可能会很有用,并且可以使用这些样本来猜测整个数据集中的最大值或者最小值。Max/Min在线聚集,Top-K查询处理,异常值监测,以及距离连接都是一些可能的应用。本次报告的方法详细说明了一种严格的统计,即贝叶斯的方法来解决这个问题。同样重要的是,通过展示数据管理场景下的四个具体问题使用该方法的效果来证明该方法的有效性。
     (Cloud Group) 一种多分组查询的数据流划分方法 
    Abstract:
    在数据流实时查询和分析的应用中,数据汇总的信息对用户至关重要。多分组查询被广泛地应用于分布式数据流管理系统中。与已有的数据流划分方法相比,本报告通过构造基于网络传输的代价模型,和设计基于数据相关性的动态调整策略,试图构造一套完整的包含编译时查询优化和运行时查询优化的数据划分策略。
     2015.05.20  会议地点:理工配楼一楼会议室
     (Cloud Group) 批处理分布式计算框架的性能分析之I/O篇 
    Abstract:
    随着互联网等信息技术的不断发展,人类社会的数据量以惊人的速度在累积。以Spark为代表的分布式计算框架成为主流,其上基于日志、源码和Java虚拟器的性能分析研究日趋增多,本研究从体系结构角度出发,重点研究集群抽象、CPU-bound定量、I/O性能模型等问题,力图为相关研究者提供借鉴。
     (Privacy Group) 区块链技术发展现状与展望 
    Abstract:
    区块链是随着比特币等数字加密货币的日益普及而逐渐兴起的一种全新的去中心化基础架构与分布式计算范式,目前已经引起政府部门、金融机构、科技企业和资本市场的高度重视与广泛关注.区块链技术具有去中心化、时序数据、集体维护、可编程和安全可信等特点,特别适合构建可编程的货币系统、金融系统乃至宏观社会系统.
     2016.05.13  会议地点:理工配楼一楼会议室
     (Privacy Group) 隐私数据发布 
    Abstract:
    关于隐私数据的发布问题是目前大量研究的热点,现有基于差分隐私保护的技术也无法有效解决高维度数据的发布,主要是因为发布高维数据时需引入大量噪音,这将使得数据的可用性大大降低。针对这个问题,文章提出了基于差分隐私的方法PRIVBAYES,很好地处理了高维数据发布的问题。方法构建了贝叶斯网络进行数据发布,其构建的过程进行了充分的隐私考虑,使隐私信息得到保护。同时,考虑到互信息敏感度较大的问题,文章引入了一个新的函数用于替换了互信息的计算,使得最终构建的模型更加准确。
     (Mobile Group) 分布式大数据管理监控平台 
    Abstract:
    近年来,大数据管理系统的发展趋势主要形成了三个方向,一种是以 Hadoop 和 MapReduce 为代表的批处理系统,另一种是以Storm为代表的,为各种特定应用开发的流处理系统,最后一种是最近兴起的混合式计算模式的spark系统。这些分布式的大数据管理系统给我们带来了高速处理海量数据的能力。如何提升这些平台的性能成为大家探讨的话题。为了能够监测分布式的大数据管理系统的性能,UC?Berkeley?开发了开源工具ganglia。但是它只能提供非常粗粒度的监控(例如,CPU利用率),无法满足我们的要求。如何细粒度地监测大量的运算节点,从而发现系统性能瓶颈成为一个迫切需要解决的问题。为此,在本文第二部分,我们构建了一个分布式的大数据管理系统监测平台??FGMP,它可以给用户带来如下便利:(1)便捷地在大量节点上部署大数据管理系统;(2)根据集群硬件资源自适应调整监控方案;(3)调节各个节点的CPU频率;(4)通过web服务远程提交任务给大数据管理系统运行(5)细粒度的(进程级别)监控系统性能。
     2016.05.06  会议地点:理工配楼一楼会议室
     (Cloud Group) 走近科学数据管理 
    Abstract:
    随着云计算技术的兴起,商业和政府领域的数据借助云计算大大缩短了运行时间。然而,在科学研究领域,每天也会产生大量的数据,而且数据量往往比商业领域还大,那么如何对科学研究领域的数据进行管理?本报告讲述了科学数据管理的挑战,以及云计算是否适合科学数据管理和Jim Gray提出的科学数据管理的构想。
     (Cloud Group) 基于Caffe的神经网络处理器优化 
    Abstract:
    深度学习网络在图像分类、语音识别和自然语言处理领域取得了极大的进展。本次报告先介绍了深度学习的基本概念和深度学习框架Caffe,然后详细介绍了Caffe和深度学习处理器的整合优化以及未来的工作。
     2016.04.22  会议地点:理工配楼一楼会议室
     (Web Group) 计算社会科学简介 
    Abstract:
    本讲座介绍一个正在涌现的研究领域---计算社会科学(CSS),CSS以前所未有的方式不断增强了人类收集和分析数据的宽度、深度和广度,它有助于发现人类个体或群体行为的模式。CSS的发展和其他新兴交叉学科也息息相关,这就需要提出一种新方式来培养新的学者,CSS的发展初期,需要拥有社会科学家和计算机科学家一起努力,但长远来看,这个问题将取决于学术界决定是否应该培养CSS学家,或者计量文献社会科学家和社会文献计算机科学家团队。
     2016.4.15  会议地点:理工配楼一楼会议室
     (Privacy Group) 免费的代价
    Abstract:
    应用程序广告是免费移动应用的重要的组成部分,表面上来看,它会创造一个双赢的局面,其中应用开发者可以在不向用户收费的情况下从他们的软件中获利。然而,应用程序广告中广告网络利用个性化来提高广告投放的有效性或是利润。这需要服务个性化广告,反过来促使广告网络收集用户的数据和配置文件。因此,免费应用程序只是在金钱方面提供免费,他们带来的是潜在的隐私代价。问题就是,用户提供了多少数据,以支付免费软件呢?
     2016.4.8  Venue: FL1, Meeting Room, Wing Building for Science Complex
     (Cloud Group) Analysis of OpenStack's architecture and revolution 
    Abstract:
    Openstack is a by NASA and Rackspace, developed and launched by the cooperation of Apache license authorization free software and open source projects.By several major components together complete the specific work.It supports almost all types of cloud, the project goal is to provide implementation is simple and can be large-scale extension, rich, standard unified management of cloud computing platform.It through a variety of complementary services provide the infrastructure as a service (IaaS) solution, each service provides the API for integration.It is a to the construction and management of public and private cloud to provide software open source project.Its community with more than 130 companies and 1350 developers, these organizations and individuals will it as infrastructure as a service (IaaS) general front end of resources.It project's first priority is to simplify the deployment process of cloud and bring its good extensibility.
     (Web Group) An Axiomatic Approach to Link Prediction 
    Abstract:
    The evaluation of link prediction functions has mostly been based on experimental work, which has shown that the quality of a link prediction function varies significantly depending on the input domain. There is currently very little understanding of why and how a specific link prediction function works well for a particular domain. The underlying foundations of a link prediction function are often left informal—each function contains implicit assumptions about the dynamics of link formation, and about structural properties that result from these dynamics. So the paper presents an axiomatic basis for link prediction. This approach seeks to deconstruct each function into basic axioms, or properties, that make explicit its underlying assumptions. This framework uses “property templates”.
     2016.03.25  会议地点:理工配楼一楼会议室
     (Privacy Group) 隐私与人类行为 
    Abstract:
    2015年《Science》上的专刊《The end of privacy》,讲述了隐私相关的一些问题。从隐私和人类行为关系的角度来看,可以归纳出以下三个方面的特征。不确定性:个人的隐私相关的行为表现和个人隐私偏好方面的不确定性;情境相关性:个人隐私偏好随周围环境变化;隐私偏好的可塑性:存在很多的因素会激发或者抑制关于隐私的担忧,反过来这些关于隐私的担忧又将直接影响到人们的行为表现。人类行为表现中含有很多敏感的信息,了解其中涉及的隐私问题可以更好地利用这些数据,发挥其数据的价值。通过对110万的信用卡交易数据进行统计,发现仅利用时空数据就能够重新标识其中90%的用户,若再加上相应的金额数据,重新标识用户的概率将平均提升22%。
     (Cloud Group) 分布式数据流处理系统性能分析 
    Abstract:
    大数据时代下,随着开放式计算平台的的逐步兴起,出现了分布式数据流处理系统,用于处理分散且不断增加的流数据。针对用户提交的查询任务,流处理平台往往将查询计划转换成DAG图进行分解和处理。本报告以Storm为处理平台,根据不同类型的benchmark,分析Storm在不同数据流速和不同并行度配置下的资源使用情况以及相应的处理延时和吞吐率等指标。为进一步细粒度分析storm的调度机制和系统瓶颈打下基础。
     2016.03.11  会议地点:理工配楼一楼会议室
     (Web Group) 中美两国在线用户集体注意力流的可视化 
    Abstract:
    随着互联网的快速发展,信息过载已成为一个很严重的问题,在线用户的集体注意力将扮演一个越来越重要的角色。知道集体注意力在不同站点间是如何分布是了解在线注意力动力学的重要一环。本讲座中,我们介绍了一个新方法,通过流距离将大量站点嵌入到一个高维欧氏空间,这个方法即考虑了站点间联系的拓扑结构,也考虑到了用户集体的点击行为。通过这种几何表示,我们将美国Indiana大学和中国在线用户的点击流数据进行了可视化对比。
     (Cloud Computing) 通过自适应调整Storm参数实现集群资源的有效利用 
    Abstract:
    Storm 是一个流行的实时流处理系统,应用于包括实时分析、日志处理、预警等场景中。但是,在使用Storm运行任务(Topology)的时候,需要提前指定许多参数,并且这些参数在任务运行中是不可变的。这就导致Storm无法适应流速动态变化的场景,进而产生资源的浪费或者无法提供满足要求的吞吐量。为了解决这个问题,本次组会介绍了一种能够根据流速特点动态改变Storm参数的系统AdaStorm。这个系统旨在能够使用尽可能少的资源来满足流处理的需求(提供低延时和满足要求的吞吐量)。我们采用的方法是定期收集Storm运行时的参数,得到训练样本,训练出能够对资源、吞吐量和延时数据准确预测的模型,每当需要改变配置的时候,就能够从模型中得到最优参数设置。我们实验表明了使用AdaStorm能够节约大约15%的CPU和60%以上的内存。
     2016.3.4  会议地点:理工配楼一楼会议室
     (Web Group) 通过概率程序归纳达到人类水平的概念学习 
    Abstract:
    人类常常只需要从一个简单的示例就可以成功地学习一个新的概念,但是几乎机器学习中的所有典型方法都需要成千上万样例来做到接近人类的准确水平。相比于这些传统算法,人类可以将自己学习到的概念运用地更加丰富灵活,比如在动作、图像和解读等方面。参考文献[1]给出了一个计算模型来达到等同于人类的这种学习能力,尽管类别数量很大,但它还只能应对简单的视觉概念??手写字符识别。该模型通过运用贝叶斯法则来更好地解释观察样本所代表的概念。
     (Web Group) 基于语言模型概念化的定义排序 
    Abstract:
    Question Answering系统目前是互联网搜索领域的一个热门问题,其中"what"是Q&A系统中最常见的问题之一,为了增大覆盖面,我们从互联网上挖掘定义类的句子回答这类问题,但如何区分答案的好坏、对候选答案做出排序,还需要更好的评价方法。传统方法用SVM对定义做排序,但选取的特征都是基于句法的。即使通过语言模型增加语义特征,仍然存在问题。因此,我们在RNNLM的基础上加入conceptualization过程,把显式的语言模型(Conceptualization)与隐式的语言模型(RNNLM)结合起来,获取词汇与其定义之间的语义关系,提高准确率和召回率。

    2015
     2015.12.18  会议地点:理工配楼一楼会议室
     (Mobile Group) 隐私综合查询---一个用于保护数据隐私的可扩展的平台 
    Abstract:
    PINQ是一个隐私综合查询数据分析(PINQ)平台,它是建立在C#语言基础上的集成查询(LINQ)。LINQ是一个新的C#语言扩展,它提供对数据的查询和操作。PINQ为分析师提供了一个编程接口,通过类似于sql语言查询数据。同时,PINQ对查询数据提供差分隐私保护平台。
     (Web Group) 知识库与矩阵分解 
    Abstract:
    随着语义网技术的发展,知识库或者说知识图谱技术迅速发展,与此同时知识库/知识图谱的自动构建受到了广泛的重视。尽管我们现有的知识库已经非常庞大,但是没有任何知识库可以说自己是完整的。大多数现在的知识库完备技术还是针对单一知识库中的推理过程,而且面临知识事实的稀疏问题。嵌入技术的发展和多知识库联合成为解决以上问题的方法,本次报告首先介绍嵌入技术的基础??矩阵/张量分解,然后是几个比较有代表性的方法(RSECAL、TRESCAL、Improving MF),最后做出总结和展望。
     2015.12.11  会议地点:理工配楼一楼会议室
     (Privacy Group) 差分隐私下基于采样的高维数据发布 
    Abstract:
    高维数据的发布技术使得很多的数据挖掘任务变得可行,然而,个人的隐私问题又成为了数据共享的一个阻碍。文章考虑了基于差分隐私的高维数据发布问题,并提出了保护高维数据的联合概率分布的方法。方法首先通过一个基于采样的健壮的框架,用于构建依赖图;而后从依赖图中识别出边缘概率分布的集合;最后根据连接树算法,在极小化方差的同时,近似估计联合概率分布。
     (Privacy Group) GUPT:让基于隐私保护的数据分析更加容易 
    Abstract:
    GUPT运用了一种新的关于数据敏感度的模型,它认为数据的敏感性会随着时间而降低。这意味着在保证全部隐私预算是一个恒定常数并且最大化每个应用效用的情况下有效的分配给不同的用户应用不同的隐私预算成为可能。GUPT还实现了在实现相同隐私等级的情况下提高输出的精度。这都使得GUPT在保证效用和隐私的情况下可以轻松的处理多种多样的数据分析程序。
     2015.12.04  会议地点:理工配楼一楼会议室
     (Web Group) 在线群体用户注意力流中的普适模式 
    Abstract:
    如果将Web看作一个虚拟生命组织,根据生态学的新陈代谢理论,Web必须吸收“能量”来生长和演化。我们想知道:(1)Web所需的“能量”来自那里?(2)这些“能量”的普适模式是什么?我们推测,Web站点生存和发展所需的能量应来自于在线群体用户的注意力流。本文分析了从CNNIC获得的实证数据,发现了多个有意思的普适模式:异速标度律、耗散律、引力律以及Heaps律。这些普适模式证实了我们的推测,同时这些规律也将在Web演化的定量研究以及在线群体用户行为的预测方面起到重要的作用。
     (Cloud Group) Storm和Spark的资源评估与性能分析 
    Abstract:
    大数据时代下,为应对不同的数据处理模式,出现了大量的分布式数据处理系统。本报告重点针对流处理系统storm和混合处理系统spark进行相关分析。首先,由于Storm rebalance的局限性和无法适应数据负载的动态变化,我们设计了利用MOA框架构建预测模型,实现storm配置参数的动态优化。其次,针对spark系统,构建了性能分析平台,定量描述了spark的瓶颈所在。最后,总结和展望了今后的研究工作。
     2015.11.27  会议地点:理工配楼一楼会议室
     (Mobile Group) 轨迹隐私保护 
    Abstract:
    为了保护轨迹数据中隐私,大部分现存的方法采用隐藏技术来保护个人地理位置点或是聚类和扰动技术来保护整条轨迹。为了符合k匿名模型,他们首先分组位置或是轨迹,然后更改位置点来确保一个类中有k个位置点或是轨迹互相靠近。然而,当k增大或是轨迹的时间跨度变长,基于k匿名的聚类方法将会严重失真并导致错误的分析结果。通过观察可以看出,不需要野蛮的对所有的位置提供相同隐私保护水平。我们分析位于一个语义场所的地点以及周围语义场所的分布的访问状态,并基于隐私风险泄露判断四种隐私风险水平。我们提出了语义空间转移算法,根据更改(转移)位置来调整不同的策略,以便使得隐私保护数据利用有更好的平衡。
     (Mobile Group) WISE2015参会报告 
    Abstract:
    王璐就这次WISE2015会议做参会报告。
     (Cloud Group) 深入解析Yarn架构设计与实现原理 
    Abstract:
    带有 MapReduce 的 Apache Hadoop 曾经是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。不幸的是,这个生态系统构建于一种编程模式之上,无法解决大数据中的所有问题。MapReduce 提供了一种特定的编程模型,尽管已通过 Pig 和 Hive 等工具得到了简化,但它不是大数据的灵丹妙药。本次报告我将会给大家呈现一种由hadoop团队重新架构的统一资源调度与管理平台Yarn(Yet Another Resource Negotiator)。
     2015.11.20  会议地点:理工配楼一楼会议室
     (Privacy Group) 关于相关型数据的贝叶斯差分隐私方法 
    Abstract:
    差分隐私对于评价扰动算法的隐私提供了一个严格的标准。广泛认为,差分隐私在处理独立型和相关型数据时时提供了一个普遍的定义,以保护隐私免受任意对手的攻击。然而,目前有研究指出,对于相关型数据,差分隐私不一定能够保证隐私信息不被任意的攻击者所获取。文章主要关注相关型数据下的隐私扰动算法,并提出贝叶斯差分隐私,其中,对于相关型数据以及不完整先验知识的情况,概论扰动算法的隐私级别仍然可以衡量。
     (Cloud Group) 理解Spark核心概念-RDD 
    Abstract:
    Spark是一个快速且通用的大规模数据处理平台,其核心概念为RDD(Resilient Distritubed Dataset)。本报告介绍了RDD的缘起、其特征、lineage机制、Fault-Tolerance机制以及通用性,以展现RDD的实现-Spark-的优势所在。
     2015.11.13  会议地点:理工配楼一楼会议室
     (Cloud Group) 浅谈如何利用闪存来减少系统能耗 
    Abstract:
    随着云计算的发展,集群的规模越来越大,相应地集群所消耗的能量也越来越多,如何减少集群的能耗已经成为一个迫在眉睫的问题。而集群的能耗是由单机的能耗构成的,如果能降低单机的能耗就能减少集群的能耗。本报告简述了对计算机系统进行节能减耗的一些方法,同时重点通过两篇论文来讲述如何通过闪存来减少系统能耗。
     (knowledge fusion) 生物医疗领域的实体连接 
    Abstract:
    实体连接任务在新闻和社交媒体中已有了广泛的研究,但是这一问题在生命科学领域还没有引起足够的重视。下面介绍两篇关于该领域的实体识别和连接的论文。第一篇是通过对生物医学的文本进行的标准化处理来帮助识别实体,采用的方法是多路组合删选器,该方法具有简单和模块化的优点,标准化处理效果在两个标准测试集上取得了不错的效果。第二篇则是针对不需要大量标注的数据来训练,采用了无监督的聚集推理方法来计算表述与实体间的相似度并对候选实体完成排序,该方法对单词、句子和段落都进行了实验和分析,结合了文本和知识库的图结构分析,展示了一种有深度的分析和讨论。
     2015.11.6  主题:自然语言问答
     (Web Group) 单关系自然语言问答的语义解析:一种Deep Learning的方法 
    Abstract:
    自然语言问答中一个重要的问题就是进行语义解析,即将自然语言问题中提到的实体名对应到知识库中的实体(entity),并将问题中描述实体关系的自然语言表达对应到知识库中的关系(relation)。这个过程对自然语言问答的准确率和召回率都至关重要,然而至今仍没有得到很好的解决。本次Seminar介绍了一种基于深度学习思想对自然语言问题进行语义解析的方法。该方法使用卷积神经网络,将自然语言问题、知识库上的实体和关系都映射到语义空间中的向量,通过计算向量之间的相似度,从而将自然语言问题转化为结构化查询。该方法在开放领域的自然语言问答中取得了较好的效果,对开放领域的短文本理解、实体链接等问题有借鉴意义。
     2015.10.30  主题:统一资源管理与调度平台
     (Cloud Group) spark和mapreduce性能对比 
    Abstract:
    报告进入实验室以来,对spark和mapreduce平台所做的了解。主要内容是一篇介绍spark和mapreduce性能对比的一篇论文。该文指出,对于不同的任务,应该使用合适的架构,即mapreduce 或 spark。
     (Cloud Group) 统一资源管理与调度平台介绍 
    Abstract:
    随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,Storm等各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方案如下:网页建索引采用MapReduce框架,自然语言处理/数据挖掘采用Spark,对性能要求很高的数据挖掘算法用MPI等。考虑到资源利用率,运维成本,数据共享等因素,公司一般希望将所有这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,这样,便诞生了资源统一管理与调度平台。本学期两次报告主要是报告资源调度系统,第一次从宏观上介绍它的发展历程,中间也会介绍其系统框架和设计原理,第二次报告从微观上介绍其实现原理,主要从代码层次讲述。本次报告的主要内容包括两篇论文来简单谈一下资源调度系统从二代到三代的渐变过程,以及mesos和Omega的设计框架,以及实验比较。
     2015.10.23  会议地点:理工配楼一楼会议室
     (Cloud Group) 针对Storm系统的若干工作 
    Abstract:
    报告进入实验室以来,对storm系统进行的主要工作。首先介绍storm系统的特点,之后介绍利用ganglia和rapl对Linear Road Benchmark进行的围绕storm系统cpu和内存表现的测试。针对测试结果,介绍storm参数调优中的一篇工作,围绕这篇工作中存在的问题,提出利用机器学习方法解决参数调优问题的设想,并介绍特征的选取和如何进行样本采集。
     (Web Group) 基于联合RNNLM模型的定义挖掘方法 
    Abstract:
    Question Answering目前是互联网搜索领域的一个热门问题,它可以直接回答用户的问题,而不是提供10个含义模糊的网页链接。"what"是Q&A系统中的一类常见问题,我们希望从互联网上挖掘定义来回答"what"类问题。传统方法用SVM对定义做排序,但选取的特征都是句法上的。即使通过加入word embedding特征从语义上理解定义,仍然会忽视了一些定义中的重要关系,如is-a关系。因此,我们提出了一个联合RNNLM模型,它把显式的模型(Conceptualization)与隐式的语言模型(Word Embedding)结合起来,获取词汇与其定义之间的语义关系。
     2015.10.16  主题:隐私保护
     (Web Group) WISE2015会议预报告 
    Abstract:
    王璐就这次WISE会议做参会预报告
     (Mobile Group) 溯源和隐私
    Abstract:
    溯源在科学工作流中是一把双刃剑。一方面,用于生成数据条目的模块执行的记录信息,以及系统参数和在模块传播之间的中间数据条目的记录信息使得结果透明性和可再现性。另一方面,科学工作流经常包含私有或是保密的数据和使用的特殊模型。因此,对所有工作流的溯源查询提供准确的信息会泄露信息。
     2015.10.9  会议地点:理工配楼一楼会议室
     (Cloud Group) 有限存储下一趟扫描计算近似中值及其他分位数 
    Abstract:
    简要介绍能在一个单次处理中计算大数据集近似分位数的一些新算法。这个近似保证是正确的,并且应用于任意值分布和数据集的到来分布。主存储器的要求比现有的一些算法的要小一个数量级。除此之外,还讨论与随机采样方法相结合的情况,以进一步减少内存需求。通过采样,逼近保证是明确的但有概率,也就是说,它们适用于相对于(用户控制的)信心参数。
     (Cloud Group) 基于机器学习算法的Hadoop参数调优技术
    Abstract:
    Hadoop系统的参数配置和系统性能高度相关,可以利用机器学习算法学习该相关性,从而预测系统处理某一应用的运行时间,辅助参数调优过程。使用多种benchmark和系统软硬件配置参数组成特征向量,按该特征向量配置系统,运行后得到运行时间,多种不同的组合运行后得到特征数据集,最后使用分类算法在该数据集上学习系统行为模型。该模型主要有三个应用点:1.预测新配置的执行时间;2.异常执行检测;3.新系统下最小训练集估计。
     2015.10.2  会议地点:理工配楼一楼会议室
     (Cloud Group) 利用非易失存储器加速文件系统访问 
    Abstract:
    随着社交网、电子商务等大数据应用的快速发展产生了海量的数据,大家都想着这些数据既能存储好同时又能快速访问。然而当前的数据处理都是基于CPU-内存-磁盘的体系结构的,CPU和磁盘的速度严重不匹配。新型非易失存储器具有非易失、访问速度快等特点,如何利用新型非易失存储器来提升磁盘读写速度?本报告介绍了两篇利用非易失存储器来提升文件系统访问速度的文章,根据文章实验结果,这些方法能明显提升文件系统访问性能,进而提高磁盘访问速度。
     (Web Group) 基于一阶逻辑的关键数据问答方法 
    Abstract:
    关联数据上的问答目标在于从结构化数据中获取答案。这一目标的关键在于将自然语言表述的问题转换为结构化查询。本报告介绍了一种经典的利用马尔可夫逻辑网络来解决查询转换过程中歧义性的方法及一套完整的查询转换框架。
     2015.09.25  会议地点:理工配楼一楼会议室
     (Web Group) 一种避免选择性估计的查询处理方法——Plan Bouquets 
    Abstract:
    为了解决OLAP由于编译时选择性估计误差导致运行时选择不当的问题,文章提出 “bouquet”计划,这个计划就是在编译时完全避开了易错的选择性,取而代之的是在选择性错误空间上建立一组最优计划集,使得空间中每个位置上至少有一个子集接近最优选择。这样,在运行时,查询的实际选择性就可以通过bouquet计划的部分执行序列逐步发现。其中,部分执行的时间和切换是通过阶梯式递进的等成本曲面映射到最佳性能的方法控制。
     (Cloud Group) 深入浅出分布式数据流管理系统 
    Abstract:
    大数据时代下,随着开放式计算平台的的逐步兴起,出现了分布式数据流处理系统,用于处理分散且不断增加的流数据。为构筑完整的分布式数据流管理系统,在处理系统之上出现了易于用户使用和提高查询处理能力的查询系统。本报告从流处理和流查询的两个方面,介绍了分布式数据流管理系统的产生背景和发展历程;并归纳、总结了分布式数据流管理系统的热点研究领域(如,查询语言、系统性能提升、构建新型体系结构等),最后指出了目前我们正在进行的研究工作和今后的研究方向。
     2015.09.18  主题:在线用户行为演化动力学研究
     (Web Group) 在线用户行为演化动力学研究:基于集体用户注意力流的视角 
    Abstract:
    如果将虚拟世界的Web看作具有“生命”,能够生长、繁衍和发展,根据生态学的新陈代谢理论,Web必须吸收“能量”。基于这一视角,我们探讨如下两个问题:(1)Web所需的“能量”来自何方?(2) 基于这个“能量”,Web站点能否产生在整个Web上的宏观影响力?我们猜测Web依赖在线用户集体注意力流作为“能量”进行演化,并由此产生宏观影响力。数据分析的实证研究证实了这一猜测,进一步通过网络科学方法研究了在线集体用户行为,发现主导Web演化的规律与主导生命组织演化的新陈代谢规律惊人地相似。
     2015.6.26  主题:新兴编程语言简介
     (Cloud Group) 新兴编程语言简介 
    Abstract:
    随着移动互联网技术的快速发展,出现了适用于不同应用平台的新兴编程语言。本报告以新型数据管理系统中用到的相关语言入手,介绍了较流行编程语言的特点和适用场景。重点介绍了苹果公司新发布的Swift语言和谷歌公司新发布的Go语言。从两种语言的历史由来、语言特性、编译框架、性能对比等方面做了详细的分析和对比。最后,对新兴语言的硬件平台环境和特征分类等做了总结。
     2015.6.20  会议地点:理工配楼一楼会议室
     (Cloud Group) Spark实战-深入浅出 
    Abstract:
    继Hadoop之后,Spark技术以其无可比拟的优势,发展迅速,成为替代Hadoop的下一代云计算、大数据核心技术。通过实战例子介绍Spark集群的构建,架构设计、内核剖析、Shark、Spark on Yarn和JobServer等。
     (Web Group) 眼界-细节-高度 
    Abstract:
    本次报告主要介绍两篇关于聚类的文章,这两篇文章的核心思想相似,实现细节、着眼点和写作手法具有差别,发表刊物截然不同,目的是为了通过对比的方法研读文章,并积累写作方法。
     2015.6.12  会议地点:理工配楼一楼会议室
     (Cloud Group) 把SSD引入到Hadoop中 
    Abstract:
    Hadoop是一个分布式处理系统,这个系统所基于的计算机的系统结构是Disk-DRAM-CPU,但是在这种系统结构中磁盘的速度和CPU的速度严重不匹配。SSD的访问速度比磁盘的快得多,因此把SSD引入到Hadoop中后会引发许多的问题。本报告介绍了两篇与此相关的论文,这两篇论文探讨了把SSD引入Hadoop中后SSD中应该存放什么,系统结构中应该有多少SSD等问题。
     (Mobile Group) 现实中KNN查询的位置隐私
    Abstract:
    在移动通信中,空间查询严重威胁用户的位置隐私,因为一个位置查询可能揭示了移动用户的敏感信息。提出了一个为移动用户在KNN查询时对位置进行隐私保护的解决方案。这一解决办法是建立在提供位置隐私和数据隐私的Paillier公钥加密的密码系统。
     2015.5.30  会议地点:理工配楼一楼会议室
     (Cloud Group) Phd"研磨记" [ppt]
    Abstract:
    本次报告主要跟大家分享一下读博以来看到的一些有意思的书籍.
     (Web Group) 短文本聚类方法 
    Abstract:
    短文本分类或聚类是一个非常有意义而又极具挑战性的研究热点。传统的文本聚类采用向量空间模型来表示一段文本,由此带来许多不可避免的问题,如:数据的高维性、方法的可扩展性、向量的稀疏性等。同时,传统的K-means、HAC等聚类方法往往需要预先设定聚类个数,而且最终结果的可解释性也较差。本次报告讨论了几种短文本分类与聚类的方法,主要包括基于主题模型的方法、基于狄利克雷混合模型的方法以及基于本体的方法。
     2015.05.22  会议地点:理工配楼一楼会议室
     (Cloud Group) 让PPT生动起来 
    Abstract:
    PPT作为演讲过程中的一个重要工具,能够很好地帮助信息的准确传达。本报告主要介绍PPT的外在的手段,是从形式上对PPT进行美化和包装,如何让PPT变得生动起来。报告从PPT模板的选择、配色方案、字体设计等方面介绍了如何从静态效果上对PPT进行美化。另外,对比较常用的动画进行了示例演示,包括擦除、淡入淡出、自定义路径等。最后与大家分享了PPT制作的心得。
     (Web Group) 长文本语义相似度度量方法 
    Abstract:
    文本的语义相似度是自然语言处理领域最重要的研究课题之一,其成果广泛应用于搜索引擎、文本挖掘、推荐系统等诸多方面,本报告首先介绍了传统的基于词语相似度的文本相似度度量方法,在此基础上,介绍了基于深度学习架构的Word2Vec和Doc2Vec模型。
     2015.05.16  主题:网络科学与复杂性科学
     (Web Group) 专题讲座:复杂世界,简单规则----从网络科学到复杂性科学 
    Abstract:
    在过去的二十年中,万维网的爆炸式发展为科学家提供了一个重要的复杂人工系统来揭示其普适模式和规律。本讲座中,先介绍了由Barabasi教授等人提出网络科学方法,它为揭示Web的结构、发展以及缺点提供了一整套研究工具。在此基础上,进一步介绍了复杂性科学领域的研究工作,包括复杂性科学的核心概念并分析了这一领域当前的最新研究成果。最后,介绍了我们团队在网络科学和复杂性科学领域的研究工作,包括在线注意力流网络的研究和Web站点异速标度率的研究。
     2015.5.8  主题:DASFAA参会报告
     (Mobile Group) DASFAA 参会报告 
    Abstract:
    王江涛,王璐和汪凤鸣就这次DASFAA会议做参会报告。
     2015.04.25  主题:Bootstrap技术应用
     (Cloud Group) AQP系统与OLA系统中的Bootstrap技术应用 
    Abstract:
    Bootstrap是一种基于蒙特卡洛模拟的统计估计技术,由于其统计分析过程只需进行简单的重复模拟,无需大量的复杂人工分析,且广泛支持多种聚集查询,故在近似查询AQP系统中有广泛的应用。本报告总结了近年来在基于大数据的近似查询处理系统中Bootstrap的相关工作:主要包括用作查询估计技术用以计算置信区间,或用作估计诊断技术用以判断查询估计是否可靠。并详细介绍了“Knowing when you're wrong: building fast and reliable approximate query processing systems”论文中的核心技术。另外,本报告还详细介绍了首次将Bootstrap引入在线聚集OLA系统中的一篇工作,“G-OLA:Generalized On-Line Aggregation for Interactive Analysis on Big Data”。最后进行了总结并就我们所研究的在线聚集场景中的数据倾斜问题,跟大家分享了最新的工作进展。
     2015.4.17  主题:DASFAA参会预报告
    DASFAA参会者 特殊专题:DASFAA参会预报告 
    Abstract:
    王江涛,王璐就这次DASFAA会议做参会预报告。
     2015.4.10  主题:云计算
     (Cloud Group) 分布式数据流实时查询处理 
    Abstract:
    分布式环境下,为处理多数据流的密集型精准计算,可根据有向无环图(DAG)的执行模式设计不同并行优化策略。以STORM为测试平台,本报告分析了两种提高查询处理速度的处理策略,分别是:针对连续查询构建不同的并行计算度(dop)和批处理大小(bs),以及根据数据分布的特点,针对Join操作设计的算子内部的自适应操作算子。最后,对两种策略进行了总结,并分析了下一步的工作重点和研究计划。
     (Cloud Group) 云环境中在线聚集存在的问题 
    Abstract:
    大数据的出现给传统的数据管理技术带来了巨大挑战,随着数据量的极具增长,关系数据库领域的研究人员注意到了云环境下的在线聚集技术。在线聚集技术虽然能够很好的解决大数据的问题,但它同时也存在着一些问题,本次报告主要结合已经有的一些工作:云环境下Max/Min在线聚集技术研究、Top-K Online Aggregation in the cloud和data skew & data sampling等简要介绍云环境中在线聚集的关键问题和对应的解决方案。
     2015.04.03  会议地点:理工配楼一楼会议室
     (Cloud Group) 利用SSD提升MapReduce性能的可行性调研 
    Abstract:
    MapReduce是一种编程模型,用于大规模数据集的并行运算。本次报告分析了MapReduce程序在Map、Shuffle和Reduce阶段的I/O特性,并通过将磁盘或SSD作为存储介质下MapReduce性能测试探究利用SSD提升其执行性能的可行性。
     (Web Group) 基于大规模知识库的近义词获取方法 
    Abstract:
    基于语料的近义词发现是自然语言处理领域重要的研究课题之一,目前的主要方法有通过词语分布情况对不同的词构建词向量,再通过度量向量相似度获取词语之间的相似度,之后利用机器学习模型对词向量的计算结果进行过滤和重排,进而得到最终的近义词列表。报告对基于分布的词向量方法和重排方法分别进行了介绍。
     2015.03.27  主题:内存管理
     (Cloud Group) 由PCM和DRAM构成的混合内存的有效管理 
    Abstract:
    新应用和多核处理器的出现要求有比较大的内存,但是内存增大会导致系统消耗更多的能量。如何减少能耗呢?由PCM和DRAM构成的混合内存能有效减少能耗问题。本次报告介绍了两篇在混合内存有效管理方面的论文。
     (Cloud Group) Deep into Spark 
    Abstract:
    Spark是一种并行内存计算平台,目前得到了工业界的广泛青睐。本次报告旨在介绍Spark的原理和功能、Spark生态圈的现状以及Spark的编程方法,并通过与MapReduce这种通用型并行计算框架进行比较,来展示Spark在大数据处理方面的优势和不足之处。
     2015.03.20  主题:Web数据管理
     (Web Group) 在线站点的影响力如何扩大? 
    Abstract:
    大数据的可用,特别是用户在线冲浪记录的研究,使得可以定量研究用户在各网站间交互的长期、复杂模式。我们试图应用复杂带权网络和流网络理论来研究点击流网络,如果我们将用户的注意力当作能量流,则有理由相信在其它带权网络中发现的规律也同样适合带权点击流网络。通过分析集体注意力流的循环,我们发现在线站点的影响力与其用户的注意力流量呈线性关系,即注意力流量越大,站点的影响力越大。同时还发现,一个站点的总使用时间与其影响力呈亚线性关系,这与人们的直觉“站点吸引用户的时间越多,其影响力越大”不一致。。
     (Wen Group) 短文本上的实体识别与概念化方法 
    Abstract:
    实体识别与分类是自然语言处理中的一大挑战。如何从纯文本中提取出实体对数据集成、信息检索、知识问答等系统都非常关键。现有的实体识别技术主要基于文本中的句法结构、词频和共现规律等,然而这些特征在诸如微博和搜索引擎查询这样的短文本上往往无法体现,因此传统实体识别技术在短文本上通常不能奏效。本次报告针对短文本上的实体识别与分类问题,对利用知识库与机器学习算法相结合的方法,提高短文本中实体识别与分类准确度的方法进行了研究。
     2015.03.13  主题:MapReduce
     (Cloud Group) 基于MapReduce的距离相似性连接查询 
    Abstract:
    相似性连接技术是一种在数据分析处理中应用得很广泛的一种技术。目前,有很多论文提出了各种各样关于文本相似性连接查询的高效解决方案,却鲜有论文涉及度量空间中基于距离的相似性连接查询这个问题。本次报告将介绍一种利用网格划分技术和MapReduce来高效地处理基于距离的相似性连接查询的方法。
     (Cloud Group) 利用分布式内存缓解mapreduce阶段数据倾斜 
    Abstract:
    在数据处理平台上,比如说mapreduce,数据倾斜是一个主要的问题,数据倾斜导致当内存装不下工作tasks时候,这个tasks就会被溢出到磁盘,这样会降低task和整体的运行效率。我们介绍这种SpongeFiles这种新型文件系统就是为分布式环境量身定做的,我们将溢出的数据按照顺序,分别放在本地内存,远程内存,本地磁盘,远程磁盘,从而充分利用整个集群的内存来处理数据,当然其带路的整体效率也是非常之高。
     2015.01.20  会议地点:理工配楼一楼会议室
     (Cloud Group) 在线聚集场景下的随机采样技术 
    Abstract:
    在线聚集提供了一种能够根据样本数据快速获得聚集结果置信区间的方法,在大数据分析中具有重要的意义。为了保证估计结果的高准确度和置信区间的快速收敛,一个高效的随机采样方法不可或缺。本报告主要介绍了等概率采样的几种经典采样方法:包括简单随机采样、整群采样、分层采样即系统采样等;并介绍了如何在数据库中实现随机采样的一些技术以及COLA系统中针对单表和多表在线聚集问题所设计的采样技术;最后介绍了倾斜数据集上的采样方法。
     (Cloud Group) 基于划分的文本相似性连接查询 
    Abstract:
    文本相似性连接查询是空间文本相似性连接查询处理的一个重要方面。目前,关于文本相似性连接查询的解决方法有很多种,包括前缀过滤方法、基于编辑距离的划分方法等等。本次报告将介绍一种高效的基于划分的文本相似性连接查询技术,包括其实现原理和基于MapReduce的分布式实现方法。
     2015.01.13  会议地点:理工配楼一楼会议室
     (Cloud Group) 固态存储的未来 
    Abstract:
    将内存扩展到更高密度时会带来一些挑战,那么如何应对这些挑战?本报告报告了来自微软研究院提出的一个假想系统的五种方案。
     (Cloud Group) group-by 查询中的抽样问题 
    Abstract:
    抽样是近似查询中的一种关键性技术。在常见的group-by查询中,低选择率等问题会导致“小组”问题的产生。“小组”问题都会导致传统的简单随机采样方法失效。本报告介绍了“小组”问题的产生以及若干解决方案。
     (Cloud Group) Storm核心技术解析 
    Abstract:
    MapReduce, Hadoop以及一些相关的技术使得我们能处理的数据量比以前多很多。但这些数据处理技术都不是实时的系统,它们设计的目的也不是为了实时计算。没有什么办法可以简单地把hadoop变成一个实时计算系统,实时数据处理系统和批量数据处理系统在需求上有着本质的差别。缺少一个“实时版本的hadoop”已经成为数据处理整个生态系统的一个巨大缺失,Storm填补了这个缺失。
     2015.1.6  主题:空间文本数据查询
     (Cloud Group) 四叉树在空间文本数据查询处理中的应用 
    Abstract:
    空间文本数据是指既含有文本信息同时也含有空间位置信息的一类数据。这类数据通常产生并应用于LBS服务中。目前关于这类数据的查询处理大多都是“空间查询技术+文本查询技术”的混合方案,因而空间查询技术和文本查询技术的选择是影响查询处理性能的关键因素。学术界对该问题一直高度关注,并不断有新的研究成果发表出来。本次报告将通过两篇论文来简要介绍四叉树这一种空间索引在空间文本数据查询处理中的应用。

    研讨会(2009-2014)

    研讨会(2006-2008)