研讨会(2017) 

2017.12.28  会议地点:理工配楼一楼会议室

段志强 (Cloud Group)

半流链接
Abstract:
随着内存的不断增加和强大的云计算平台的出现,在执行基于流的连接时可以利用相当多的计算资源。但是,有几种情况下可以用有限的资源运作的方法是有意义的。首先,对于分配给流连接的资源,数据可能过大,因此需要更好的算法。其次,当涉及移动和嵌入式设备时,可能需要低资源消耗方法。基于流的连接是现代系统体系结构中的重要操作,在这种体系结构中可以及时传送数据。本次报告讨论一个基于流的连接的特定类,半流连接,这种连接可以应用于实时数据仓库,其中缓慢变化的表通常是数据表,流包含传入的实时数据。

汤庆 (Cloud Group)

软件定义
Abstract:
软件定义的目标是利用网络技术将地理上位置不同的计算设施、存储设备集成在一起,建立面向网络服务的通用基础支撑环境,实现Internet上计算资源、数据资源和服务资源的有效聚合和广泛共享,从而建立一个能够实现区域或全球合作或协作的虚拟科研和实验环境,支持以大规模计算和数据处理为特征的科学活动。


2017.12.21  会议地点:理工配楼一楼会议室

杨晨 (Cloud Group)

云环境下实时低延迟科学事件分析
Abstract:
短时标和大视场巡天调查可以带来前所未有的科学发现,因为这类新型科学基础设施可以快速捕获不同种类的光学瞬态光源。这给相关的数据分析系统带来了实时和低延迟的科学事件分析挑战。所有新的调查数据必须在下一个调查周期之前成功处理,并且应尽快发布触发后续观察的警报。本文提出了一种基于云环境的数据分析方案,该方案使最终用一个高效的数据分析系统Aserv实现。此外,提出了一套紧凑的数据存储和索引结构来描述提出的科学事件,典型的分析模式被形式化为一组查询操作。基于领域感知的过滤器,查询精度感知的数据分区方法,高效的索引和常用的统计数据设计是优化Aserv性能的四个关键方法。典型云环境下的实验结果表明,所提出的优化机制能够满足大数据插入和科学事件分析的低时延需求。 GWAC(地面广角相机)每15秒钟就会产生大约350万行调查数据,Aserv可以在3秒内完成数据插入,并在3秒钟内执行最复杂的查询。此外,我们将介绍一个性能模型来帮助Aserv选择合适的云资源设置来满足实时性要求。

杜永杰 (Cloud Group)

大数据系统性能预测
Abstract:
在计算机科学中,性能预测是估计给定计算机上程序的执行时间或其它性能因素的方法。然而在大数据背景下,由于计算是在分布式环境下进行的,这增加了计算机性能预测的精确性难度。本次报告主要介绍一种新大数据性能预测方法,该方法通过在小的集群上运行部分数据集来预测大规模数据集上运行时间。并且提出来了一种实验设计的优化方案,该方案大大节省了实验运行时间和实验成本,提高模型预测的准确度。

邵玉杰 (Web group)

ScholarSpace Ranking系统开发
Abstract:
ScholarSpace Ranking系统旨在改善ScholarSpace原有排名体系,即各位学者与学校的排名不仅取决于其论文数量,还要考虑进去一系列排名算法,这样排名结果更具有参考性,排名算法参考的是Computer Science Ranking系统。本次报告主要介绍ScholarSpace Ranking开发的一系列流程,先介绍其算法,其次讲解需要用到的数据如何合成与系统实现,最后简单总结并且介绍下一步工作.


2017.12.16  会议地点:理工配楼一楼会议室

刘俊旭 (Privacy Group)

差分隐私下的频繁项集挖掘
Abstract:
频繁项集挖掘是关联规则挖掘中的关键问题之一,探索数据中的频繁项集能为经济、科研等领域带来很多有价值的信息。然而另一方面,频繁项集本身的内容以及相应的频度却可能导致个体敏感数据的泄露。差分隐私作为一种强隐私定义,能满足用户在对敏感数据集进行分析的同时保证个体数据不受侵犯。本次报告主要介绍一种新的差分隐私下top-k频繁项集挖掘算法PrivSuper,该算法能在进行频繁项集挖掘时既保证分析结果具有很高的可用性,同时保证个体的敏感信息不被泄露。PrivSuper还提出一种新的差分隐私机制??Sequence Exponential Mechanism (SEM),该机制大大节省了频繁项集搜索过程中隐私预算的消耗。实验结果显示,与此前提出的方法相比,PrivSuper的结果可用性有明显的提升。


2017.11.30  会议地点:理工配楼一楼会议室

刘立新 (Privacy Group)

数据透明
Abstract:
数据透明能够促进数据负责使用,数据透明是指能有效获取对象在产生、处理及决策过程中涉及到全部数据信息的一种能力,包括数据采集时透明、数据流通时透明、数据使用透明、算法透明和法律法规透明。区块链的可追溯性使得数据从采集、交易、流通、以及计算分析的每一步记录都可以留存在区块链上。本次报告讲述数据透明的相关概念和应用区块链技术解决数据采集时透明。

杨鑫 (Privacy Group)

OrientAP系统与移动用户隐私泄漏数据获取方法
Abstract:
大数据时代,大规模的隐私泄漏问题突显。其中移动用户隐私泄漏问题又占有很大比重。如何可视化移动用户隐私泄漏风险值,以达到监测的目的变得尤为重要。本次报告从系统入手,先简单介绍并演OrientAP系统;其次详细介绍移动用户操作APP时,如何抓取隐私数据的方法,最后介绍未来系统的方向。


2017.11.23  会议地点:理工配楼一楼会议室

郝泽慧 (Web Group)

面向特定领域的命名实体识别
Abstract:
面向特定领域的知识图谱构建是现在学术界和工业界共同关注的方向,从文本中抽取实体关系是目前面临的主要问题,通常分为两步:首先对文本做命名实体识别,然后抽取出这些实体间的关系。常见的命名实体识别方法可以分为两类:基于规则匹配和基于机器学习。前者的召回率通常比较低,后者依赖于大量训练文本,并且大部分方法是面向开放领域的,直接运用到特定领域上效果通常较差。本次报告以微生物及其栖息地实体识别为例,介绍如何将领域知识融入神经网络提高命名实体识别的准确率和召回率,从实验结果详细分析不同方法对效果的影响。

忻日辉 (Cloud Group)

Aserv持久化和离线查询引擎的设计
Abstract:
本次报告的内容分为两部分:1.Aserv系统的持久化和离线查询引擎的设计。首先为了解决冷热数据的分离问题,我们设计了一种两级存储方案。我们利用第一级存储即缓存存放热点数据,采用基于Spark+Cassandra 的管理方案,并提出一种基于线段树的索引技术对其进行高效的查询。在第二级存储中,我们持久化了所有观测夜的星表数据。在分布式文件系统HDFS上,我们实现了基于逻辑分层的管理方案,即设计一种星表簇结构将整个星表数据划分后聚集存储,并且根据天文需求特点,设计基于索引表的查询引擎能从缓存和星表簇以较小的代价对星表数据查询。2.对基于Spark+HDFS的持久化和查询引擎进行软件和硬件层面的加速。因为我们设计的持久化和查询引擎是基于Spark构建的,从本质上看,所有的查询和持久化操作都是运行在Spark上的应用。在Aserv系统实际运行过程中我们发现集群的资源利用率并不高,因此尝试分别从软件和硬件层面优化集群的资源利用率,进而提升系统的整体吞吐量。在软件层面,我们实现了Spark应用层的并行执行框架,使得持久化和离线查询应用可以并行执行,大幅提升效率。在硬件层面,我们构建了D-Spark系统,通过量化主要硬件组件的性能瓶颈来诊断集群的瓶颈组件,并对其进行有针对性的升级,使得运行在该集群之上的持久化和查询引擎的运行速度得到更大幅度的提升。


2017.11.16  会议地点:理工配楼一楼会议室

叶青青 (Privacy Group)

基于本地化差分隐私的图数据分析
Abstract:
社交网络数据中蕴含大量有价值的信息,然而这些数据都是分散在用户本地的,任何一个不可信的第三方都无法访问整个图的结构信息,同时,每个用户可以在本地保留着个人的信息。此次报告中,我们基于本地化差分隐私技术利用图结构信息进而得到一个合成的社交网络。此外,本次报告将介绍一个有趣的话题,是关于差分隐私和机器学习中的过拟合问题。

吴永泰 (Web Group)

关系发现与ScholarSpace报告
Abstract:
关系发现是利用知识图谱中现有的知识去推断未知的知识。本次报告主要是关系发现概述及其关系发现系统RelFinderRECAP的工作原理及可视化过程,以及实验室项目ScholarExplorer的工作进度报告。


2017.11.09  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

SSD扩展的内存存储
Abstract:
当前许多应用领域都要求能快速、及时地响应客户的需求,而要能实时响应存储需求离不开高效的存储系统。内存key-value存储广泛应用于相关应用领域的数据存储,为上层应用提供实时存储支持。然而当今每个企业拥有大量数据,DRAM由于受价格等因素的限制,不可能把大量数据存放在DRAM中。本报告讲述如何通过SSD扩展内存键值存储。

杜治娟 (Web Group)

Norm家族的固有缺陷剖析及应对策略探究
Abstract:
Norm家族与Conbination家族、Neuron家族是KGE三大学派,它以简单高效而著称。然而,它们也是有局限性的。本次报告主要剖析Norm家族中每个模型固有的缺陷,并给出相应的解决策略。


2017.11.04  会议地点:理工配楼一楼会议室

张祎 (Web Group)

DegreeTree补全报告
Abstract:
DegreeTree系统能够展示以学者为中心的谱系图,在分析学者权威性和评审推荐等方面发挥着重要作用。但数据不足已成为该系统的瓶颈之一,本次报告从三个方面围绕DegreeTree补全工作展开。首先是补全工作的完成情况;其次是数据处理过程中遇到的问题及其解决方案;最后,报告将从本体层出发,考虑ScholarSpace的可能应用及其实现思路,具体包括学者排名、机构排名、专家推荐、评审推荐和文献推荐等。

王春凯 (Cloud Group)

XLDB2017参会报告
Abstract:
10届超大规模数据库国际会议(XLDB2017)于20171010--1012日在法国克莱蒙费朗圆满举办。此次会议日程丰富,共有4session17lighting talk, 1hackathon,和1demo。实验室研究课题“AstroServer - A Framework for Real-time Analysis in Large-scale Astronomical Data”在大会上做了报告。


2017.10.19  会议地点:理工配楼一楼会议室

朱敏杰 (Privacy Group)

LDP机制下收集和分析移动设备数据
Abstract:
数据隐私可以使用四维分类法进行定义,信息熵可以用来量化用户隐私风险。随着智能设备的普及,移动隐私风险问题日益严重。数据收集者或第三方可以利用移动设备上的用户数据,例如已安装的APP列表,来推断其他用户属性(例如年龄、性别、种族和收入等)。在LDP机制下,数据收集者只能收集到被干扰后的用户数据,保护了用户隐私。此外,在机器学习的预测模型中运用ε-LDP机制,可以保护训练集中的用户隐私数据。

翁祖建 (Could Group)

深度神经网络模型与其在国内二级市场的应用
Abstract:
深度学习是机器学习领域的又一高峰,在图像、语音、自然语言处理等任务中都取得了革命性的进步。本次报告介绍了基本的神经网络结构以及目前流行的深度神经网络,包括卷积神经网络CNN、循环神经网络RNNLSTM、强化学习以及AlphoGO使用的Deep Q Network。为了加深印象,介绍每种神经网络的同时,会介绍其如何用于国内二级市场的预测以及结果,目前国内的量化市场还未大量使用深度学习,这一领域是很有前景的。


2017.10.12  会议地点:理工配楼一楼会议室

孙箐阳 (cloud Group)

区块链原理、技术及价值
Abstract:
区块链技术是当前金融科技领域最前沿的技术,已经引起了多国政府部门、金融机构和投资者的关注。本次报告以区块链技术的一个较成熟的应用-比特币的工作原理入手,介绍区块链技术的原理、特点及在金融行业的应用。并从区块链的技术层面及应用层面分析其特征,给出区块链的分类,提出区块链技术实际应用的需求与难点。


2017.09.28  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

基于NVM的内存key-value存储
Abstract:
当前许多应用领域都要求能快速、及时地响应客户的需求,而要能实时响应存储需求离不开高效的存储系统。内存key-value存储广泛应用于相关应用领域的数据存储,为上层应用提供实时存储支持。然而内存由于本身技术限制,不可能再大规模发展,因此需要引入新型存储器。本报告就如何构建基于新型非易失存储的内存key-value存储系统提出自己的想法。

杜治娟 (Web Group)

EAE:一种酶知识图谱自适应嵌入表示方法
Abstract:
近年来,构建大规模知识图谱(KG),并用其解决实际问题已经成为大趋势. KG的嵌入表示方便了机器学习在KG等关系数据上的应用,它可以促进知识分析、推理、融合、补全、甚至决策. 最近,开放域知识图谱(OKG)的构建和嵌入表示已经得到蓬勃发展,大大促进了开放域中大数据的智能化. 与此同时,领域知识图谱(SKG)也成为了特定领域中智能应用的重要资源. 但是,SKG还不发达,其嵌入表示尚处于萌芽阶段. 这主要是由于SKGOKG的数据分布显著不同,更具体地说:(1)在OKG中,如WordNetFreebase,头/尾实体的稀疏度几乎相等;但是在EnzymeNCI-PIDSKG中不均匀性更受欢迎,例如,微生物领域的酶KG中尾实体是头实体的1000.2)头实体和尾实体可以在OKG中交换位置,但是它们在SKG中是非交换的,因为大多数关系是属性. 例如,实体奥巴马可以是头实体也可以是尾实体,但是头实体总是处于头位置. 3)关系的广度在OKG中具有小的偏差,而SKG中很不平衡. 例如,一个酶实体甚至可以链接31809‘x-gene’实体. 基于这些观察,我们提出了一个新方法EAE来处理这3个问题,并在链接预测和元组分类任务上评估了EAE方法. 实验结果表明,EAE显着优于TransEHRDTranSparse),达到了最先进的性能.


2017.09.21  会议地点:理工配楼一楼会议室

叶青青 (Privacy Group)

基于本地化差分隐私的键值对数据采集
Abstract:
目前,本地化差分隐私下的研究工作主要局限于简单类型的数据发布,例如类别数据、数值数据和集值数据。据我们所知,目前暂无本地化差分隐私下的键值对数据发布的相关研究工作。因此,我们希望做一些LDP下的针对键值对数据发布的研究。我们提出一个基于多轮迭代的框架PrivKV,用于频率估计和均值估计。其主要思想是对每一次的结果进行迭代,不断趋近于真实值。我们设计了一个本地的扰动模型LPP,对原始数据进行扰动以保护隐私,进一步地,我们通过考虑通信代价问题,提出一个更加实用的扰动模型PMRF。最后,为了减少迭代次数,我们提出一个优化策略。一系列的理论分析和实验结果验证了PrivKV框架的正确性和有效性。

任玮 (Cloud Group)

AstrongServer- a astronomy analysis System
Abstract:
GWAC, Ground-based Wide-Angle Camera array, collects high-density astronomical sources with a high cadence. WAMDM design a system named AstroServer to solve the problem about how to storage the data that GWAC captures and how to process these data. We show how AstroServer processes GWAC’s catalogs, models astronomical time-series data and queries transients. Further, we will discuss how to optimize AstroServer to ensure real-time analysis, as optical telescope technologies are developing, causing more astronomical sources to be collected.


2017.06.23  会议地点:理工配楼一楼会议室

孙箐阳 (Cloud Group)

GWAC星空监测数据可视化-AstroDB
Abstract:
随着各种最新观测技术的出现,天文领域迎来了信息爆炸的时代,而相对应的大批量数据可视化,对于天文信息监测变得尤为重要。本次报告介绍了天文信息监测可视化的整体框架、技术细节以及难点突破,并进行Astro系统演示与未来的系统方向。

忻日辉 (Cloud Group)

GWAC 查询实现v.2
Abstract:
本次报告的主要内容为GWAC 天文大数据系统第二版的改进工作。在GWAC第一版的系统中,一晚上的数据将耗费内存3TB以上,现有环境无法达到要求,所以有了v2.0版的工作。v2.0的系统采用了新的数据结构,在内存占用上为v1.0版本的二分之一。


2017.06.16  会议地点:理工配楼一楼会议室

朱敏杰 (Privacy Group)

基于APP场景的隐私量化和分析
Abstract:
隐私主动监测和评估,即在处理大数据时,能够主动监测到那些不正当或存有恶意的操作,并能够评估出风险的大小。它是是主动式隐私保护框架的基础,通常基于某些特定场景,例如云计算场景、社交网络等。提出基于APP场景的隐私主动监测与量化评估技术,因为随着手机普及和应用市场的快速发展,人们在享受着各种APP带来的便利的同时也面临着巨大的个人隐私风险。构建隐私风险量化模型,通过用户操作APP过程中泄露的隐私信息进行风险量化评估。首先利用项目反应理论对隐私信息的传播度建模计算,并求解隐私信息的危害值。最后,基于调查和模拟的用户和APP数据,进行多类型的实验分析。

杨晨 (Cloud Group)

GWAC data real-time processing and interval query
Abstract:
超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性。目前天文台设计的GWAC天文望远镜的特点是:(1)低延迟持续拍照;(2)多镜头并行;(3)单镜头大视场。基于上述特点,GWAC天文望远镜能够低延迟持续的对某一天区拍照,该特性有利于观测短时标的异常天文现象。做为配合望远镜的数据管理系统需要能够快速完成高价值异常天文数据的存储和查询,以便快速为天文学家发现特殊天文现象提升科学数据支持。由于当前的世界范围内的尚无对特定天区持续低延迟观测的天文望远镜,因此针对实时异常天文数据的管理系统研究并不多。本报告基于上述GWAC特点,设计一种基于摘要信息的实时异常天文数据管理,主要针对时间、空间和计数需求设计摘要信息,并对四种典型的异常数据查询进行优化,能够对低延迟的异常天文数据流进行快速存储和查询。


2017.06.02  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

数据库系统实现线性代数
Abstract:
数据分析,包括机器学习和大规模统计处理,是当今一个重要的应用领域。这些分析技术中经常要用到线性代数。要实现线性代数可以用传统的关系数据库来实现,也可以用阵列数据库来实现。本报告介绍了如何关系数据库和阵列数据库来实现线性代数。

张祎 (Web Group)

PRASFE的对比分析
Abstract:
PRA是基于知识图谱拓扑结构的经典知识库补全技术。其算法核心是通过随机游走获取路径特征。虽然随机游走可以降低计算成本,但也会导致补全结果不稳定。Matt Gardner提出了更简单有效的SFE算法。本报告将重点解释SFE算法的核心思想,并进行实验结果分析。为进一步对PRASFE进行对比分析,我也在Freebase上进行了对应实验。


2017.05.26  会议地点:理工配楼一楼会议室

赵尔平 (Mobile Group)

基于神经网络的词和文档语义向量表示方法
Abstract:
在自然语言处理领域,最常用的语义表示方法是词袋子模型,该方法存在数据稀疏问题,并且不能保留词序信息。早期方法中提出的词性、句法结构等复杂特征,往往只能对特定的任务带来性能提升。报告从词和文档两个层次对文本的语义表示技术进行系统的总结分析,具体如下:一、 词向量表示技术的理论及实验分析;二、基于字词联合训练的中文表示及应用;三、基于循环卷积网络的文档表示及应用;四、总结与展望。


2017.05.12  会议地点:理工配楼一楼会议室

王硕 (knowledge fusion)

生成式对抗网络介绍
Abstract:
本次分5个方面来介绍一下GAN的有关知识:(1)为什么生成模型值得研究;(2)生成模型如何工作及GAN与其他生成模型的比较;(3GAN的具体实现;(4GAN的研究前沿;(5)将GAN与其他方法相结合的若干模型。

秦楷迪 (Privacy Group)

基于差分隐私保护的系统及应用
Abstract:
近年来,随着大数据时代的到来,关于数据隐私保护的问题越来越引起人们的关注,如何更加有效地保护数据发布、存储和分析中的隐私成了研究热点问题。传统的隐私保护技术很多都依赖于特定的背景知识,例如k-匿名等隐私保护方法,离开了特定的背景知识则保护方案失效。因此,在近些年出现了差分隐私保护技术。它是一种新兴的数据隐私保护方法,不依赖于特定的数据背景知识,是一种由严格数学理论支持的新兴的,强健的隐私保护策略。目前关于差分隐私保护的研究多停留在理论层面,而相关原理展示与应用实践系统很少。因此本文研究开发了OrientDP系统,它是基于差分隐私保护策略的原理展示与验证系统,并且选择了交通坐标流量监测的应用场景,来实际应用差分隐私保护技术保护汽车坐标隐私,达到了良好的效果。


2017.04.28  会议地点:理工配楼一楼会议室

李进 (Web Group)

基于神经网络的微生物生长环境关系抽取
Abstract:
微生物生长环境关系抽取旨在从生物文献中自动地抽取微生物和栖息地之间的关系。这不仅对构建全面的、可理解的微生物及其栖息地的关系数据库有指导作用,而且能促进微生物、健康科学和食物加工等领域的发展与实际应用。目前针对微生物生长环境关系抽取任务的主要方法主要分为基于规则的方法和基于机器学习的方法。这两种方法都需要人工设计大量的规则和特征,选择分类器,而且不能利用未标注的语料,存在一定的局限性。基于神经网络的微生物生长环境关系抽取方法,可以实现特征的自动学习,避免了过多的人工干预,同时能够利用大量未标注语料中的领域知识。本次报告主要介绍小组在利用神经网络进行微生物生长环境关系抽取的进展以及未来的工作。

翁祖建 (Cloud Group)

ICDE2017参会报告
Abstract:
介绍了ICDE2017上的两篇论文(1.多处理器架构中流数据处理系统的测试与改进。2.CPU-GPU架构中Key-Value数据库的设计)和两篇Demo


2017.04.21  会议地点:理工配楼一楼会议室

朱敏杰 (Privacy Group)

手机隐私综述?评估APP隐私和用户隐私保护方法
Abstract:
差分隐私允许数据收集者在保证用户隐私的情况下进行统计分析,但是这仍存在隐私风险,因为收集者仍持有用户的原数据。本地化差分隐私允许每个用户在发送数据给不可信第三方前随机化自己的数据,解决了这一难题。谷歌从2014年就开始在谷歌浏览器上使用本地化差分隐私。谷歌开源项目Rappor在严格的用户隐私保证下通过从客户端用户获取数据来进行统计分析。

忻日辉 (Cloud Group)

GWAC 持久化和查询实现v.1
Abstract:
GWAC 天文大数据系统的持久化和查询系统的设计和实现。1.持久化指的是,在白天GWAC需要在有限的时间内将晚上缓存在redis中的数据通过spark读取出来,建立表结构,最后存入HDFS2.介绍我们针对天文大数据的实时查询和离线查询的需求,设计了查询引擎


2013.04.07  会议地点:理工配楼一楼会议室

翁祖建 (Cloud Group)

ICDE2017预报告
Abstract:
Storm 是一个流行的实时流处理系统,应用于包括实时分析、日志处理、预警等场景中。但是,在使用Storm运行任务(Topology)的时候,需要提前指定许多参数,并且这些参数在任务运行中是不可变的。这就导致Storm无法适应流速动态变化的场景,进而产生资源的浪费或者无法提供满足要求的吞吐量。为了解决这个问题,本次组会介绍了一种能够根据流速特点动态改变Storm参数的系统AdaStorm。这个系统旨在能够使用尽可能少的资源来满足流处理的需求(提供低延时和满足要求的吞吐量)。我们采用的方法是定期收集Storm运行时的参数,得到训练样本,训练出能够对资源、吞吐量和延时数据准确预测的模型,每当需要改变配置的时候,就能够从模型中得到最优参数设置。我们实验表明了使用AdaStorm能够节约大约15%CPU60%以上的内存。

郭豫龙 (Web Group)

基于微生物数据的关系发现及其交互分析
Abstract:
随着测序,质谱等检测手段的不断进步,伴随着科技的发展,数据产生的效率获得了极大的提升,微生物各类大数据的综合分析也日渐成为关键问题。如何去存储微生物大数据,如何提取数据之中的关键信息,最后又如何去进行交互式的可视化展示,这一切都成为大数据时代微生物数据分析的挑战。


2017.03.31  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

大规模时空数据的处理
Abstract:
Secondo作为一个可扩展的系统,能够提供各种数据类型和算法去有效的表示和处理时空数据。但是,当今时空数据爆炸性增长,如使用导航和移动设备产生大量数据,单机版的Secondo已不能满足实际的时空数据处理需要,本报告讲述了并行和分布式Secondo系统。

杨晨 (Cloud Group)

GWAC data real-time processing and interval query
Abstract:
超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性。目前天文台和人大等单位参与的GWAC天文望远镜数据处理项目具有以下鲜明的特点:(1)数据源在固定频率下以流形式产生数据;(2)数据以块形式产生;(3)能低延迟查询当前观测夜数据。目前,天文台方案以MonetDB数据库做底层支持,星的相关数据存入一张逻辑表中,虽然方案实现简单,但是monetDB每隔几十个文件会出现跳点,加载时间提高到10秒左右,不稳定性可能会导致数据入库的滞后。目前人大方案以Redis cluster作为底层支持,每颗星的数据形成KEY-LIST结构,但该结构的入库对网络延迟要求高,且数据管理的内存开销大。面对上述问题,我们对方案进行了改进,每颗异常星数据以KEY-LIST结构存储,剩余数据以块的形式按KEY-LiST存储。该方案优势是,能够兼顾入库速度和查询效率,但对于间隔查询这类特殊查询会降低查询效率,因此我们计划引入一种特殊的倒排索引和线段树构建时间序列索引,以提高整体查询速度。


2017.03.10  会议地点:理工配楼一楼会议室

王春凯 (Cloud Group)

分布式数据流管理系统中在线连接的数据倾斜问题研究
Abstract:
在并行无共享环境中的可伸缩连接处理需要一个分区策略,用于均匀分配处理负载,同时尽量减少状态维护的大小和消息传递的数量。像传统的数据库处理一样,数据流上的在线θ连接的计算代价是昂贵的,而且是基于内存的处理,他们需要较高的内存空间。Join-Biclique模型具有三个特点:内存高效、可擦写和可扩展的。然而,现有的Join-Biclique模型无法动态分配查询节点,需要手动设置分组参数。更严重的是,在全历史连接查询下,数据偏斜的效果更差。在本次报告中,为确保查询语句的一致性,我们引入了一个贪婪的算法来处理数据流的倾斜问题。

孙箐阳 (cloud Group)

Spark核心编程与内核架构深度剖析
Abstract:
对本学期开学起来所学进行整理汇报,主要针对spark特性,核心编程原理,算子案例介绍,内核架构分析。


2017.03.03  会议地点:理工配楼一楼会议室

张祎 (Web Group)

基于PRA算法的知识库补全技术
Abstract:
现有知识库的规模虽然越来越大,但依旧很不完整。知识库补全模型一共包括三类:图特征模型、隐性特征模型和马尔科夫随机场。该报告将主要分享一个图特征模型,即PRAPath Ranking Algorithm)以及基于PRA的两种改进方法。第一种改进方法是在PRA原有的知识库信息基础之上加入了文本信息;另外一种则针对PRA提出了多任务并行处理框架,即CPRACoupled PRA)。这两种优化方法是否同样适用于隐性特征模型?是否可以通过结合图特征模型和隐性特征模型来提升算法性能?报告在最后将会对这两种模型进行简单对比。

李进 (Web Group)

基于Deepdive的知识库构建
Abstract:
由实体和关系组成的知识库描述了不同层次和粒度的抽象概念,是对客观世界的知识映射,在商业搜索引擎、问答系统、电商平台和社交网站均有广泛应用,。Deepdive是斯坦福大学开发的一个开源知识库构建工具。本次报告首先介绍Deepdive的开发背景和实现架构,然后根据一个例子(Spouse关系构建)讲述Deepdive的应用开发流程。最后会报告一下目前运用Deepdive存在的难点和未来的工作。


2017.02.25  会议地点:理工配楼一楼会议室

王硕 (Knowledge Fusion)

知识库的自动构建:NELL, EntityCube, Watson, DeepDive
Abstract:
大型知识库(KB)的实体、它们的属性以及实体之间的关系,已经成为在网站内容和其他大数据上完成语义搜索、资产分析和智能推荐的一个重要的资产。知识库构建技术正是完成知识库构成的关键,比如它可以从无结构的输入中找出事实信息存入关系数据库。知识库构建的关键挑战是如何从不同类型的和海量的数据中构建高质量的知识库,更为复杂的是这些数据需要关系操作和机器学习技术共同完成。下面就从实际的几个KBC系统来介绍其技术实现和发展现状。

任玮 (Web Group)

为关系型数据库简历交互的自然语言接口
Abstract:
自然语言一直是查询接口设计者的圣杯,但除了在限定好的具体情况下,通常认为很难实现。本次报告描述了关系型数据库可交互的自然语言查询接口的体系架构。通过限定与用户的交互,以能广泛应用于多种领域的方式,正确解释复杂的自然语言查询。通过这些方法,逻辑复杂的英文句子能正确转化为 SQL 查询,其中可能包括聚集、 嵌套及各种类型的连接,并可根据 RDBMS进行 评估。利用这些思想,我们构建了NaLIR系统 (Natural Language Interface for Relational Databaces)。实验表明NaLIR 完全可以投入实际应用,即使新手使用者也能完成相当复杂的查询。


2017.01.12  会议地点:理工配楼一楼会议室

忻日辉 (Cloud Group)

入库程序探讨
Abstract:
利用spark在白天对一晚上积累在redis中的数据往HDFS中入库,本次报告和大家详细讲解入库程序的实现,和实际遇到的问题,以及我们是如何解决的。

任玮 (Web Group)

基于Big Data Footprint以及Siriusbenchmark分析讨论
Abstract:
通过阅读对比Big Data Footprint以及Sirius两篇论文,比较benchmark的主要研究方向以及研究点。其中,针对Big Data Footprint,相应的benchmark通过讨论比较精度,能耗以及存储空间来提出了相关的性能优化,通过算法以及硬件的调整,实现了能耗的大幅度下降以及精度的保证。而针对Sirius,通过比较Sirius Suite,解决相关的瓶颈问题。通过对比两篇论文,明确了benchmark的关注要点,为下一步的深入研究提供基础。




Maintained by WAMDM Administrator() Copyright © 2007-2017 WAMDM, All rights reserved