研讨会(2016-2006) 

WAMDM实验室研讨会(2009-2014


2016

2016.12.29

会议地点:理工配楼一楼会议室

李进 (Web Group)

基于深度学习的知识库问答
Abstract:
深度学习在图像、语音等领域取得了极大的进展,自然语言理解也加入这项变革中。自然语言理解的一些常见任务,如词性标注、分词、命名实体识别、实体抽取、关系分类、分本分类,运用深度学习也取得了很好的效果。本次报告关注KB-QA(基于知识库的问答系统,Knowledge-based Question Answering),介绍深度学习在KB-QA常见的处理方法,Web小组在KB-QA的一些进展,以及未来的工作。

杨晨 (Cloud Group)

天文大数据挑战与实时处理技术
Abstract:
超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性。这些最新天文成果发现的背后建立在海量天文数据的近乎实时产生、管理与分析的基础上,因此给目前的数据管理系统带来了新的挑战。以我国自主研发的GWAC天文望远镜为例,15秒的采样和处理周期都处于短时标观测领域的世界前列,但却对数据管理系统提出了很多问题包括:多镜头并行输出数据管理,实时瞬变源发现、当个观测夜数据的秒级查询、数据持久化和快速离线查询等。本文基于上述问题,设计了分布式GWAC数据模拟生成器用于模拟真实GWAC数据产生场景,并基于产生的数据特性,提出一种两级缓存架构,使用本地内存解决多镜头并行输出、实时瞬变源发现,使用分布式共享内存实现秒级查询。为了平衡持久化和查询效率,设计一种星表簇结构将整个星表数据划分后聚集存储。根据天文需求特点,设计基于索引表的查询引擎能从缓存和星表簇以较小的代价对星表数据查询。通过实验验证,当前方案能够满足GWAC的需求。


2016.12.22  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

磁盘节能技术
Abstract:
当今由于数据量的爆炸式增长,需要存储海量的数据同时还要处理海量的数据,会带来高能耗问题。而且数据中心的能耗还是呈逐年快速增长。数据中心的很大部分能耗由磁盘引起的。当前存储系统的能耗占整个IT中心能耗的37%,同时存储能耗还以很高的速度递增。本报告总结了基于磁盘的节能方法,并探讨对于特殊应用的节能想法。

杜治娟 (Web Group)

基于QA技术补全知识库
Abstract:
在过去几年中,大量的世界知识积累在公共可用的知识库,如Freebase,NELL和YAGO。 然而,尽管它们看起来巨大,但这些知识基础是非常不完整的。 在论文“通过基于搜索的问答(WWW 2014)的知识库完成”中,作者提出了一种利用现有的基于网络搜索的问答技术来有目的地填补知识库空白的方法。 特别地,对于每个实体属性,它们学习要询问的最佳查询集,使得搜索引擎返回的答案片段最可能包含该属性的正确值。论文还讨论了如何跨越 多个查询,最终返回每个属性的可能值的概率预测。


2016.12.15  会议地点:理工配楼一楼会议室

郝泽慧 (Web Group)

基于知识图谱的实体关系路径发现
Abstract:
在许多领域,寻找实体之间的关联关系是一种常见的需求,例如社交平台基于已有的关系网推荐朋友,国家安全部门需要掌握犯罪分子之间的关联,生物学家通过基因蛋白质疾病等对象之间关系发现病因研制药物。近年来Web上以图结构表示的数据越来越多,描述方法(如RDF)也越来越成熟,与从文本中提取相比,实体间的关联可以通过寻找图上的路径或子图来确定,实体关系发现变得更加自然。本次报告对比了一些成型的关系发现系统,同时介绍了一些生物医学领域的实体关系发现问题。


2016.12.08  会议地点:理工配楼一楼会议室

翁祖建 (Cloud Group)

ARM TCM的构建及SQLite数据库系统能耗优化
Abstract:
通过前期的实验发现在数据库应用的能耗当中,数据搬移的部分大约占据60%,而仅L1缓存的数据交换就占了其中90%。本次报告针对这一问题,提出相应的改进方案。总体思想即利用软件控制的ARM TCM来部分替代传统的由硬件控制的L1 cache,改进的目标为嵌入式系统当中流行的数据库系统SQLite。报告首先描述了硬件和软件环境的选择和构建,TCM的用户空间接口实现。接着针对SQLite的实现进行了分析,提出了热点数据结构、B树以及基本操作优化的初步构建和实现。实验结果与前一次报告的结论基本吻合。

叶青青 (Privacy Group)

隐私保护下的数据发布
Abstract:
当人们想对涉及个人敏感信息的数据进行发布和挖掘时,隐私是一个不可回避的问题。保护个人隐私信息的研究涉及了多个领域,包括计算机科学、统计学、经济学和社会科学等。报告主要介绍关于隐私保护下数据发布的研究问题。它主要回答了这么一个问题:诸如医院、政府机构或保险公司等这样的组织机构,如何在不泄露个人隐私信息的的情况下进行数据发布?


2016.12.01  会议地点:理工配楼一楼会议室

张祎 (Web Group)

基于知识库的关系提取初步调研
Abstract:
知识是当今信息时代中最特殊的一种数据,其往往表现为关系的形式。虽然知识很容易被人类理解,但由于事物之间的关系错综复杂,对其进行自动分析往往很难。因此,本报告基于当前文献和典型系统,分享几种基于知识库的关系提取技术以推动决策支持和科学研究。

朱敏杰 (Privacy Group)

手机隐私综述?评估APP隐私和用户隐私保护方法
Abstract:
随着手机APP的发展和其对用户数据的收集和滥用,手机隐私问题成为一大隐患。目前主要有三种方式分析手机隐私状况:权限分析、静态代码分析、动态分析。除此之外,基于权限和隐私条款的分析也用来评估APP的隐私泄露情况。为了保护手机用户的数据隐私,研究者们目前主要提出了三类保护方式:基于权限的拓展保护方式、发送匿名数据和局部差分隐私。


2016.11.24  会议地点:理工配楼一楼会议室

孙箐阳 (Web Group)

微生物领域自然语言处理-文本挖掘技术
Abstract:
随着生物医学信息的快速增长,单纯依靠人工阅读获取和理解所需知识变得异常困难,如何从海量生物医学文献中整合已有知识、挖掘新知识成为当前研究热点。文本挖掘能够帮助人们从大量非结构化、半结构化生物医学文本中挖掘提取隐含在其中的、人们事先不知道的,但又是具有潜在价值的信息和知识,现在它被广泛应用于生物医学研究。会议如BioNLP提出生物生物医学文本挖掘的任务,通过不同方法进行探索和实践,推动本领域研究的发展。本次报告主要介绍BioNLP历次报告中心,并以两篇论文为例进行阐述。最后提出自己的思路。

杨晨 (Cloud Group)

基于资源解耦的大数据系统量化方法
Abstract:
大数据系统是复杂的,且难以分析性能瓶颈。很多研究提出了许多模型的方法来识别性能瓶颈,但只能量化的部分组件的瓶颈,且容易出错。我们提出了一种资源解耦方法,系统地量化的主要组件的瓶颈。我们做了以下工作:(1)提出了四种定量方法解决CPU、内存、磁盘和网络瓶颈;(2)我们提出一种理想的加速量化非CPU组件的最小加速度的潜力;(3)我们开发一个工具来监控性能事件,以交叉验证性能瓶颈的序,找出细粒度的原因;(4)利用Spark作为大数据系统的一个例子,并使用两个SQL Benchmark评估其性能。


2016.11.17  会议地点:理工配楼一楼会议室

王春凯 (Cloud Group)

CIKM2016参会报告
Abstract:
25届信息与知识管理国际会议(CIKM2016)于2016年10月24日--10月28日在美国印第安纳波利斯圆满举办。此次会议共收到research paper投稿935篇,其中160篇被接收为长文(长文接收率22.8%),55篇被接收为短文(短文接收率23.5%)。此次会议日程丰富,共有3个keynote,7个tutorial,4个industry talk,和50个paper session。 。

王硕 (Web Group)

深度学习与自然语言处理中的若干问题
Abstract:
自然语言处理问题由来已久,早期多是基于规则的方法,但是真正有效的处理语言是从2000年之后,这主要是因为基于统计的自然语言处理技术的兴起。经过了十多年的发展,随着大数据技术的出现和发展,海量数据的获取不再是难题,新的深度机器学习方法首先在语音和图像两个领域取得了突破,自然语言处理也自然加入到这项新技术的变革之中。深度学习技术开始应用在自然语言处理中的诸多问题上,比如词的表示、情感分类、实体抽取、关系抽取、阅读理解、看图说话等方方面面,在很多问题上已经优于基于统计的方法了。本次报告就从以上问题中选取若干出来并结合上最新的深度学习方法来进行初步的探讨。


2016.11.10  会议地点:理工配楼一楼会议室

忻日辉 (Cloud Group)

URMDA:用于诊断Spark的性能瓶颈的系统
Abstract:
:本文演示URMDA的诊断Spark的性能瓶颈。 我们实现资源解耦方法来量化主要组件的瓶颈,包括CPU,磁盘,网络和内存,以及构建一个细粒度的监视器来做Spark的深度分析通过与几个分析相结合来实现性能瓶颈功能。 我们演示URMDA使用两个SQL基准,并得出如下结论。 (1)网络很可能瓶颈尤其是当带宽为100Mbps时。 (2)CPU总是主要的瓶颈。 (3)内存中的Spark是不如官方宣传那么快,因为缓存不足操作。

郭豫龙 (Web Group)

数据可视化技术应用与研究
Abstract:
数据可视化技术应用需求的增长和用户的不断扩大推动了新的可视化技术应用工具和平台的发展。在追溯数据可视化的概念缘起与发展历程基础上,着重分析了数据可视化技术应用的发展趋势,并对目前出现的若干种数据可视化技术应用的新技术工具和服务平台加以功能分类和比较,归纳出主要的功能类型,分别是呈现多维内容信息的可视化新应用、揭示数据关联趋势的可视化新服务、有助于发散形象思维的可视化新工具和提供社区交流空间的可视化新平台。


2016.10.27  会议地点:理工配楼一楼会议室

秦楷迪 (Privacy Group)

差分隐私demo系统演示
Abstract:
差分隐私是对数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或者不在数据集中,对计算结果的影响微乎其微。所以,一个记录因其加入到数据集中所产生的隐私泄露风险被控制在极小的、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息,这次报告内容为隐私保护模型系统模型实现。

郭胜娜 (Privacy Group)

差分隐私保护数据挖掘
Abstract:
我们解决正式的隐私保障数据挖掘问题,给出了基于微分隐私框架数据访问接口。微分隐私要求的计算是在任何特定的个人记录的变化不敏感,从而限制了数据泄露的结果。隐私保护接口,确保无条件的安全访问的数据,并不需要从数据挖掘任何专业知识的隐私。然而,正如本文中,利用一个原始的接口来构建隐私保护的数据挖掘算法可能会导致劣质的数据挖掘结果。我们解决这个问题,考虑的隐私和算法的要求,同时,专注于决策树归纳作为一个示例应用程序。隐私保护机制对由数据挖掘者选择方法的性能产生深远的影响。我们证明这个选择可以作出准确的分类和一个完全无用的人之间的区别。此外,一种改进的算法可以实现相同的水平的精度和隐私作为天真的实现,但与一个数量级较少的学习样本。


2016.10.20  会议地点:理工配楼一楼会议室

杜治娟 (Web Group)

知识图谱的循环嵌入表示
Abstract:
嵌入表示技术为知识图(KG)上的机器学习提供了便利,其将实体和关系解码为连续向量空间,然后拟合<实体,关系,实体>三元组。然而,KG嵌入模型对不频繁的对象和不确定的对象敏感。此外,学习能力和学习成本之间存在矛盾。为此,我们提出循环嵌入(CirE)来学习完整KG的嵌入表示,它可以准确地建模各种对象,节省存储空间,加快计算,易于训练和易于扩展到非常大的数据集。我们有以下贡献:(1)通过结合全息投影和投影度提高各种对象的建模和学习的准确性。 (2)通过采用循环矩阵作为从实体空间到关系空间的投影矩阵来减少参数和存储。 (3)通过针对各种对象的自适应参数更新算法动态变化学习时间,加速收敛并减少训练时间。 (4)通过快速傅里叶变换(FFT)加快计算并增强可伸缩性。广泛的实验表明,CirE在链接预测和实体分类中优于已有方法,证明了效率和CirE的可扩展性。

王春凯 (Cloud Group)

OrientStream:一种分布式数据流管理系统的动态资源分配框架
Abstract:
分布式数据流管理系统(DDSMS)常常由上层的关系查询系统(RQS)和下层的流处理系统(SPS)构成。当用户提交查询到RQS时,查询计划被转成运行在SPS之上的有向无环图(DAG)。根据不同的查询需求和数据流的属性,SPS需要配置不同的部署策略。然而,如何动态预测SPS的配置属性以进一步提高处理的吞吐率并降低资源的使用效率是一个大的挑战。本文使用增量机器学习技术,提出了一种分布式数据流管理系统的动态资源分配框架OrientStream。通过引入数据层,查询计划层,算子层和集群层等四层的特征抽取机制,并使用不同的查询任务构建训练集来预测资源的使用情况,并选出最优的配置方案。我们以Storm作为SPS的实验平台,实验表明,OrientStream可以降低8%-15%的CPU使用率和38%-48%的内存使用率。


2016.10.13  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

智能存储
Abstract:
随着物联网、社交网等技术的发展,每天都会产生海量的数据,如何能存储和处理这些数据是迫在眉睫的问题。而当今客户对于海量的数据要求实时的反馈。传统的基于CPU-内存-磁盘的体系结构已经不能满足数据存储和处理的需求,需要一种新的体系结构。本报告介绍把计算移近存储,使存储智能化的体系结构极其实例。

郝泽慧 (Web Group)

训练大规模神经网络语言模型的策略和经验
Abstract:
神经网络因其在图像音频等领域突破性的表现,也被学者广泛运用到自然语言处理领域,得到了一些不错的结果。想要通过神经网络得到准确率高的语言模型,通常要在大量文本上训练,又因为神经网络需要根据不同应用场景,反复调整参数才能找到最好的模型,训练过程非常耗时。本次报告从训练文本、循环次数、词汇表、隐藏层等角度,结合训练RNNLM模型的经验,分享了一些训练大规模神经网络语义模型的策略,以供大家借鉴。


2016.9.29  会议地点:理工配楼一楼会议室

任玮 (Cloud Group)

基于两级缓存结构的天文大数据分析框架
Abstract:
本次报告介绍一种用于处理GWAC天文大数据的原型系统设计框架。不同于第一版本的两层分析框架,新框架为三层结构,以满足新的性能需求。第一层本地内存缓存,做突变检测,毫秒级别,第二层分布式内存系统,做短时标瞬变源发现,秒级别,第三层分布式数据库,做离线分析和long term storage,分钟级别。

李进 (Web Group)

基于知识库的单一关系问答
Abstract:
单一关系问答是搜索和社区问答中最常见的问题。把Question转换成KB query后,知识库(KB)如Freebase和DBPedia可以帮助回答这样的问题。然而,自动把Question 转换成KB Query是一个具有挑战性的任务。本次报告将会介绍这一领域的最新进展。


2016.09.24  会议地点:理工配楼一楼会议室

翁祖建 (Cloud Group)

数据库应用中的数据搬移问题
Abstract:
数据从内存移到处理器当中的能耗是处理器计算能耗的200倍,而随着CPU速度的提升和内存发展的相对停滞,这种差距还会越来越明显。因此在大数据应用,特别是数据库应用当中,可以预见的是数据从内存搬移到处理器的能耗开销会越来越大。而具体的开销目前并没有人进行量化的评估,因此我们首先量化分析了数据在各级内存之间移动的单位能耗开销,在此基础上,分析了PostgreSQL数据当中基本操作以及TPC-H查询的能耗。为了找到数据库应用的能耗瓶颈,对比分析了CPU2006典型基准测试集的能耗,发现在数据库应用当中,L1 cache是能耗的瓶颈所在。针对这一发现,初步设想了从软硬件层面改进的思路,总结了SPM( scratchpad memory )的用法,并提出了针对数据库基本操作的改进方法。

叶青青 (Privacy Group)

基于差分隐私的列计数数据发布
Abstract:
列计数数据的发布是一个较新提出的问题,这类统计数据有着广泛而重要的应用,包括贸易、交通和医疗等领域的数据分析。该问题最大的挑战在于其高度敏感性,为使其满足差分隐私,则需要加入很大的噪声。GS方法最早被提出,其首先对计数值取均值进行分组和平滑操作。分组策略主要是基于采样机制,最小化平滑的噪音。DPSence和DPSense-S是针对高维数据列计数值发布的最新方法,其核心思想是通过设定阈值降低元组对敏感度的影响。


2016.06.24  会议地点:理工配楼一楼会议室

李进 (Web Group)

MonetDB简介
Abstract:
MonetDB由荷兰CWI 2002年推出,是当前性能最好的列存储数据库之一,在OLAP分析、GIS和data mining中有很多应用。本次报告先介绍MonetDB提出的背景,其架构和BAT代数,然后对其所采用的典型技术,如Late Materialization,Database Cracking 和Hardware-Conscious Query Processing进行详细介绍,以便大家对其有更深入了解。

杜治娟 (Web Group)

运用谷歌 BigQuery 与 TensorFlow 做公共大数据预测
Abstract:
谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对特定商业应用的模型,预测用户需求。本次报告简单介绍BigQuery、TensorFlow的相关知识和应用案例,主要是为大家带来信息、提供学习资料。


2016.06.20  会议地点:理工配楼一楼会议室

秦楷迪 (Web Group)

开发PINQ演示系统
Abstract:
PINQ是类似LINQ接口的数据集隐私计算集合,它可以对数据集进行查分隐私加噪。基于上述方法,在本学期开发了一个PINQ演示系统。

王硕 (Mobile Group)

ICDE2016&XLDB2016参会报告  [ppt]
Abstract:
王硕就这次参加ICDE2016和XLDB2016会议做参会报告


2016.6.3  会议地点:理工配楼一楼会议室

王璐 (Web Group)

利用DataLawyer实现数据使用策略的自动识别
Abstract:
因商业分析和研究目的,数据越来越多的被用于交换。然而,数据使用策略限制了数据的使用。目前只有少量的特定方法来执行这些数据使用策略。新提出的DataLawyer方法,可以形式化具体的数据使用策略,并在DBMS查询执行时自动检查。


2016.5.27  会议地点:理工配楼一楼会议室

汪凤鸣 (Cloud Group)

猜测数据集中的极值:一种基于贝叶斯的方法及其应用
Abstract:
对于大多数的数据管理问题,获取数据集中的一些样本可能会很有用,并且可以使用这些样本来猜测整个数据集中的最大值或者最小值。Max/Min在线聚集,Top-K查询处理,异常值监测,以及距离连接都是一些可能的应用。本次报告的方法详细说明了一种严格的统计,即贝叶斯的方法来解决这个问题。同样重要的是,通过展示数据管理场景下的四个具体问题使用该方法的效果来证明该方法的有效性。

王春凯 (Cloud Group)

一种多分组查询的数据流划分方法
Abstract:
在数据流实时查询和分析的应用中,数据汇总的信息对用户至关重要。多分组查询被广泛地应用于分布式数据流管理系统中。与已有的数据流划分方法相比,本报告通过构造基于网络传输的代价模型,和设计基于数据相关性的动态调整策略,试图构造一套完整的包含编译时查询优化和运行时查询优化的数据划分策略。


2015.05.20  会议地点:理工配楼一楼会议室

杨晨 (Cloud Group)

批处理分布式计算框架的性能分析之I/O篇
Abstract:
随着互联网等信息技术的不断发展,人类社会的数据量以惊人的速度在累积。以Spark为代表的分布式计算框架成为主流,其上基于日志、源码和Java虚拟器的性能分析研究日趋增多,本研究从体系结构角度出发,重点研究集群抽象、CPU-bound定量、I/O性能模型等问题,力图为相关研究者提供借鉴。

郭豫龙 (Privacy Group)

区块链技术发展现状与展望
Abstract:
区块链是随着比特币等数字加密货币的日益普及而逐渐兴起的一种全新的去中心化基础架构与分布式计算范式,目前已经引起政府部门、金融机构、科技企业和资本市场的高度重视与广泛关注.区块链技术具有去中心化、时序数据、集体维护、可编程和安全可信等特点,特别适合构建可编程的货币系统、金融系统乃至宏观社会系统.


2016.05.13  会议地点:理工配楼一楼会议室

叶青青 (Privacy Group)

隐私数据发布
Abstract:
关于隐私数据的发布问题是目前大量研究的热点,现有基于差分隐私保护的技术也无法有效解决高维度数据的发布,主要是因为发布高维数据时需引入大量噪音,这将使得数据的可用性大大降低。针对这个问题,文章提出了基于差分隐私的方法PRIVBAYES,很好地处理了高维数据发布的问题。方法构建了贝叶斯网络进行数据发布,其构建的过程进行了充分的隐私考虑,使隐私信息得到保护。同时,考虑到互信息敏感度较大的问题,文章引入了一个新的函数用于替换了互信息的计算,使得最终构建的模型更加准确。

忻日辉 (Mobile Group)

分布式大数据管理监控平台
Abstract:
近年来,大数据管理系统的发展趋势主要形成了三个方向,一种是以 Hadoop 和 MapReduce 为代表的批处理系统,另一种是以Storm为代表的,为各种特定应用开发的流处理系统,最后一种是最近兴起的混合式计算模式的spark系统。这些分布式的大数据管理系统给我们带来了高速处理海量数据的能力。如何提升这些平台的性能成为大家探讨的话题。为了能够监测分布式的大数据管理系统的性能,UC?Berkeley?开发了开源工具ganglia。但是它只能提供非常粗粒度的监控(例如,CPU利用率),无法满足我们的要求。如何细粒度地监测大量的运算节点,从而发现系统性能瓶颈成为一个迫切需要解决的问题。为此,在本文第二部分,我们构建了一个分布式的大数据管理系统监测平台??FGMP,它可以给用户带来如下便利:(1)便捷地在大量节点上部署大数据管理系统;(2)根据集群硬件资源自适应调整监控方案;(3)调节各个节点的CPU频率;(4)通过web服务远程提交任务给大数据管理系统运行(5)细粒度的(进程级别)监控系统性能。


2016.05.06  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

走近科学数据管理
Abstract:
随着云计算技术的兴起,商业和政府领域的数据借助云计算大大缩短了运行时间。然而,在科学研究领域,每天也会产生大量的数据,而且数据量往往比商业领域还大,那么如何对科学研究领域的数据进行管理?本报告讲述了科学数据管理的挑战,以及云计算是否适合科学数据管理和Jim Gray提出的科学数据管理的构想。

李进 (Cloud Group)

基于Caffe的神经网络处理器优化
Abstract:
深度学习网络在图像分类、语音识别和自然语言处理领域取得了极大的进展。本次报告先介绍了深度学习的基本概念和深度学习框架Caffe,然后详细介绍了Caffe和深度学习处理器的整合优化以及未来的工作。


2016.04.22  会议地点:理工配楼一楼会议室

李勇 (Web Group)

计算社会科学简介
Abstract:
本讲座介绍一个正在涌现的研究领域---计算社会科学(CSS),CSS以前所未有的方式不断增强了人类收集和分析数据的宽度、深度和广度,它有助于发现人类个体或群体行为的模式。CSS的发展和其他新兴交叉学科也息息相关,这就需要提出一种新方式来培养新的学者,CSS的发展初期,需要拥有社会科学家和计算机科学家一起努力,但长远来看,这个问题将取决于学术界决定是否应该培养CSS学家,或者计量文献社会科学家和社会文献计算机科学家团队。


2016.4.15  会议地点:理工配楼一楼会议室

郭胜娜 (Privacy Group)

免费的代价
Abstract:
应用程序广告是免费移动应用的重要的组成部分,表面上来看,它会创造一个双赢的局面,其中应用开发者可以在不向用户收费的情况下从他们的软件中获利。然而,应用程序广告中广告网络利用个性化来提高广告投放的有效性或是利润。这需要服务个性化广告,反过来促使广告网络收集用户的数据和配置文件。因此,免费应用程序只是在金钱方面提供免费,他们带来的是潜在的隐私代价。问题就是,用户提供了多少数据,以支付免费软件呢?


2016.4.8  Venue: FL1, Meeting Room, Wing Building for Science Complex

Yanjun Fu (Cloud Group)

Analysis of OpenStack's architecture and revolution
Abstract:
Openstack is a by NASA and Rackspace, developed and launched by the cooperation of Apache license authorization free software and open source projects.By several major components together complete the specific work.It supports almost all types of cloud, the project goal is to provide implementation is simple and can be large-scale extension, rich, standard unified management of cloud computing platform.It through a variety of complementary services provide the infrastructure as a service (IaaS) solution, each service provides the API for integration.It is a to the construction and management of public and private cloud to provide software open source project.Its community with more than 130 companies and 1350 developers, these organizations and individuals will it as infrastructure as a service (IaaS) general front end of resources.It project's first priority is to simplify the deployment process of cloud and bring its good extensibility.

Zhijuan Du (Web Group)

An Axiomatic Approach to Link Prediction
Abstract:
The evaluation of link prediction functions has mostly been based on experimental work, which has shown that the quality of a link prediction function varies significantly depending on the input domain. There is currently very little understanding of why and how a specific link prediction function works well for a particular domain. The underlying foundations of a link prediction function are often left informal—each function contains implicit assumptions about the dynamics of link formation, and about structural properties that result from these dynamics. So the paper presents an axiomatic basis for link prediction. This approach seeks to deconstruct each function into basic axioms, or properties, that make explicit its underlying assumptions. This framework uses “property templates”.


2016.03.25  会议地点:理工配楼一楼会议室

叶青青 (Privacy Group)

隐私与人类行为
Abstract:
2015年《Science》上的专刊《The end of privacy》,讲述了隐私相关的一些问题。从隐私和人类行为关系的角度来看,可以归纳出以下三个方面的特征。不确定性:个人的隐私相关的行为表现和个人隐私偏好方面的不确定性;情境相关性:个人隐私偏好随周围环境变化;隐私偏好的可塑性:存在很多的因素会激发或者抑制关于隐私的担忧,反过来这些关于隐私的担忧又将直接影响到人们的行为表现。人类行为表现中含有很多敏感的信息,了解其中涉及的隐私问题可以更好地利用这些数据,发挥其数据的价值。通过对110万的信用卡交易数据进行统计,发现仅利用时空数据就能够重新标识其中90%的用户,若再加上相应的金额数据,重新标识用户的概率将平均提升22%。

王春凯 (Cloud Group)

分布式数据流处理系统性能分析
Abstract:
大数据时代下,随着开放式计算平台的的逐步兴起,出现了分布式数据流处理系统,用于处理分散且不断增加的流数据。针对用户提交的查询任务,流处理平台往往将查询计划转换成DAG图进行分解和处理。本报告以Storm为处理平台,根据不同类型的benchmark,分析Storm在不同数据流速和不同并行度配置下的资源使用情况以及相应的处理延时和吞吐率等指标。为进一步细粒度分析storm的调度机制和系统瓶颈打下基础。


2016.03.11  会议地点:理工配楼一楼会议室

李勇 (Web Group)

中美两国在线用户集体注意力流的可视化
Abstract:
随着互联网的快速发展,信息过载已成为一个很严重的问题,在线用户的集体注意力将扮演一个越来越重要的角色。知道集体注意力在不同站点间是如何分布是了解在线注意力动力学的重要一环。本讲座中,我们介绍了一个新方法,通过流距离将大量站点嵌入到一个高维欧氏空间,这个方法即考虑了站点间联系的拓扑结构,也考虑到了用户集体的点击行为。通过这种几何表示,我们将美国Indiana大学和中国在线用户的点击流数据进行了可视化对比。

翁祖建 (Cloud Computing)

通过自适应调整Storm参数实现集群资源的有效利用
Abstract:
Storm 是一个流行的实时流处理系统,应用于包括实时分析、日志处理、预警等场景中。但是,在使用Storm运行任务(Topology)的时候,需要提前指定许多参数,并且这些参数在任务运行中是不可变的。这就导致Storm无法适应流速动态变化的场景,进而产生资源的浪费或者无法提供满足要求的吞吐量。为了解决这个问题,本次组会介绍了一种能够根据流速特点动态改变Storm参数的系统AdaStorm。这个系统旨在能够使用尽可能少的资源来满足流处理的需求(提供低延时和满足要求的吞吐量)。我们采用的方法是定期收集Storm运行时的参数,得到训练样本,训练出能够对资源、吞吐量和延时数据准确预测的模型,每当需要改变配置的时候,就能够从模型中得到最优参数设置。我们实验表明了使用AdaStorm能够节约大约15%的CPU和60%以上的内存。


2016.3.4  会议地点:理工配楼一楼会议室

王硕 (Web Group)

通过概率程序归纳达到人类水平的概念学习
Abstract:
人类常常只需要从一个简单的示例就可以成功地学习一个新的概念,但是几乎机器学习中的所有典型方法都需要成千上万样例来做到接近人类的准确水平。相比于这些传统算法,人类可以将自己学习到的概念运用地更加丰富灵活,比如在动作、图像和解读等方面。参考文献[1]给出了一个计算模型来达到等同于人类的这种学习能力,尽管类别数量很大,但它还只能应对简单的视觉概念??手写字符识别。该模型通过运用贝叶斯法则来更好地解释观察样本所代表的概念。

郝泽慧 (Web Group)

基于语言模型概念化的定义排序
Abstract:
Question Answering系统目前是互联网搜索领域的一个热门问题,其中"what"是Q&A系统中最常见的问题之一,为了增大覆盖面,我们从互联网上挖掘定义类的句子回答这类问题,但如何区分答案的好坏、对候选答案做出排序,还需要更好的评价方法。传统方法用SVM对定义做排序,但选取的特征都是基于句法的。即使通过语言模型增加语义特征,仍然存在问题。因此,我们在RNNLM的基础上加入conceptualization过程,把显式的语言模型(Conceptualization)与隐式的语言模型(RNNLM)结合起来,获取词汇与其定义之间的语义关系,提高准确率和召回率。


2015

2015.12.18  会议地点:理工配楼一楼会议室

秦楷迪 (Mobile Group)

隐私综合查询---一个用于保护数据隐私的可扩展的平台
Abstract:
PINQ是一个隐私综合查询数据分析(PINQ)平台,它是建立在C#语言基础上的集成查询(LINQ)。LINQ是一个新的C#语言扩展,它提供对数据的查询和操作。PINQ为分析师提供了一个编程接口,通过类似于sql语言查询数据。同时,PINQ对查询数据提供差分隐私保护平台。

王硕 (Web Group)

知识库与矩阵分解
Abstract:
随着语义网技术的发展,知识库或者说知识图谱技术迅速发展,与此同时知识库/知识图谱的自动构建受到了广泛的重视。尽管我们现有的知识库已经非常庞大,但是没有任何知识库可以说自己是完整的。大多数现在的知识库完备技术还是针对单一知识库中的推理过程,而且面临知识事实的稀疏问题。嵌入技术的发展和多知识库联合成为解决以上问题的方法,本次报告首先介绍嵌入技术的基础??矩阵/张量分解,然后是几个比较有代表性的方法(RSECAL、TRESCAL、Improving MF),最后做出总结和展望。


2015.12.11  会议地点:理工配楼一楼会议室

叶青青 (Privacy Group)

差分隐私下基于采样的高维数据发布
Abstract:
高维数据的发布技术使得很多的数据挖掘任务变得可行,然而,个人的隐私问题又成为了数据共享的一个阻碍。文章考虑了基于差分隐私的高维数据发布问题,并提出了保护高维数据的联合概率分布的方法。方法首先通过一个基于采样的健壮的框架,用于构建依赖图;而后从依赖图中识别出边缘概率分布的集合;最后根据连接树算法,在极小化方差的同时,近似估计联合概率分布。

郭豫龙 (Privacy Group)

GUPT:让基于隐私保护的数据分析更加容易
Abstract:
GUPT运用了一种新的关于数据敏感度的模型,它认为数据的敏感性会随着时间而降低。这意味着在保证全部隐私预算是一个恒定常数并且最大化每个应用效用的情况下有效的分配给不同的用户应用不同的隐私预算成为可能。GUPT还实现了在实现相同隐私等级的情况下提高输出的精度。这都使得GUPT在保证效用和隐私的情况下可以轻松的处理多种多样的数据分析程序。


2015.12.04  会议地点:理工配楼一楼会议室

李勇 (Web Group)

在线群体用户注意力流中的普适模式
Abstract:
如果将Web看作一个虚拟生命组织,根据生态学的新陈代谢理论,Web必须吸收“能量”来生长和演化。我们想知道:(1)Web所需的“能量”来自那里?(2)这些“能量”的普适模式是什么?我们推测,Web站点生存和发展所需的能量应来自于在线群体用户的注意力流。本文分析了从CNNIC获得的实证数据,发现了多个有意思的普适模式:异速标度律、耗散律、引力律以及Heaps律。这些普适模式证实了我们的推测,同时这些规律也将在Web演化的定量研究以及在线群体用户行为的预测方面起到重要的作用。

王春凯 (Cloud Group)

Storm和Spark的资源评估与性能分析
Abstract:
大数据时代下,为应对不同的数据处理模式,出现了大量的分布式数据处理系统。本报告重点针对流处理系统storm和混合处理系统spark进行相关分析。首先,由于Storm rebalance的局限性和无法适应数据负载的动态变化,我们设计了利用MOA框架构建预测模型,实现storm配置参数的动态优化。其次,针对spark系统,构建了性能分析平台,定量描述了spark的瓶颈所在。最后,总结和展望了今后的研究工作。


2015.11.27  会议地点:理工配楼一楼会议室

郭胜娜 (Mobile Group)

轨迹隐私保护
Abstract:
为了保护轨迹数据中隐私,大部分现存的方法采用隐藏技术来保护个人地理位置点或是聚类和扰动技术来保护整条轨迹。为了符合k匿名模型,他们首先分组位置或是轨迹,然后更改位置点来确保一个类中有k个位置点或是轨迹互相靠近。然而,当k增大或是轨迹的时间跨度变长,基于k匿名的聚类方法将会严重失真并导致错误的分析结果。通过观察可以看出,不需要野蛮的对所有的位置提供相同隐私保护水平。我们分析位于一个语义场所的地点以及周围语义场所的分布的访问状态,并基于隐私风险泄露判断四种隐私风险水平。我们提出了语义空间转移算法,根据更改(转移)位置来调整不同的策略,以便使得隐私保护数据利用有更好的平衡。

王璐 (Mobile Group)

WISE2015参会报告
Abstract:
王璐就这次WISE2015会议做参会报告。

符彦军 (Cloud Group)

深入解析Yarn架构设计与实现原理
Abstract:
带有 MapReduce 的 Apache Hadoop 曾经是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。不幸的是,这个生态系统构建于一种编程模式之上,无法解决大数据中的所有问题。MapReduce 提供了一种特定的编程模型,尽管已通过 Pig 和 Hive 等工具得到了简化,但它不是大数据的灵丹妙药。本次报告我将会给大家呈现一种由hadoop团队重新架构的统一资源调度与管理平台Yarn(Yet Another Resource Negotiator)。


2015.11.20  会议地点:理工配楼一楼会议室

叶青青 (Privacy Group)

关于相关型数据的贝叶斯差分隐私方法
Abstract:
差分隐私对于评价扰动算法的隐私提供了一个严格的标准。广泛认为,差分隐私在处理独立型和相关型数据时时提供了一个普遍的定义,以保护隐私免受任意对手的攻击。然而,目前有研究指出,对于相关型数据,差分隐私不一定能够保证隐私信息不被任意的攻击者所获取。文章主要关注相关型数据下的隐私扰动算法,并提出贝叶斯差分隐私,其中,对于相关型数据以及不完整先验知识的情况,概论扰动算法的隐私级别仍然可以衡量。

李进 (Cloud Group)

理解Spark核心概念-RDD
Abstract:
Spark是一个快速且通用的大规模数据处理平台,其核心概念为RDD(Resilient Distritubed Dataset)。本报告介绍了RDD的缘起、其特征、lineage机制、Fault-Tolerance机制以及通用性,以展现RDD的实现-Spark-的优势所在。


2015.11.13  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

浅谈如何利用闪存来减少系统能耗
Abstract:
随着云计算的发展,集群的规模越来越大,相应地集群所消耗的能量也越来越多,如何减少集群的能耗已经成为一个迫在眉睫的问题。而集群的能耗是由单机的能耗构成的,如果能降低单机的能耗就能减少集群的能耗。本报告简述了对计算机系统进行节能减耗的一些方法,同时重点通过两篇论文来讲述如何通过闪存来减少系统能耗。

王硕 (knowledge fusion)

生物医疗领域的实体连接
Abstract:
实体连接任务在新闻和社交媒体中已有了广泛的研究,但是这一问题在生命科学领域还没有引起足够的重视。下面介绍两篇关于该领域的实体识别和连接的论文。第一篇是通过对生物医学的文本进行的标准化处理来帮助识别实体,采用的方法是多路组合删选器,该方法具有简单和模块化的优点,标准化处理效果在两个标准测试集上取得了不错的效果。第二篇则是针对不需要大量标注的数据来训练,采用了无监督的聚集推理方法来计算表述与实体间的相似度并对候选实体完成排序,该方法对单词、句子和段落都进行了实验和分析,结合了文本和知识库的图结构分析,展示了一种有深度的分析和讨论。


2015.11.6  主题:自然语言问答

赵可君 (Web Group)

单关系自然语言问答的语义解析:一种Deep Learning的方法
Abstract:
自然语言问答中一个重要的问题就是进行语义解析,即将自然语言问题中提到的实体名对应到知识库中的实体(entity),并将问题中描述实体关系的自然语言表达对应到知识库中的关系(relation)。这个过程对自然语言问答的准确率和召回率都至关重要,然而至今仍没有得到很好的解决。本次Seminar介绍了一种基于深度学习思想对自然语言问题进行语义解析的方法。该方法使用卷积神经网络,将自然语言问题、知识库上的实体和关系都映射到语义空间中的向量,通过计算向量之间的相似度,从而将自然语言问题转化为结构化查询。该方法在开放领域的自然语言问答中取得了较好的效果,对开放领域的短文本理解、实体链接等问题有借鉴意义。


2015.10.30  主题:统一资源管理与调度平台

忻日辉 (Cloud Group)

spark和mapreduce性能对比
Abstract:
报告进入实验室以来,对spark和mapreduce平台所做的了解。主要内容是一篇介绍spark和mapreduce性能对比的一篇论文。该文指出,对于不同的任务,应该使用合适的架构,即mapreduce 或 spark。

符彦军 (Cloud Group)

统一资源管理与调度平台介绍
Abstract:
随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,Storm等各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方案如下:网页建索引采用MapReduce框架,自然语言处理/数据挖掘采用Spark,对性能要求很高的数据挖掘算法用MPI等。考虑到资源利用率,运维成本,数据共享等因素,公司一般希望将所有这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,这样,便诞生了资源统一管理与调度平台。本学期两次报告主要是报告资源调度系统,第一次从宏观上介绍它的发展历程,中间也会介绍其系统框架和设计原理,第二次报告从微观上介绍其实现原理,主要从代码层次讲述。本次报告的主要内容包括两篇论文来简单谈一下资源调度系统从二代到三代的渐变过程,以及mesos和Omega的设计框架,以及实验比较。


2015.10.23  会议地点:理工配楼一楼会议室

翁祖建 (Cloud Group)

针对Storm系统的若干工作
Abstract:
报告进入实验室以来,对storm系统进行的主要工作。首先介绍storm系统的特点,之后介绍利用ganglia和rapl对Linear Road Benchmark进行的围绕storm系统cpu和内存表现的测试。针对测试结果,介绍storm参数调优中的一篇工作,围绕这篇工作中存在的问题,提出利用机器学习方法解决参数调优问题的设想,并介绍特征的选取和如何进行样本采集。

郝泽慧 (Web Group)

基于联合RNNLM模型的定义挖掘方法
Abstract:
Question Answering目前是互联网搜索领域的一个热门问题,它可以直接回答用户的问题,而不是提供10个含义模糊的网页链接。"what"是Q&A系统中的一类常见问题,我们希望从互联网上挖掘定义来回答"what"类问题。传统方法用SVM对定义做排序,但选取的特征都是句法上的。即使通过加入word embedding特征从语义上理解定义,仍然会忽视了一些定义中的重要关系,如is-a关系。因此,我们提出了一个联合RNNLM模型,它把显式的模型(Conceptualization)与隐式的语言模型(Word Embedding)结合起来,获取词汇与其定义之间的语义关系。


2015.10.16  主题:隐私保护

王璐 (Web Group)

WISE2015会议预报告
Abstract:
王璐就这次WISE会议做参会预报告

郭胜娜 (Mobile Group)

溯源和隐私
Abstract:
溯源在科学工作流中是一把双刃剑。一方面,用于生成数据条目的模块执行的记录信息,以及系统参数和在模块传播之间的中间数据条目的记录信息使得结果透明性和可再现性。另一方面,科学工作流经常包含私有或是保密的数据和使用的特殊模型。因此,对所有工作流的溯源查询提供准确的信息会泄露信息。


2015.10.9  会议地点:理工配楼一楼会议室

汪凤鸣 (Cloud Group)

有限存储下一趟扫描计算近似中值及其他分位数
Abstract:
简要介绍能在一个单次处理中计算大数据集近似分位数的一些新算法。这个近似保证是正确的,并且应用于任意值分布和数据集的到来分布。主存储器的要求比现有的一些算法的要小一个数量级。除此之外,还讨论与随机采样方法相结合的情况,以进一步减少内存需求。通过采样,逼近保证是明确的但有概率,也就是说,它们适用于相对于(用户控制的)信心参数。

杨晨 (Cloud Group)

基于机器学习算法的Hadoop参数调优技术
Abstract:
Hadoop系统的参数配置和系统性能高度相关,可以利用机器学习算法学习该相关性,从而预测系统处理某一应用的运行时间,辅助参数调优过程。使用多种benchmark和系统软硬件配置参数组成特征向量,按该特征向量配置系统,运行后得到运行时间,多种不同的组合运行后得到特征数据集,最后使用分类算法在该数据集上学习系统行为模型。该模型主要有三个应用点:1.预测新配置的执行时间;2.异常执行检测;3.新系统下最小训练集估计。


2015.10.2  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

利用非易失存储器加速文件系统访问
Abstract:
随着社交网、电子商务等大数据应用的快速发展产生了海量的数据,大家都想着这些数据既能存储好同时又能快速访问。然而当前的数据处理都是基于CPU-内存-磁盘的体系结构的,CPU和磁盘的速度严重不匹配。新型非易失存储器具有非易失、访问速度快等特点,如何利用新型非易失存储器来提升磁盘读写速度?本报告介绍了两篇利用非易失存储器来提升文件系统访问速度的文章,根据文章实验结果,这些方法能明显提升文件系统访问性能,进而提高磁盘访问速度。

李和瀚 (Web Group)

基于一阶逻辑的关键数据问答方法
Abstract:
关联数据上的问答目标在于从结构化数据中获取答案。这一目标的关键在于将自然语言表述的问题转换为结构化查询。本报告介绍了一种经典的利用马尔可夫逻辑网络来解决查询转换过程中歧义性的方法及一套完整的查询转换框架。


2015.09.25  会议地点:理工配楼一楼会议室

杜治娟 (Web Group)

一种避免选择性估计的查询处理方法——Plan Bouquets
Abstract:
为了解决OLAP由于编译时选择性估计误差导致运行时选择不当的问题,文章提出 “bouquet”计划,这个计划就是在编译时完全避开了易错的选择性,取而代之的是在选择性错误空间上建立一组最优计划集,使得空间中每个位置上至少有一个子集接近最优选择。这样,在运行时,查询的实际选择性就可以通过bouquet计划的部分执行序列逐步发现。其中,部分执行的时间和切换是通过阶梯式递进的等成本曲面映射到最佳性能的方法控制。

王春凯 (Cloud Group)

深入浅出分布式数据流管理系统
Abstract:
大数据时代下,随着开放式计算平台的的逐步兴起,出现了分布式数据流处理系统,用于处理分散且不断增加的流数据。为构筑完整的分布式数据流管理系统,在处理系统之上出现了易于用户使用和提高查询处理能力的查询系统。本报告从流处理和流查询的两个方面,介绍了分布式数据流管理系统的产生背景和发展历程;并归纳、总结了分布式数据流管理系统的热点研究领域(如,查询语言、系统性能提升、构建新型体系结构等),最后指出了目前我们正在进行的研究工作和今后的研究方向。


2015.09.18  主题:在线用户行为演化动力学研究

李勇 (Web Group)

在线用户行为演化动力学研究:基于集体用户注意力流的视角
Abstract:
如果将虚拟世界的Web看作具有“生命”,能够生长、繁衍和发展,根据生态学的新陈代谢理论,Web必须吸收“能量”。基于这一视角,我们探讨如下两个问题:(1)Web所需的“能量”来自何方?(2) 基于这个“能量”,Web站点能否产生在整个Web上的宏观影响力?我们猜测Web依赖在线用户集体注意力流作为“能量”进行演化,并由此产生宏观影响力。数据分析的实证研究证实了这一猜测,进一步通过网络科学方法研究了在线集体用户行为,发现主导Web演化的规律与主导生命组织演化的新陈代谢规律惊人地相似。


2015.6.26  主题:新兴编程语言简介

王春凯 (Cloud Group)

新兴编程语言简介
Abstract:
随着移动互联网技术的快速发展,出现了适用于不同应用平台的新兴编程语言。本报告以新型数据管理系统中用到的相关语言入手,介绍了较流行编程语言的特点和适用场景。重点介绍了苹果公司新发布的Swift语言和谷歌公司新发布的Go语言。从两种语言的历史由来、语言特性、编译框架、性能对比等方面做了详细的分析和对比。最后,对新兴语言的硬件平台环境和特征分类等做了总结。


2015.6.20  会议地点:理工配楼一楼会议室

汪凤鸣 (Cloud Group)

Spark实战-深入浅出
Abstract:
Hadoop之后,Spark技术以其无可比拟的优势,发展迅速,成为替代Hadoop的下一代云计算、大数据核心技术。通过实战例子介绍Spark集群的构建,架构设计、内核剖析、Shark、Spark on Yarn和JobServer等。

杜治娟 (Web Group)

眼界-细节-高度
Abstract:
本次报告主要介绍两篇关于聚类的文章,这两篇文章的核心思想相似,实现细节、着眼点和写作手法具有差别,发表刊物截然不同,目的是为了通过对比的方法研读文章,并积累写作方法。


2015.6.12  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

SSD引入到Hadoop中
Abstract:
Hadoop是一个分布式处理系统,这个系统所基于的计算机的系统结构是Disk-DRAM-CPU,但是在这种系统结构中磁盘的速度和CPU的速度严重不匹配。SSD的访问速度比磁盘的快得多,因此把SSD引入到Hadoop中后会引发许多的问题。本报告介绍了两篇与此相关的论文,这两篇论文探讨了把SSD引入Hadoop中后SSD中应该存放什么,系统结构中应该有多少SSD等问题。

郭胜娜 (Mobile Group)

现实中KNN查询的位置隐私
Abstract:
在移动通信中,空间查询严重威胁用户的位置隐私,因为一个位置查询可能揭示了移动用户的敏感信息。提出了一个为移动用户在KNN查询时对位置进行隐私保护的解决方案。这一解决办法是建立在提供位置隐私和数据隐私的Paillier公钥加密的密码系统。


2015.5.30  会议地点:理工配楼一楼会议室

慈祥 (Cloud Group)

Phd"研磨记" [ppt]
Abstract:
本次报告主要跟大家分享一下读博以来看到的一些有意思的书籍.

赵可君 (Web Group)

短文本聚类方法
Abstract:
短文本分类或聚类是一个非常有意义而又极具挑战性的研究热点。传统的文本聚类采用向量空间模型来表示一段文本,由此带来许多不可避免的问题,如:数据的高维性、方法的可扩展性、向量的稀疏性等。同时,传统的K-means、HAC等聚类方法往往需要预先设定聚类个数,而且最终结果的可解释性也较差。本次报告讨论了几种短文本分类与聚类的方法,主要包括基于主题模型的方法、基于狄利克雷混合模型的方法以及基于本体的方法。


2015.05.22  会议地点:理工配楼一楼会议室

干艳桃 (Cloud Group)

PPT生动起来
Abstract:
PPT作为演讲过程中的一个重要工具,能够很好地帮助信息的准确传达。本报告主要介绍PPT的外在的手段,是从形式上对PPT进行美化和包装,如何让PPT变得生动起来。报告从PPT模板的选择、配色方案、字体设计等方面介绍了如何从静态效果上对PPT进行美化。另外,对比较常用的动画进行了示例演示,包括擦除、淡入淡出、自定义路径等。最后与大家分享了PPT制作的心得。

李和瀚 (Web Group)

长文本语义相似度度量方法
Abstract:
文本的语义相似度是自然语言处理领域最重要的研究课题之一,其成果广泛应用于搜索引擎、文本挖掘、推荐系统等诸多方面,本报告首先介绍了传统的基于词语相似度的文本相似度度量方法,在此基础上,介绍了基于深度学习架构的Word2Vec和Doc2Vec模型。


2015.05.16  主题:网络科学与复杂性科学

李勇  (Web Group)

专题讲座:复杂世界,简单规则----从网络科学到复杂性科学
Abstract:
在过去的二十年中,万维网的爆炸式发展为科学家提供了一个重要的复杂人工系统来揭示其普适模式和规律。本讲座中,先介绍了由Barabasi教授等人提出网络科学方法,它为揭示Web的结构、发展以及缺点提供了一整套研究工具。在此基础上,进一步介绍了复杂性科学领域的研究工作,包括复杂性科学的核心概念并分析了这一领域当前的最新研究成果。最后,介绍了我们团队在网络科学和复杂性科学领域的研究工作,包括在线注意力流网络的研究和Web站点异速标度率的研究。



2015.5.8  主题:DASFAA参会报告

DASFAA 参会者 (Mobile Group)

DASFAA 参会报告
Abstract:
王江涛,王璐和汪凤鸣就这次DASFAA会议做参会报告。


2015.04.25  主题:Bootstrap技术应用

干艳桃 (Cloud Group)

AQP系统与OLA系统中的Bootstrap技术应用
Abstract:
Bootstrap是一种基于蒙特卡洛模拟的统计估计技术,由于其统计分析过程只需进行简单的重复模拟,无需大量的复杂人工分析,且广泛支持多种聚集查询,故在近似查询AQP系统中有广泛的应用。本报告总结了近年来在基于大数据的近似查询处理系统中Bootstrap的相关工作:主要包括用作查询估计技术用以计算置信区间,或用作估计诊断技术用以判断查询估计是否可靠。并详细介绍了“Knowing when you're wrong: building fast and reliable approximate query processing systems”论文中的核心技术。另外,本报告还详细介绍了首次将Bootstrap引入在线聚集OLA系统中的一篇工作,“G-OLA:Generalized On-Line Aggregation for Interactive Analysis on Big Data”。最后进行了总结并就我们所研究的在线聚集场景中的数据倾斜问题,跟大家分享了最新的工作进展。


2015.4.17  主题:DASFAA参会预报告

DASFAA参会者

特殊专题:DASFAA参会预报告
Abstract:
王江涛,王璐就这次DASFAA会议做参会预报告。



2015.4.10  主题:云计算

王春凯 (Cloud Group)

分布式数据流实时查询处理
Abstract:
分布式环境下,为处理多数据流的密集型精准计算,可根据有向无环图(DAG)的执行模式设计不同并行优化策略。以STORM为测试平台,本报告分析了两种提高查询处理速度的处理策略,分别是:针对连续查询构建不同的并行计算度(dop)和批处理大小(bs),以及根据数据分布的特点,针对Join操作设计的算子内部的自适应操作算子。最后,对两种策略进行了总结,并分析了下一步的工作重点和研究计划。

汪凤鸣 (Cloud Group)

云环境中在线聚集存在的问题
Abstract:
大数据的出现给传统的数据管理技术带来了巨大挑战,随着数据量的极具增长,关系数据库领域的研究人员注意到了云环境下的在线聚集技术。在线聚集技术虽然能够很好的解决大数据的问题,但它同时也存在着一些问题,本次报告主要结合已经有的一些工作:云环境下Max/Min在线聚集技术研究、Top-K Online Aggregation in the cloud和data skew & data sampling等简要介绍云环境中在线聚集的关键问题和对应的解决方案。


2015.04.03  会议地点:理工配楼一楼会议室

郭志良 (Cloud Group)

利用SSD提升MapReduce性能的可行性调研
Abstract:
MapReduce是一种编程模型,用于大规模数据集的并行运算。本次报告分析了MapReduce程序在Map、Shuffle和Reduce阶段的I/O特性,并通过将磁盘或SSD作为存储介质下MapReduce性能测试探究利用SSD提升其执行性能的可行性。

李和瀚 (Web Group)

基于大规模知识库的近义词获取方法
Abstract:
基于语料的近义词发现是自然语言处理领域重要的研究课题之一,目前的主要方法有通过词语分布情况对不同的词构建词向量,再通过度量向量相似度获取词语之间的相似度,之后利用机器学习模型对词向量的计算结果进行过滤和重排,进而得到最终的近义词列表。报告对基于分布的词向量方法和重排方法分别进行了介绍。


2015.03.27  主题:内存管理

吴文妹 (Cloud Group)

PCM和DRAM构成的混合内存的有效管理
Abstract:
新应用和多核处理器的出现要求有比较大的内存,但是内存增大会导致系统消耗更多的能量。如何减少能耗呢?由PCM和DRAM构成的混合内存能有效减少能耗问题。本次报告介绍了两篇在混合内存有效管理方面的论文。

张榆 (Cloud Group)

Deep into Spark
Abstract:
Spark是一种并行内存计算平台,目前得到了工业界的广泛青睐。本次报告旨在介绍Spark的原理和功能、Spark生态圈的现状以及Spark的编程方法,并通过与MapReduce这种通用型并行计算框架进行比较,来展示Spark在大数据处理方面的优势和不足之处。


2015.03.20  主题:Web数据管理

李勇 (Web Group)

在线站点的影响力如何扩大?
Abstract:
大数据的可用,特别是用户在线冲浪记录的研究,使得可以定量研究用户在各网站间交互的长期、复杂模式。我们试图应用复杂带权网络和流网络理论来研究点击流网络,如果我们将用户的注意力当作能量流,则有理由相信在其它带权网络中发现的规律也同样适合带权点击流网络。通过分析集体注意力流的循环,我们发现在线站点的影响力与其用户的注意力流量呈线性关系,即注意力流量越大,站点的影响力越大。同时还发现,一个站点的总使用时间与其影响力呈亚线性关系,这与人们的直觉“站点吸引用户的时间越多,其影响力越大”不一致。。

赵可君 (Wen Group)

短文本上的实体识别与概念化方法
Abstract:
实体识别与分类是自然语言处理中的一大挑战。如何从纯文本中提取出实体对数据集成、信息检索、知识问答等系统都非常关键。现有的实体识别技术主要基于文本中的句法结构、词频和共现规律等,然而这些特征在诸如微博和搜索引擎查询这样的短文本上往往无法体现,因此传统实体识别技术在短文本上通常不能奏效。本次报告针对短文本上的实体识别与分类问题,对利用知识库与机器学习算法相结合的方法,提高短文本中实体识别与分类准确度的方法进行了研究。


2015.03.13  主题:MapReduce

张榆 (Cloud Group)

基于MapReduce的距离相似性连接查询
Abstract:
相似性连接技术是一种在数据分析处理中应用得很广泛的一种技术。目前,有很多论文提出了各种各样关于文本相似性连接查询的高效解决方案,却鲜有论文涉及度量空间中基于距离的相似性连接查询这个问题。本次报告将介绍一种利用网格划分技术和MapReduce来高效地处理基于距离的相似性连接查询的方法。

符彦军 (Cloud Group)

利用分布式内存缓解mapreduce阶段数据倾斜
Abstract:
在数据处理平台上,比如说mapreduce,数据倾斜是一个主要的问题,数据倾斜导致当内存装不下工作tasks时候,这个tasks就会被溢出到磁盘,这样会降低task和整体的运行效率。我们介绍这种SpongeFiles这种新型文件系统就是为分布式环境量身定做的,我们将溢出的数据按照顺序,分别放在本地内存,远程内存,本地磁盘,远程磁盘,从而充分利用整个集群的内存来处理数据,当然其带路的整体效率也是非常之高。


2015.01.20  会议地点:理工配楼一楼会议室

干艳桃 (Cloud Group)

在线聚集场景下的随机采样技术
Abstract:
在线聚集提供了一种能够根据样本数据快速获得聚集结果置信区间的方法,在大数据分析中具有重要的意义。为了保证估计结果的高准确度和置信区间的快速收敛,一个高效的随机采样方法不可或缺。本报告主要介绍了等概率采样的几种经典采样方法:包括简单随机采样、整群采样、分层采样即系统采样等;并介绍了如何在数据库中实现随机采样的一些技术以及COLA系统中针对单表和多表在线聚集问题所设计的采样技术;最后介绍了倾斜数据集上的采样方法。

张榆 (Cloud Group)

基于划分的文本相似性连接查询
Abstract:
文本相似性连接查询是空间文本相似性连接查询处理的一个重要方面。目前,关于文本相似性连接查询的解决方法有很多种,包括前缀过滤方法、基于编辑距离的划分方法等等。本次报告将介绍一种高效的基于划分的文本相似性连接查询技术,包括其实现原理和基于MapReduce的分布式实现方法。


2015.01.13  会议地点:理工配楼一楼会议室

吴文妹 (Cloud Group)

固态存储的未来
Abstract:
将内存扩展到更高密度时会带来一些挑战,那么如何应对这些挑战?本报告报告了来自微软研究院提出的一个假想系统的五种方案。

慈祥 (Cloud Group)

group-by 查询中的抽样问题
Abstract:
抽样是近似查询中的一种关键性技术。在常见的group-by查询中,低选择率等问题会导致“小组”问题的产生。“小组”问题都会导致传统的简单随机采样方法失效。本报告介绍了“小组”问题的产生以及若干解决方案。

汪凤鸣 (Cloud Group)

Storm核心技术解析
Abstract:
MapReduce, Hadoop以及一些相关的技术使得我们能处理的数据量比以前多很多。但这些数据处理技术都不是实时的系统,它们设计的目的也不是为了实时计算。没有什么办法可以简单地把hadoop变成一个实时计算系统,实时数据处理系统和批量数据处理系统在需求上有着本质的差别。缺少一个“实时版本的hadoop”已经成为数据处理整个生态系统的一个巨大缺失,Storm填补了这个缺失。


2015.1.6  主题:空间文本数据查询

张榆 (Cloud Group)

四叉树在空间文本数据查询处理中的应用
Abstract:
空间文本数据是指既含有文本信息同时也含有空间位置信息的一类数据。这类数据通常产生并应用于LBS服务中。目前关于这类数据的查询处理大多都是“空间查询技术+文本查询技术”的混合方案,因而空间查询技术和文本查询技术的选择是影响查询处理性能的关键因素。学术界对该问题一直高度关注,并不断有新的研究成果发表出来。本次报告将通过两篇论文来简要介绍四叉树这一种空间索引在空间文本数据查询处理中的应用。


2014

2014.12.30 会议地点:理工配楼一楼会议室

干艳桃 (Cloud Group)

流从哪里来?流向哪里去?——消息系统介绍
Abstract:
流数据处理作为现在很热门的研究话题,流的数据源包括:点击流数据、网络流量监测数据、传感器产生的数据、视频流数据等等。如何将流数据从数据源头注入到流数据处理系统中,消息系统起着至关重要的作用。本报告对比分析了现阶段比较流行的数据注入工具:FlumeScribeSqoopChukwaRabbitMQKafkaSpringXD,并对RabbitMQKafkaSpringXD进行了详细介绍。

李和瀚 (Web Group)

语义层次划分与知识库释义字典的建立
Abstract:
报告主要介绍了两个方面的内容,首先是语义层次划分的问题,即上下位关系的发现。之后结合近期工作,提出了在知识库上建立释义字典的需求,并结合上下位关系发现的方法,提出了有别于以往工作的字典建立方法。

2014.12.23 会议地点:理工配楼一楼会议室

李勇 (Web Group)

带权点击流网络的标度性研究
Abstract:
大数据的可用,特别是用户在线冲浪记录的研究,使得可以定量研究用户在各网站间交互的长期、复杂模式。构造了一个点击流网络,结点代表网络站点,边表示用户在站点间的转换行为,通过分析用户群体在站点间注意力转变的流量,发现站点的在网络中的影响力与其注意力流的转换有标度关系。

赵可君 (Web Group)

利用知识图谱进行实体解析:方法与挑战
Abstract:
Web上充斥着大量的自然语言数据,如何理解其背后的语义对诸如信息检索、数据集成等应用至关重要,其中一种重要的方法就是利用知识图谱来识别并解析Web上的文本。本次报告围绕这一研究热点,讨论了关键的挑战、现有的一些方法,以及未来的一些方向。



2014.12.16 主题:闪存

王江涛 (CloudGroup)

利用闪存扩展缓存提升数据库应用的性能
Abstract:
固态盘和磁盘在数据检索代价方面存在很大的不同,SSD通常可以有效地处理频繁访问的热数据,而HDD则可以处理访问频度不是很高的冷数据。利用SSD的高速随机访问性能可以减少内存和磁盘之间的性能差异。本次报告我们讨论了如何用SSD作为扩展缓存提升数据库系统的性能。

郭志良 (Cloud Group)

企业级闪存-最新发展及应用
Abstract:
相比于消费级闪存产品,企业级闪存更耐用、性能更高、寿命更长,写入性能和延迟抖动也表现很好。本报告介绍了企业级闪存的发展以及两款最新产品。


2014.12.09 主题:Web数据管理

吴文妹 (Cloud Data Management)

VLDB2014 概述
Abstract:
本次报告对VLDB2014做了个概述,包括3keynote和该会议所收的论文,并且挑了其中两篇论文。一篇论文提出了几种在持久化存储器上实现的排序和连接算法。另一篇论文探讨了非易失存储器的存储管理。

王璐 (Web Group)

位置数据发布中的唯一性隐私保护
Abstract:
在数据发布过程中,潜在的唯一性问题会暴露用户的个人信息、政治倾向等敏感信息给攻击者。在本文中,我们针对位置数据中的唯一性问题提出了保护唯一性的方法,因此防止了用户敏感信息的泄露。

杜治娟 (Web Group)

一种避免选择性估计的查询处理方法——Plan Bouquets
Abstract:
为了解决OLPA由于编译时选择性估计误差导致运行时选择不当的问题,文章提出 “bouquet”计划,这个计划就是在编译时完全避开了易错的选择性,取而代之的是在选择性错误空间上建立一组最优计划集,使得空间中每个位置上至少有一个子集接近最优选择。这样,在运行时,查询的实际选择性就可以通过bouquet计划的部分执行序列逐步发现。其中,部分执行的时间和切换是通过阶梯式递进的等成本曲面映射到最佳性能的方法控制。


2014.12.06 会议地点:理工配楼一楼会议室

符彦军 (Cloud Group)

R存储:一种支持实时分析的可扩展性分布式系统
Abstract:
为实现大规模数据处理,数据库系统一般被分为两类:OLTPOLAP系统。一般我们认为OLTPOLAP查询有不同的数据访问模式,实现需要和需求,因此OLTP查询和OLAP查询应该由两个不同的系统处理,数据间断性地从OLTP系统中经过一个ETL过程进入到OLAP系统里为了数据分析。但由于这个过程太慢,在大数据背景下,我们迫切的需要提供一种实时的OLAP查询支持。R存储就是当OLTP查询创造一个最新的版本时OLAP查询就能读到这个最新的数据。

郭志良 (Cloud Group)

内存数据库Redis-内部实现与应用
Abstract:
Redis是完全开源免费的,遵守BSD协议,先进的key-value持久化产品。它通常被称为数据结构服务器,因为值(value)可以是字符串(String), 哈希(Map), 列表(list), 集合(sets) 有序集合(sorted sets)等类型。


2014.11.29 主题:查询理解

李和瀚 (Web Group)

知识库上的查询理解
Abstract:
随着知识库的日益兴起,怎样更加准确高效的对其进行检索成为了一个重要的研究课题。这方面的课题主要面临三个挑战:(l)歧义性,(2)覆盖率,(3)规模增长。本报告从关键词查询和自然语言查询两个方面分别作了介绍,并对两种不同查询的理解方法做了总结和对比。


2014.11.18 会议地点:理工配楼一楼会议室

王春凯 (Cloud Group)

一种基于事态正相关性的自适应数据流划分方法
Abstract:
针对流式大数据处理中的数据划分问题,我们提出一种基于事态正相关性的自适应数据流划分方法。根据用户的查询请求,在编译时获得最大划分集合;在运行时通过计算数据的时态正相关性,进行划分码的合并;并通过基于密度的网格动态划分,提高该方法的健壮性。

王江涛 (CloudGroup)

利用smart SSD处理数据
Abstract:
SSD作为一种新型的存储设备已经广泛应用于各种存储系统。大规模数据处理中数据传输代价是制约系统性能的一大瓶颈。将计算下推到数据可以有效缓解上述压力。目前SSD的可计算能力不断增强,本次报告我们讨论了如何利用SSD的计算能力来提升数据处理性能。主要从外部排序和数据查询两个方面展开讨论。


2014.11.11 会议地点:理工配楼一楼会议室

王春凯 (Cloud Group)

数据流划分策略研究报告
Abstract:
为实时处理流式大数据,针对分布式处理平台而言,根据用户输入的不同查询请求,我们需对数据进行划分处理,从而可以提高系统的处理速度。报告中详细介绍了三种划分策略,分别是:针对感知查询的静态划分,基于时态近似依赖的动态划分,以及感知数据流间相关性的动态划分。最后,对各种策略的优缺点进行了总结。

王璐 (Web Group)

私有信息检索技术
Abstract:
这次报告主要介绍了几种利用私有信息检索技术保护强隐私的方法。


2014.11.02 主题:大数据挖掘与空间关键字查询

杜治娟 (Web Group)

微博大数据挖掘学习报告
Abstract:
本次报告主要从微博结构入手首先分析微博的内容和背景特征,进而得出微博数据的1H-2S-3M-4V特点;接下来主要从社会属性挖掘和内容挖掘两个方面分析目前的研究现状。最后根据微博数据的10大特点对微博数据挖掘的挑战性和社会需求引发的新问题进行了探索。

郭胜娜 (Mobile Group)

空间关键字查询
Abstract:
地理空间索引在空间关键字查询中发挥了重要作用。现有的地理文本索引并没有在相同实验框架下进行比较。这使得我们很难确定哪些索引技术能最好的支持特定功能。我们提出了一个标准,对这些空间关键字查询性能进行了比较。


2014.10.28 主题:Web数据管理

李勇 (Web Group)

基于小数据的人类在线兴趣长程演化研究
Abstract:
人类在线行为是一个复杂过程,常常依赖于兴趣,尽管当前在行为定向和用户兴趣挖掘方面有大量研究,但对于人类兴趣过程的本质规律却知之甚少.大数据的可用,特别是人类在线冲浪时留下的数据记录、电子商务记录、通讯记录等,使定量分析人类兴趣动力学成为可能.这些人类行为数据被称之为大数据时代的小数据,有助于揭示许多复杂的社会经济现象,并可应用于舆情监控、信息推荐等方面。本讲座中介绍了有关在线人类行为数据挖掘的一个新概念以及一些思考。这个新概念是:“small data”,在NIPS2013上由Deborah Estrin教授提出。我们的想法是通过这些小数据挖掘分析用户在线兴趣行为规律。

赵可君 (Web Group)

短文本理解研究
Abstract:
近年来,短文本理解成为一个研究热点。短文本,以查询、微博等为代表,因其通常缺乏完成句法结构和上下文等重要特征,给文本的语义分析、实体识别、关键词抽取和相似性度量等带来了新的挑战。本次报告围绕短文本理解的研究,对亟待解决的问题、面临的挑战以及主流技术等做了简单介绍,并介绍了一些相关的机器学习模型,也是本人在微软亚洲研究院学习期间的一个总结。


2014.10.21 主题:近期交流报告

张榆 (Cloud Group)

WI2014参会报告
Abstract:
14Web智能国际会议(WI2014)于2014811日至14日在波兰华沙圆满举办。此次会议共收到research paper投稿242篇,并接收了85篇,接收率为35.1%。此次会议共8keynote7tutorial4panel

李勇 (Web Group)

2014香港海量数据研讨会介绍
Abstract:
为进一步促进内地、香港的科研合作发展,国家自然科学基金委员会与香港中文大学于2014923-24日在香港联合举办学术研讨会,研讨主题定为:海量数据管理。本报告介绍了有关这交研讨会在大数据方面的一些新观点。

王春凯 (Cloud Group)

2014海量数据研讨会
Abstract:
介绍和展示2014(香港)海量数据研讨会的相关内容,并针对专题报告《One-Pass AUC Optimization》进行深入讲解。最后是照片分享。

王璐 (Mobile Group)

香港浸会大学交流汇报
Abstract:
主要报告了在香港浸会大学的研究进展和经历。


2014.10.18 主题:大数据管理——数据倾斜问题&统计推断

慈祥 (Cloud Group)

MapReduce系统中的数据倾斜问题
Abstract:
对于分布式架构的系统,数据倾斜难以避免。本次报告对MapReduce环境下,数据倾斜的基本定义、类型以及基本的处理方式进行介绍。同时会对近几年的相关文章进行总结。

汪凤鸣 (Cloud Group)

一种基于模拟的统计方法:Bootstrap
Abstract:
统计推断是一个十分复杂的课题,其中的一个困难就是,在实践中一个分布的某些除均值以外的特性是非常难估计的。随着廉价计算能力的出现,基于实验和基于模拟的统计分析方法随之发展了起来,从而简化了此种统计推断,其中比较广泛使用的方法就是这种基于模拟的统计方法Bootstrap


2014.05.30 主题:存储管理

王江涛 (FlashGroup)

SSD在不同数据负载中的作用
Abstract:
作为一种新型的存储介质,许多应用已经开始用SSD去替换磁盘,SSD与磁盘有着不同的I/O特性,引入SSD后,如何发挥SSD的特性成为制约系统性能的关键,我们分别从多租户技术和搜索引擎两方面介绍SSD对现有算法的影响。

赖文豫 (Flash Group)

PostgreSQL存储管理实现技术
Abstract:
PostgreSQL是一种非常先进的开源、对象关系型数据库管理系统。在这次报告中我们将会对PostgreSQL存储管理的实现技术做一定的介绍。


2014.05.22 主题:隐私保护

王璐 (Web Group)

用服务相似性来保护LBS查询的位置隐私
Abstract:
这篇论文提出了一个以用户为中心的LBS架构,允许用户在提交位置信息查询之前可以获知位置不精确度对服务质量的影响大小。同时,将其应用到本地搜索应用中。


2014.05.16 主题:短文本理解

赵可君 (Web Group)

短文本理解
Abstract:
自然语言处理一直是一个研究热点,尤其是语义挖掘,受到广泛关注。短文本因其缺乏语法和上下文信息,使用传统自然语言模型对其进行处理往往得不到好的效果。本次研讨会围绕这一主题,选取了近年来几篇相关工作,探讨这一主题的研究与发展。


2014.04.11 主题:Web数据管理

王璐 (Web Group)

利用数据划分面向效用的数据发布
Abstract:
对于数据发布的大多数工作中,都考虑发布统计值来保护敏感信息。我们考虑一种新型的数据发布方式。通过划分敏感数据,使得每个获得数据的攻击者无法推断出敏感信息。

王淼 (Web Group)

HTML5初探
Abstract:
HTML5的发展历史和一些有趣的属性


2014.04.04 主题:新存储上的数据管理

王江涛 (FlashGroup)

代价敏感的PCM数据管理 [ppt]
Abstract:
基于PCM的存储设备的高速发展引起了工业界和学术界的普遍关注,将PCM运用到现有的存储系统可以获得很好的性价比,我们的报告介绍了PCM存储在企业级数据管理的作用,分析了PCM对现有存储系统的影响。

郭志良 (Flash Group)

OceanBase简介
Abstract:
OceanBase 是阿里巴巴集团研发的可扩展的关系数据库,实现了数千亿条记录、数百 TB 数据上的跨行跨表事务。截止到 2012 8 月, OceanBase 支持了收藏夹、直通车报表、天猫评价等 OLTP OLAP 在线业务,线上数据量已经超过一千亿条。本报告对OceanBase架构和实现技巧进行了介绍。


2014.03.28 主题:RDF存储及查询简介

李和瀚 (Cloud Group)

RDF存储及查询简介
Abstract:
RDF是一个为了促进网络资源的自动化处理而设计的综合性的资源描述框架,近年来再工业界已经有了广泛的使用。虽然其本身的三元组结构简单易懂,但对RDF的研究可以衍生出很多方面的问题,如基于关系数据库的RDF组织方式、RDF图上检索算法的研究等,都是近来比较热点问题,本报告对RDF的背景知识、以及分别基于关系数据库、三元组、图的组织和查询方式做了大致介绍。


2014.03.14 主题:Web数据管理

李勇 (Web Group)

Web用户在线行为数据挖掘
Abstract:
用户在线行为信息在个性化Web应用中有很重要的作用,但通常获取这些信息比较难。介绍了两个算法,基于用户浏览Web页面的行为数据,预测其人口属性信息。

马如霞 (Web Group)

深层网络真值发现
Abstract:
Web上通常有大量信息但是它们常常不准确。不同信息来源发布的信息准确度不尽相同。对于用户来说,判断数据是否为真是一件不太容易的事情。最近在事实和数据源可信性方面已经有了大量的研究工作,本报告针对其中存在的一些问题进行了分析和整理。


2014.03.07 主题:大数据管理——流数据&极值理论

王春凯 (Cloud Group)

数据流处理语言介绍
Abstract:
近年来,随着流数据应用的不断增加,针对不同平台的流数据处理语言也应运而生。本次报告主要介绍了四个流数据处理语言:Stanford-CQLIBM-SPLStreamBase-StreamSQLDBT-SQL,并对其进行了对比说明。最后,阐述了实验室正在开发的PQSAL的架构与面临的挑战。

慈祥 (Cloud Group)

极值理论简介
Abstract:
传统的统计学更关注于数据中大部分数据所符合的规律,但是在很多实际的应用中,数据中的长尾部分,也就是占比很小的那部分数据却有着更大的价值。极值理论就是从这一类问题出发,对数据集中的极值数据进行分析。本报告对这一理论及其应用进行了简单的介绍。


2014.01.10 主题:Web组系统调研报告

张啸剑、李勇 (Web Group)

graphlab + spark
Abstract:
本组报告,主要介绍了graphlabspark这两种系统,包括系统体系结构、功能模块、实现等。另外,对于相似的系统,我们给出了几组比较分析。

马如霞 (Web Group)

大规模图数据处理系统:pregel 和 Hama
Abstract:
随着大数据时代的到来,许多实际的计算问题都涉及到大图。虽然图的应用和处理技术已经发展了很长时间,但是随着信息技术的不断发展,各种信息以爆炸式增长,导致图的规模日益增长。这些图的规模给它们的处理带来了极大的挑战。本次报告主要介绍两个大规模图数据库处理系统:pregelhamma


2014.01.03 主题:移动数据隐私保护

王璐 (Web Group)

保护人类移动数据中的特征信息
Abstract:
粗粒度的数据集对于个人隐私的保护是不够的,因此需要新的技术来保护个人隐私。

2013

2013.12.27 主题:数据流处理系统介绍

王春凯 (Cloud Group)

数据流处理系统介绍
Abstract:
针对不同应用需求的数据流处理系统,本次报告介绍了四个应用较广的新型数据流处理系统。对每个系统的产生背景、架构、性能和特点等分别进行了说明,并通过对高可用性、负载均衡和可扩展性等方面进行了对比分析。


2013.12.21 主题:闪存及混合存储上的数据管理

王江涛 (FlashGroup)

代价敏感的混合存储数据管理 [ppt]
Abstract:
基于闪存的混合存储系统是一个研究热点,将闪存运用到现有的系统可以获得很好的性价比,我们首先介绍了基于闪存的扩展缓存系统的研究现状,然后提出了一个基于代价的混合数据管理策略。

郭志良 (Flash Group)

SSD上Bloom过滤器的改进
Abstract:
Bloom过滤器被应用在包括数据库管理系统在内的很多应用程序中。目前,它们大多存储在内存中,然而有限的内存空间限制了Bloom过滤器的大小进而引发高错误率。本次报告介绍了几种利用SSD扩展Bloom过滤器存储空间的优化技术。


2013.12.13 主题:Flash组系统调研报告

王江涛 (FlashGroup)

MongoDB调研 [ppt]
Abstract:
MongoDB是一个应用非常广泛的基于文档的非关系数据库,我们介绍了mongoDB的发展历史,详细描述了数据集群的设置,对mongoDB的自动数据分片、数据恢复、主从数据结点选举等方面做了详细的介绍。最后,将mongoDBMySQL以及巨杉数据库的性能也做了对比。

赖文豫 (Flash Group)

VoltDB简介 [ppt]
Abstract:
VoltDB是一种NewSQLogic的关系型数据库系统,它支持SQL访问同时具有高性能的事务处理能力。在这次报告中我们将会对VoltDB的特性和实现技术做一定的介绍。

郭志良 (Flash Group)

CouchDB调研报告 [ppt]
Abstract:
CouchDB是一个面向Web的数据库。它使用Json文档作为存储形式、HTTP作为APIJavascript作为文档查询语言。CouchDB能很好的应用在现代Web和移动应用中。这篇报告就介绍了CouchDB的一些关键特性和技术架构。


2013.011.29 主题:网络数据管理

张啸剑 (Web Group)

差分隐私下精确直方图发布方法
Abstract:
提出一种基于聚类的划分方法AHP,通过分析排序和过滤直方图计数有助于提升发布精度,引入满足差分隐私的升序排序与高通滤波机制。利用排序后的直方图,基于动态规划、经验值聚类以及贪心搜索机制,提出三种可用性驱动的有效聚类方法。

李勇 (Web Group)

一个图相似性算法及其在社会计算中的应用
Abstract:
结点一致的两个图相似性度量有广泛应用,介绍了当前一些图相似性算法,分析了它们在图的关键部分结点间链接改变时无法感知之不足。介绍了SDM2013提出的一个算法DELTACON,实验结果表明比现有的算法性能高的多。


2013.11.22 主题:分布式RDF数据库系统简介

张榆 (Cloud Group)

分布式RDF数据库系统Bigdata简介
Abstract:
Bigdata是一种可水平扩展的分布式RDF数据库系统,它能够运行在由大量普通机器所构成的集群之上,支持标准的SPARQL查询,并对PB级的RDF数据进行并发地高效处理。本次报告将简单介绍一下Bigdata系统,包括Bigdata的分布式架构、索引方法及其RDF数据库模式。

韩旭 (Cloud Group)

JVM介绍2
Abstract:
在上一次的JVM介绍中,我主要介绍了JVM的内存管理方法和垃圾回收的一些机制,同时也包括了一些参数的设置。这次主要讲述了在JVM中并发的实现机制和并发时的内存模型,结合实例介绍JAVA语言中并发的用法和需要注意的地方。


2013.11.15 主题:交互式环境下的实时分析处理系统

干艳桃 (Cloud Group)

CIKM2013参会报告 [ppt]
Abstract:
22届信息与知识管理国际会议(CIKM2013)于20131027--112日在美国旧金山圆满举办。此次会议共收到research paper投稿848篇,其中143篇被接收为长文(长文接收率16.86%),106篇被接收为短文(短文接收率29.36%)。此次会议日程丰富,共有4keynote9tutorial,10industry talk1panel52paper session

汪凤鸣 (Cloud Group)

交互式环境下的实时分析处理系统
Abstract:
实时处理必然是未来数据处理技术发展的一个趋势,它的实现方式是多样的,可以是精确的或者是近似的。不同的应用场景下可以选择不同的实现。


2013.11.08 大数据时代:图数据及流数据管理

李勇 (Web Group)

基于GPU的图挖掘综述
Abstract:
随着实时计算、高性能计算等市场需求的推动,GPU已从图形处理器发展到通用目的、可编程、高性能并行、多线程的多核处理器,具有强大的计算能力与较高的内存带宽。介绍了近年来基于GPU的图挖掘研究进展。

李和瀚 (Cloud Group)

流数据增量处理过程中的高效SQl编译方法
Abstract:
本次报告介绍了针对流数据增量处理过程的高效编译方法,即通过编译的方式对特定查询性能进行优化。


2013.11.01 主题:Web数据管理

王淼 (Web Group)

使用类SQL语言处理大数据
Abstract:
这个报告主要介绍了微软使用的一个大数据平台和处理这个大数据平台的类SQL语言。

赵可君 (Web Group)

关联实体识别
Abstract:
这个报告主要介绍了实体识别的两个相关研究,一个是一种关联实体识别的框架,另一个是在实体识别中加入虚假信息的一种敏感信息保护方法。


2013.10.25 主题:云数据管理

慈祥 (Cloud Group)

Hadoop的反思:纵向扩展还是横向扩展?
Abstract:
过去十年已经有大量的廉价集群被部署来做数据分析。工业界和学术界一般都认为通过增加机器来对集群进行横向扩展比通过增加配置来进行纵向扩展更适合这类应用。流行的数据分析框架比如Hadoop正是着眼于此。但是是否应该重新审视这个观点呢?在实际的数据分析中绝大部分情况下处理的数据都没那么多,因此完成可以在单台机器上处理完成,且效率更高。


2013.10.18 主题:闪存数据管理

王江涛 (FlashGroup)

利用基于SSD扩展缓存提高数据库的恢复性能 [ppt]
Abstract:
固态盘(Solide State Device,SSD)比磁盘有更好的数据访问性能,目前在数据密集型应用SSD受到了广泛的关注。然而,因为存储容量和价格等因素使得SSD不会完全取代磁盘.将二者混合使用可以获得较高的性价比,将SSD用做的内存的扩展缓存是目前的研究热点,报告介绍利用SSD的非易失性加速系统启动或恢复过程。


2013.10.11 主题:流数据管理

王春凯 (Cloud Group)

流处理系统简介
Abstract:
近几年来,随着大数据的兴起,针对流数据的快速处理和实时响应的应用越来越多。本次报告主要介绍流数据系统的发展流程和对几个重要系统的调研工作。

霍江涛 (Web Group)

基于时空事件流的共现模式发掘
Abstract:
随着移动定位技术的发展,大量的位置相关的设备也得到了广泛的应用,这些设备产生了大量的事件流数据,这些事件流数据不仅包含有时间信息,同时也包含有事件信息。本次报告主要介绍了从事件流数据中挖掘出时空共现模式所面临的主要问题和采用的新方法。


2013.06.28 主题:一种有效的基于新硬件的数据库系统的事务恢复模型

范玉雷 (Flash Group)

MixSL:一种有效的基于新硬件的数据库系统的事务恢复模型
Abstract:
事务恢复是数据库系统的一个重要组件,保证了事务原子性和持久性。首先,我们介绍了传统的WAL和影子页恢复技术。然后,本报告介绍了日志技术和影子页技术在基于闪存或者PCM的数据库系统中的实施和优化,并分析了其优缺点。根据MLC闪存和PCM的特性,我们提出了一种新的基于新硬件的数据库系统事务恢复模型,并对缓冲区管理策略、并发粒度、闪存空间利用率做了充分考虑。


2013.06.21 主题:云上的大数据管理

马友忠 (Cloud Group)

集合相似性连接综述
Abstract:
集合相似性连接是一项很重要的操作,有很多的应用领域。本次报告主要对现有的基于MapReduce的集合相似性连接算法进行了综述,分析了各自的优缺点,在此基础上,提出了一些新的想法。最后介绍了几个具有挑战性的工作。

张榆 (Cloud Group)

空间文本相似性连接
Abstract:
近几年来,随着智能手机和GPS的普及,空间文本数据的数量正在急速增长,基于空间文本相似性连接的应用也越来越多,与此同时,空间文本相似性连接技术的研究也受到越来越多的关注。本次报告主要介绍几个有关空间文本相似性连接的最新的研究工作。


2013.06.07 主题:SSD与微博数据管理

郭志良 (Flash Group)

利用SSD提升搜索引擎缓存性能
Abstract:
传统大规模搜索引擎用磁盘来存储索引、摘要以及文档等数据,性能受制于磁盘I/O存在的瓶颈。SSD作为新型二级存储介质,拥有随机读和顺序读延迟接近的特性。这篇报告分析了搜索引擎中的I/O模式和不同的Cache管理策略,并介绍了针对SSD、磁盘混合存储系统下的cache管理策略。

童薇 (Web Group)

走进微博
Abstract:
随着Web2.0的发展,涌现出新型的社交媒体--微博。本报告将介绍基于微博数据流的国内外最新研究动态。


2013.05.31 主题:闪存及网络数据管理

赖文豫 (Flash Group)

利用SSD来加速企业级应用
Abstract:
基于闪存的固态硬盘具有十分出色的I/O性能。随着固态硬盘容量的增加及价格的持续下降,越来越多得企业开始部署大量SSD来加速他们关键性应用。本次报告主要介绍几个利用固态硬盘来加速企业级应用特别是云计算应用的研究工作。

邓云 (Web Group)

Ningx 简介
Abstract:
简单介绍了一下Nginx以及相关的一些和web server有关的知识:Http反向代理服务器,FastCGI以及常见的I/O模型。


2013.05.24 主题:大数据时代——深度学习及隐私保护

王淼 (Web Group)

深度学习简介
Abstract:
本次报告介绍了机器学习的一些背景知识以及深度学习的由来和现状。

王璐 (Mobile Group)

隐私与在线广告
Abstract:
隐私是用户的基本权利,其意义已经超越了技术本身上升到了立法的层次。在线广告是互联网时代最重要的商业模式之一,针对隐私保护的立法是否会对未来的商业盈利模式有所冲击是一个重要而迫切的研究课题。目前,诸如计算广告学等领域都在针对在线广告开展研究。本文中,研究人员从隐私保护对在线广告效果的分析以及隐私保护对社交网络效果的分析得出了对未来商业具有指导性的结论。


2013.05.17 主题:高维数据处理与JVM介绍

马友忠 (Cloud Group)

基于MapReduce的高维数据连接查询处理
Abstract:
大规模、高维数据的连接查询是一种计算代价很高的操作,传统的以某种索引结构为基础的单击算法无法满足性能的要求。本次报告首先对基于MapReduce的连接查询相关工作进行了介绍,然后提出了一种基于SAX的高维向量相似性连接算法,并介绍了初步实验结果,最后介绍了几个具有挑战性的工作。

韩旭 (Cloud Group)

JVM介绍
Abstract:
JVM提供了JAVA一次编译到处运行的特点,同时它也提供了内存管理、垃圾回收的功能。对于处理大量的数据,了解JVM的一些参数的设置和调优是很有帮助的。


2013.05.10 主题:大数据——机遇与挑战

干艳桃 (Cloud Group)

ICDE2013参会报告
Abstract:
29届数据工程国际会议(ICDE2013)于201348--11日在澳大利亚昆士兰州布里斯班圆满举办。此次会议共收到research paper投稿443篇,并接收了95篇,接收率为21.4%industry paper投稿20篇,接收了8篇;demo paper投稿69篇,接收了27篇。此次会议共有3keynote9seminar1panel

张啸剑 (Web Group)

DASFFA参会报告
Abstract:
18DASFFA会议于2013422--25日在中国武汉圆满举办。此次会议共收到research paper投稿208篇,并接收了51篇长文,接收率为24.5%。此次会议共有2keynote4seminar1panel

慈祥 (Cloud Group)

大数据环境下的概率数据结构 第一部分:基数估计
Abstract:
随着大数据时代的到来,保证一定精度的估计值就可以满足很多的应用场景。而这会大大节省时间和空间的开销。本报告以基数估计这类典型的应用场景为例,介绍了适合大数据的基数估计算法。


2013.04.19 主题:DASFAA预报告——网络与移动数据隐私保护

张啸剑 (Web Group)

差分隐私保护下集值型数据的增量发布
Abstract:
隐私的集值型数据发布为计数查询与数据挖掘应用提供了许多机遇。与先前基于划分隐私保护模型(例如,k-匿名)的方法相比,差分隐私保护技术提供了比较强健的隐私保证。然而,现存的基于差分隐私保护方法的集值型数据发布方法均局限于静态的数据集,而这些方法并不能直接应用于如今快速更替信息的隐私保护。因此,本文提出了一种有效的满足差分隐私的方法,IncTDPart,该方法能够增量地发布集值型数据。

霍峥 (Mobile Group)

移动社交网络中的隐秘位置推理攻击
Abstract:
在丰富背景知识的环境下,攻击者很容易将用户访问过但未留下访问记录的位置恢复出来,重构用户整条轨迹,导致用户有意保护的隐秘位置泄露。针对此问题,本文提出了一种推理隐秘位置的轨迹重构攻击模型,并设计了相应的隐私提醒机制。轨迹重构攻击可以根据用户的历史位置数据、用户朋友的位置以及朋友之间的关系计算用户访问隐秘位置的概率,设计了一种实现在路网空间中的隐私提醒机制,可将最可能泄露的隐秘位置及泄露概率推送给用户。


2013.04.12 主题:Web环境下以及闪存上的数据管理

王江涛 (FlashGroup)

内存高效的闪存key-value存储数据管理 [ppt]
Abstract:
Key-value存储具有比关系数据库技术更好的扩展性,目前广泛应用于数据去重、在线游戏等互联网应用,kv存储可以提供很高的系统吞吐,影响kv系统性能的关键因素是索引,但随着数据量的增大,内存空间无法满足索引需求,将大部分索引存储在外存是解决这一问题的有效途径,报告介绍了目前这方面的研究进展,重点介绍了如何利用过滤器实现基于SSD的高效的索引。

李勇 (Web Group)

Web环境下关联数据的抽取、构建与应用(1)
Abstract:
随着Wikipedia等以知识共享为目的在线社区的不断发展,以及从WEB上自动抽取信息的技术的进步,建立大型知识库已成为可能。当前已出现一些知识库,如研究机构发布的YAGO DBpedia以及工业界发布的知识库Freebase。本报告介绍了关联数据的抽取以及知识库构建的方法、当前的进展、研究的机遇以及遇到的挑战。


2013.03.29 主题:混合存储与外包数据库中的查询结果验证技术

曹庆玲 (Flash Group)

高性价比的混合存储 [ppt]
Abstract:
主要介绍了使用少量的闪存来提高混合系统的性能,获得比较好的性价比。

文洁 (Mobile Group)

外包数据库中的查询结果验证技术 [ppt]
Abstract:
查询结果验证是外包数据库中一项非常重要的技术。包数据库模型主要由三个实体组成:(l)数据所有者,(2)数据库服务提供商,(3)用户。在该模型中,数据所有者将数据及相关索引结构上传到外部数据库服务器,数据库服务器代表数据所有者向用户提供服务。由于第三方的数据库服务器是不可信的,它可能会为了自己的利益篡改数据和查询结果。如果缺乏有效的措施,一旦出现这些情况,而用户又无法证明数据的真伪,往往会给用户,甚至数据拥有者造成严重的后果。因此,需要为客户提供一种手段使其能够快速准确地验证查询结果是否真实和完整。


2013.03.22 主题:大图数据及时空数据上的数据挖掘与隐私保护

王璐 (Mobile Group)

大图上隐私感知的查询处理
Abstract:
大图上与距离有关的隐私问题在人们的生活和生产中有巨大作用。比如,人们都希望在享受导航软件便利的同时不暴露自己的当前位置。拥有大量社交网络数据的公司如果可以确保他们的数据不被泄露,也可以选择云平台处理数据来节省大量资金。研究者就大图上与距离相关的隐私问题展开了研究并取得了阶段性的进展,未来的工作也许会直接有益于人们的生活和企业的运行。

霍江涛 (Mobile Group)

时空共现模式在流数据上的发现
Abstract:
当今社会各种移动设备的应用,产生了大量的时空数据,从这些数据中挖掘出时空共现模式有着非常广泛的应用。本次报告着重探索在流数据上时空共现模式的发现,研究流数据下该种模式的特征,通过采用新的度量标准和方法,成功的在流数据中发现了新的共现模式,并对共现模式随时间演化的趋势进行了有效的发掘。


2013.03.15 主题:差分隐私保护热点研究

张啸剑 (Web Group)

差分隐私保护下的回归分析
Abstract:
差分隐私下的回归分析是分析数据的有力工具之一。然而,现在差分隐私下的回归分析方法要么局限于非标准类型的回归或者是不能生成较为准确的回归结果。文中提出了一种函数机制,该机制通过扰动目标函数达到减少全局敏感性以及缩小噪音量的效果,并在线性回归和逻辑斯谛回归上取得精确的回归效果。

李美云 (Web Group)

通过变长的N-gram实现差分隐私序列数据的发布 [ppt]
Abstract:
在本文中,作者开发了可变长度的n-gram的模型,该模型用一组的可变长度的n-gram,提取了统计数据库中的基本信息。这种方法使用了一个精心设计的查询树结构和一系列基于马尔可夫假设的新技术,从而降低添加的噪声的幅度。发布的n-gram是有多种用途的。此外,笔者开发了一个产生人工合成数据库的解决方案,这使更广泛的数据分析任务成为可能。


2013.01.04 主题:车载自组网中的位置隐私问题

李勇 (Web Group)

人肉搜索介绍 [pdf]
Abstract:
通过两篇论文全面介绍了人肉搜索实证研究的相关内容。作为一种众包搜索行为,人肉搜索将一大批网络用户纳入协作群体,是一种新的问题解决之道。它是复杂社会网络分析研究方向的一种很有价值的科学研究平台。本讲座还介绍了讲者的一些学习心得。

王璐 (Mobile Group)

车载自组网中的位置隐私问题
Abstract:
在车载自组网中的位置隐私是个很受关注的问题。mix-zone方法,可以使得攻击者无法侦听到mix-zone内的车辆通信内容。基于统计的度量标准可以用来评估mix-zone的抗追踪保护能力。新提出的mix-zone部署问题用来保证利用最小数量的mix-zone达到满足DT-ET约束的最优隐私效果。

2012

2012.12.28 差分隐私下的回归分析

王淼 (Web Group)

空间OLAP查询在查分隐私上的研究
Abstract:
大量低时效性的大规模数据都含有空间地理位置信息,这些数据用于OLAP查询以支持决策时并不能被很好的利用。同时由于数据的敏感性,如何能够安全的查询带有地理位置区域的OLAP信息查询已经成为一个亟待解决的问题。

张啸剑 (Web Group)

差分隐私下的回归分析
Abstract:
差分隐私下的回归分析是分析数据的有力工具之一。然而,现在差分隐私下的回归分析方法要么局限于非标准类型的回归或者是不能生成较为准确的回归结果。文中提出了一种函数机制,该机制通过扰动目标函数达到减少全局敏感性以及缩小噪音量的效果,并在线性回归和逻辑斯谛回归上取得精确的回归效果。


2012.12.23 MySQL存储引擎和相关技术

高雨 (FlashDB)

MySQL存储引擎和相关技术简介
Abstract:
其它类型的数据库解决方案采取是一个尺码满足一切需求,意味着你要么就牺牲一些性能,要么你就用几个小时甚至几天的时间详细调整你的数据库。而MySQL 插件式的存储引擎可以针对不同的解决方案提供不同的技术,从而使MySQL效率高,更灵活。在不同的技术如存储机制、索引技巧、锁定水平等上面的差异决定了存储引擎之间的差异。本次报告首先介绍存储引擎的基本概念、存储引擎类型和存储引擎的体系结构,然后讲解如何去创建一个自定义存储引擎,最后介绍自己在混合式系统与存储引擎方面的工作进展。

曹庆玲 (Flash Group)

一个列存储数据库:C-store
Abstract:
C-store是由StoneBraker2005年开发的一个列存储数据库。它是写优化的,带有一个可写存储和一个读优化的存储。所有新插入的数据和更新的数据都要先放在可写存储中。然后在某个时间由元组移动器将他们移入读优化存储中。而且在C-store中表是没有物理存储的,只存一些Projection


2012.12.14 异质存储系统中闪存敏感的缓存管理策略

赖文豫 (Flash Group)

开发利用基于闪存的SSD内部并行机制优化查询处理中的扫描及连接操作
Abstract:
基于闪存的固态硬盘内部存在着丰富的内部并行特性,然而数据库管理系统中传统的扫描及连接算法均未充分固态硬盘内部这一优良特性。本工作提出了一种并行扫描算法并在此基础上设计了一种并行哈希连接算法以充分利用SSD内部丰富的并行机制。

王江涛 (FlashGroup)

异质存储系统中闪存敏感的缓存管理策略
Abstract:
基于闪存的异质存储系统是当前的研究热点,将闪存用做磁盘的读写缓存有利用最大化发挥二者的存储特性。总结该领域当前最热的研究点,提出适合于不同类型闪存特点的缓存管理方法,系统在保证一定的访问命中率的情况下,实现了对闪存的友好写操作。


2012.12.07 主题:基于事件的共现模式与热点地区

霍江涛 (Mobile Group)

基于事件的共现模式与热点地区
Abstract:
基于事件的社交网络是一种新兴的社交网络形式,它包含两个方面,线上交互的部分及线下交互的部分。该类型社交形式有很多的应用,包括朋友推荐,服务改进,广告投放等。这些事件信息包含了时间和空间两个方面,对其时空共现模式进行深入研究可以为人们提供更好的服务。而且,热点地区一直是人们关心的话题,如果我们能把这两者结合起来,做一些研究性的工作,肯定能为社会做出贡献。

文洁 (Mobile Group)

朋友推荐:一种移动社交网络中的近邻服务 [ppt]
Abstract:
随着移动设备的发展,移动社交网络成为人们生活中很重要的组成部分。近邻服务是移动社交网络中的一种很流行的服务,它的目的是找出当前位置附近的其他用户,比如提醒用户近邻的好友,或者发现近邻的潜在朋友等。我们提出了一种新的近邻服务,即朋友推荐,为用户推荐近邻的潜在好友。为了返回更令人满意的推荐结果,我们考虑了两个用户之间的profile的相似度。然而,服务提商是不可信的,所以在享受近邻服务的同时,有必要保护用户的隐私,如位置和profile等。我们分别提出了两种隐私保护的算法,分别保护位置和profile隐私。朋友推荐的算法可以在隐私保护处理过后的数据上进行。


2012.11.30 主题:WEB交互式编程

邓云 (Web Group)

WEB交互式编程知识分享
Abstract:
WEB交互式编程的相关知识技术分享,介绍了包括HTTP协议、Cookie等相关知识以及实验室已有的相关系统。

童薇 (Web Group)

微博数据流中事件检测及其关联检测技术研究
Abstract:
近些年来,随着Web2.0的发展,新型媒体不断涌现。微博,凭借其自身特点成为目前最受欢迎的社交媒体。微博数据具有很强的实时动态性和内容覆盖面广等特征,这使得我们在微博数据流中进行事件检测和关联检测成为可能。但是,微博的短文本特性、强噪音文本、丰富的社交信息、实时动态性也给事件检测及其关联分析带来了挑战。本报告对已有的相关工作进行了分析,同时提出了一种有效的事件检测及其关联检测算法。


2012.11.23 主题:非阻塞连接算法

慈祥 (Cloud Group)

大数据时代的存储-SQL,NoSQL 还是 NewSQL?
Abstract:
大数据时代的数据存储面临着新的挑战。在这种情况下,到底什么样的存储适用于大数据,是SQLNoSQL还是所谓的NewSQL。本报告对这个问题做简要介绍,并对NoSQL的代表技术BigtableNewSQL的代表技术Spanner分别进行了介绍。

干艳桃 (Cloud Group)

Early Join:非阻塞连接算法
Abstract:
多表连接基础上的在线聚集中不可缺少的是非阻塞的连接算法。衡量一个非阻塞连接算法的好坏主要在于是否能快速地产生early result,以及总的运行时间是否够快。目前的非阻塞连接算法主要分为2类,一类是针对在线聚集的,另一类是应用在数据流场景中的。前一类主要涉及的相关工作包括Ripple joinHash Ripple JoinSMS-JoinDBO等,后一类则主要包括XJoinHash Merge JoinRPJ


2012.11.09 主题:CIKM2012参会报告

富丽贞 (XML Group)

一种图上查询依赖的编码方法
Abstract:
在有向图上,可达性计算是一个最基本的操作。它回答这样一个问题:在图上两个点uv之间是否存在一条从uv的路径。在很多实际应用中都用到了可达性计算,如软件工程,编程语言以及分布式计算等。尽管已存在很多可达性编码技术来支持高效的可达性计算,但是已有的方法不考虑查询的局部性特性。在我们这个工作中,我们提出了一种查询依赖的可达性编码方法。

韩旭 (Cloud Group)

CIKM2012参会报告
Abstract:
今天的CIKM在美国的夏威夷州毛伊岛召开。今年的CIKM一共有3keynote,讲者分别来自yahoo!研究院、卡内基梅隆大学和堪萨斯大学。这次会议录取了146篇长文,录取率为13.4%;录取了157篇短文,录取率为27.8%。此外本次会议还有一个industry session,讲者来自GoogleLinkinAdobe等知名的IT企业,本次会议历时5天,吸引了全世界几百名学者参会。


2012.11.02 主题:HBase Coprocessorri简介

马友忠 (Cloud Group)

基于MapReduce的连接查询处理
Abstract:
连接查询是在数据处理中是一种重要的操作,而针对海量、复杂数据的连接操作又是一种非常费时的操作。MapReduce在大规模数据处理和计算方面具有很大的优势,但是MapReduce本身并不支持复杂的Join操作,这限制了MapReduce在某些方面的应用。本次报告首先对基于MapReduce的连接查询操作进行了综述,并对基于MapReduce的相似连接进行了重点分析。接下来又介绍了在高维数据相似连接方面的初步想法,最后介绍了几个具有挑战性的工作。

张榆 (Cloud Group)

介绍HBase Coprocessor
Abstract:
HBase,一种分布式的、可扩展的大规模数据存储系统,自0.92版本以来增加了一个重要的功能组件??CoprocessorHBaseCoprocessor允许用户在不用修改HBase源代码的基础上编写自己的代码并在HBaseserver端执行,使用户可以根据自己的需求增强或屏蔽HBase原有的功能。本次报告主要对HBase Coprocessor及其一些典型的应用进行介绍。


2012.05.18 主题:Postgresql & SSD中的内部并发

高雨 (FlashDB)

PG内存管理
Abstract:
Postgresql(PG)是伯克利大学研发的一套开源的关系型数据库,在业界应用广泛。在即将来临的暑假,Wamdm要研发的FlashDB也是基于PGPG内存管理十分繁琐复杂。本次报告主要从内存管理的四个方面:内存上下文,高速缓存,缓冲池管理和进程间通信来分析PG内核。重点讲解内存上下文和高速缓存这两个方面。

赖文豫 (Flash Group)

开发利用基于闪存的SSD内部并行机制
Abstract:
随着基于闪存的固态硬盘在个人计算机和企业服务器上的广泛应用,固态硬盘受到学术界和工业界越来越多的关注。除了具有闪存存储器的优良特性之外,固态硬盘内部还具有丰富的并行特性。传统数据库系统主要是针对磁盘的机械特性和对称读写特性而设计的,并不能发挥固态硬盘内部并行特性的优势。我们首先将固态硬盘作为一个黑盒进行探测以了解其内部的并行特性。在此基础上,我们提出了一个针对SSD的并行模型,以充分利用固态硬盘内部丰富的并行特性。


2012.05.11 主题:云上新动态

马友忠 (Cloud Group)

基于MapReduce的Join方法综述 [pptx]
Abstract:
MapReduce在大规模数据处理和计算方面具有先天的优势,但是MapReduce本身并不支持复杂的Join操作,这限制了MapReduce在某些方面的应用,为解决这一问题,已有部分学者进行了相关研究。本次报告主要对相关工作进行了总结,并重点介绍了基于集合相似度的JoinKNN Join两个工作。

韩旭 (Cloud Group)

一些数据存储系统介绍
Abstract:
最近涌现出许多开源的数据存储系统,一些是面向键值存储,一些事想要解决传统关系型数据的扩展性问题。这些系统的设计目标都是问了能够有效的存储大规模的数据,这个主题是为了介绍一些这样的存储系统。


2012.05.04 主题:OrientX

富丽贞 (XML Group)

largeXML文档上编码技术研究
Abstract:
编码技术是XML数据库查询处理的关键技术。到目前为止,尽管提出了各种各样的编码方法,如前缀编码、区间编码以及素数编码以及其他与之相似的编码方法,但是这些方法总是存在这样或那样的缺点。本文提出了一种简单而有效的triple编码方法。

杨森 (XML Group)

C++程序链接过程和相关技术简介 [pptx]
Abstract:
C++程序链接过程和相关技术简介。

刘东琦 (XML Group)

XML数据库测试平台介绍及技术分享
Abstract:
近年来,在学术界和工业界的共同推动下,XML数据库技术已经取得了突飞猛进的进展,诞生了大量的XML数据库原型系统和商用产品,但是并没有一套全面的评测基准,也没有一个基准测试平台来衡量数据库的功能和性能指标,因此搭建一套完善的XML数据库基准测试平台是切合实际需求的。


2012.04.20 主题:DASFAA参会报告

DASFAA 参会者

特殊专题:DASFAA参会报告
Abstract:
张金增、史英杰、霍铮、曹庆铃就这次DASFAA会议做参会报告。


2012.04.13 主题:PCM

王江涛 (Flash Group)

数据管理和应用中有效引入相变存储器 [pptx]
Abstract:
相变存储是一种新兴的存储技术,它兼有记忆和存储两方面的特点。在现有的存储体系中引入PCM可以有效的提高数据管理的性能,将PCM用作主存和扩展存储是将PCM添加数据库系统管理应用的两种主要的方式。PCM自身的读写不对称和有限的使用寿命的特性使得我们在引入PCM进行数据管理时必须设计有好的算法和结构以提高他的可用性和可靠性。

梁智超 (Flash Group)

存储级内存:技术概述及其带来的系统影响 [pdf]
Abstract:
存储级内存(SCM)是IBM提出的一种新型的数据存储设备。SCM具有固态、快速的访问时间(与DRAM同一个数量级)、低廉的价格(与磁盘同一个数量级)和较强的持久性(约10年)。SCM的出现模糊了主存和存储之间的差距,这就给数据库系统的设计带来了巨大的影响。本报告给出了SCM技术的概述并介绍了一种典型的SCM设备:相变存储器(PCM)。此外,本报告还详细讨论了传统数据库的设计在SCM上应该重新考虑的地方。


2012.04.06 主题:DASFAA参会预报告

DASFAA 参会者

特殊专题:DASFAA参会预报告
Abstract:
张金增、史英杰、霍铮、曹庆铃就这次DASFAA会议做参会预报告。


2012.03.30 主题:闪存架构

范玉雷 (Flash Group)

闪存设备和RAID
Abstract:
越来越多的固态硬盘特性被发现,例如内部并行特性,但是固态硬盘仍然存在很多问题。该报告从三个方面介绍RAID与闪存设备的结合,提高闪存的性能:1、固态硬盘内的RAID2、固态硬盘之上的RAID3、固态硬盘和磁盘之上的RAID

綦晓颖 (Flash Group)

适应于闪存的系统架构及应用
Abstract:
近几年,闪存在笔记本电脑和企业级领域得到了广泛应用。在这些环境下,大部分的系统需要提供高吞吐、低延迟的存储性能。因此,闪存成为一个最好的选择,作为RAM与磁盘之间的缓冲。在该套ppt中,我们介绍了两种系统设计FlashStoreSkimpyStash


2012.03.23 主题:Cloud & RDF

刘春秋 (Cloud Group)

基于HBase和MapReduce存储大规模RDF数据 [pptx]
Abstract:
随着RDF数据集的发展,它变的越来越大以至于不能利用传统的RDBMS进行存储,并且传统的RDF存储机制也不能满足现在存储和查询的要求。所以我们迫切的需要提出一种更高效的存储机制和查询过程。

刘龙 (Cloud Group)

Jena-HBase:一个分布式的、可扩展的高效RDF存储系统
Abstract:
在传统的RDF存储模式中,通常只能支持单机的存储方式。但随着大数据时代的到来,RDF存储的可扩展性成为了其中一个必不可少的特性。在本文中,介绍了Jena-HBase这样一个系统,由于其底层采用的云数据管理系统HBase,从而能够保证其存储的可扩展性。


2012.03.16 主题:WSDM2012简介

马如霞 (Web Group)

WSDM2012 会议概览
Abstract:
本报告分析了WSDM2012的会议热点研究问题,并且介绍了社会网络方面的三篇论文。

邓云 (Web Group)

WSDM2012 会议概览 II
Abstract:
介绍了WSDM2012有关社会网络的两篇论文。


2012.03.11 主题:XLDB2011简介

慈祥 (Cloud Group)

XLDB会议简介
Abstract:
简单介绍XLDB会议,重点关注XLDB2011的内容。

王海平 (Cloud Group)

Facebook数据高速公路 [pptx]
Abstract:
本次报告报告了脸谱公司的实时日志处理系统,它采用Scribe作为日志收集期并通过Calligphus写入到HDFS中,HDFS充当一个消息中继器的作用。Puma系统定期地从HDFS中获取记录数据完成聚集操作,并将聚集结果周期性地写入到HBase中。


2012.03.02 主题:链接数据简介

陈威 (Web Group)

关联数据研究现状
Abstract:
本次报告介绍了关联数据(Linked Data)及其相关研究问题,包括关联数据的基本概念、发布关联数据需要遵循的指南以及基于关联数据构建的应用示例。报告中还介绍了一个由草根社区发起的将开放数据发布成关联数据的Linking Open Data项目,报告最后给出了关联数据可能的研究方向。

童薇 (Web Group)

介绍RDF--Resource Description Framework
Abstract:
RDFResource Description Framework)是用来表示关联数据(Linked Data)的数据类型。RDF是一种通用数据格式,它提供了一个资源描述框架,可以对世界上的万事万物进行描述。本次报告从RDF所需的背景知识、什么是RDFRDF的语法、RDFschemaRDF的应用和RDF的查询语言六个方面对RDF进行了介绍。


2012.01.08 主题:Inside and Outside SSD

王江涛 (FlashGroup)

设计闪存转换层提高ssd的性能和寿命 [pptx]
Abstract:
闪存转换层是添加在闪存芯片上执行地址映射,垃圾回收和磨损平衡功能的一个软件层,地址映射用于完成逻辑地址到物理地址的转换,对上层应用隐藏了闪存写前擦除的特性。磨损平衡策略可以提高擦除的均衡性,提高闪存的寿命。

高雨 (Flash Group)

SSD的性能测试
Abstract:
从以前读的论文中我们知道SSD的一些特点,但是我们并没有真正做过测试。因此,我们做了一些测试实验。我们在6SSD上做测试并且收集IOpsMBps和平均延时的数据。对实验结果分析后,我们得到了SSD的一些共性特点,并且也发现了SSD一些不同和奇怪的结果。

邓云 (Web Group)

TextDigger:还原文本主题
Abstract:
报告介绍了一种关键词抽取的新方法。这种方法是基于图的,而且能够克服词汇壁垒的问题。

2011

2011.12.31 主题:Primary Exploring of Differential Privacy

张啸剑 (Web Group)

差异隐私的度序列可图化查询优化算法
Abstract:
针对社会网络和图数据的度序列隐私保护已提出很多种算法。然而,这些算法都是针对特殊的攻击背景而不能为用户提供严格的隐私保护。为此,提出了一个新的研究问题:采用差异隐私策略保护度序列。差异隐私策略既可以提供严格的隐私保护,又能响应用户的度序列查询。然而,由于该隐私策略采用噪音扰动真实度序列值,查询结果具有很大的误差,可用性较低。通过研究隐私和可用性之间的关系,提出了一种可图化推理约束策略。在此基础上又给出了一种高效的查询优化算法GQODS

王淼 (Web Group)

差异性隐私下的数据挖掘
Abstract:
差异性隐私是一种新的并且强大的隐私保护要求,如果一个算法满足差异性隐私,那么它就能够保证不论攻击者有什么样的背景知识都不能获得任何个人信息。在这里介绍了两篇在差异性隐私上做数据挖掘的论文。


2011.12.24 主题:云端小飞象系列报告之二

马友忠 (Cloud Group)

海量物联网数据的索引
Abstract:
由于物联网数据的海量性、频繁更新等特点,导致传统的数据库管理技术无法满足扩展性和频繁更新的要求,我们试图在云环境下实现物联网数据的高效管理。报告主要分析了物联网数据的特点,现有云数据管理系统及相应索引方案的局限性,并在此基础上提出了一种在云环境下支持物联网数据频繁更新和高效多维范围查询的索引方案。

慈祥 (Cloud Group)

Hadoop in SIGMOD 2011 [ppt]
Abstract:
介绍下SIGMOD2011上部分Hadoop相关文章的情况,希望借此来使大家对Hadoop的一些最新研究动态有所了解。


2011.12.17 主题:云端小飞象系列报告之

史英杰 (Cloud Group)

MapReduce上的在线聚集
Abstract:
在线聚集(OLA)1997年被首次提出,随着云计算的不断发展,这个问题又一次引起了人们的关注。在本次报告中,我们讨论了在云环境下实现在线聚集所面临的挑战性问题,并结合已有的研究工作讨论了初步的实现框架。

韩旭 (Cloud Group)

MapReduce的介绍和应用
Abstract:
Mapreduce是在阿帕奇基金会的hadoop项目中。这是一个编程框架,mapreduce支持并行性,这个并行性是用户透明的,目前,针对大数据的处理,越来越多的应用选择mapreduce框架来解决。


2011.12.10 主题:移动计算与社交网络系列报告之二:矛与盾的较量

黄毅 (Mobile Group)

移动社交网络中的位置隐私保护
Abstract:
随着社交网络的流行和智能手机的发展,移动社交网络越来越受到人们的关注。但是,位置信息的引入也为隐私保护带来了新的挑战。本报告分析了移动社交网络中的位置隐私,并提出了可能的解决办法。

霍峥 (Mobile Group)

Feel Free to Check-in: 地理社交网络中防止隐秘位置推理攻击的隐私保护方法
Abstract:
随着地理社交网络/移动社交网络的发展,位置隐私问题成为移动社交网络用户最关注的问题。在报告中,我们分析了移动社交网络的特点以及隐私位置推理攻击的攻击模型,给出了针对隐秘位置推理攻击的隐私保护方法。


2011.12.3 主题:移动计算与社交网络系列报告之一:新与旧的碰撞

文洁 (Mobile Group)

加密云数据上的隐私保护的空间关键字查询技术
Abstract:
随着云计算的发展,越来越多的公司企业为了减少运行和维护的代价,将自己的数据外包到云上,让云来管理和存储数据,同时为查询用户提供服务。我们在享受云带来的便利的同时,也需要解决它带来的隐私泄露问题,如何保护云上数据隐私和查询隐私非常重要。我们的这个工作的目的就是用加密的算法来保护两者的隐私,同时设计一个配套的空间关键字查询的技术,使得云在加密空间上也可以正确地进行查询处理。

张金增 (Mobile Group)

虚拟走向现实-地理社交网络探析
Abstract:
地理社交网络是一种新型的社交网络,为社会网络加入了位置维,使得它具有额外的社会动态性,它为虚拟世界和物理世界搭建起一座桥梁。本次报告包括三个方面的内容,首先,从整体上对地理社交网络进行介绍,接下来分析了在该领域的已有研究工作,最后指出了下一步的挑战性工作。


2011.11.26 主题:XML数据库系统

刘东琦 & 杨森 (XML Group)

新版OrientX XML数据库系统
Abstract:
近几年国内外对非结构化数据的研究都十分关注,国外大部分都是些商用的xml数据库,大概有百多家公司都在从事非结构化数据库的研发。我们也可以从中看出XML数据库研发的重大意义。OrientX是由WAMDM实验室自主研发的,是中国Native XMLDB的代表。。。

富丽贞 (XML Group)

编码技术在XML数据库中应用
Abstract:
当考虑到ID/IDF关系时,XML数据不能再用树模型来表示,这时需要用图模型来表示。这使得在进行查询处理时,判断节点间的祖先后代关系更加复杂。为了解决这一难题,我们引入了编码技术。本次报告主要介绍适合图模式XML数据的编码技术。

霍江涛 (XML Group)

XML数据库测试 [pptx]
Abstract:
使用大约1000个用例来对XML数据库进行测试,通过分析测试的结果来有效的评估各个数据库的性能。


2011.11.19 主题:Topic Detection and TrackingTDT

童薇 (Web Group)

微博中的事件发现
Abstract:
事件是指发生在特定时间和地点的事情,微博帖子的实时分布式特性为事件发现提供了保证,同时也为事件发现提出了挑战。此次报告介绍了在微博中进行事件发现所面临的挑战、相关工作以及一些改进思路。

陈威 (Web Group)

主题检测与跟踪-回顾与挑战
Abstract:
主题检测与跟踪研究的目标是从流数据(如新闻、广播)中发现和关联具有相关主题的材料。本次报告中我们介绍了主题检测和跟踪的五大任务和相关研究方向,并对各任务(尤其是新事件检测和主题跟踪任务)介绍了部分有代表性的研究工作。报告最后提出了在主题检测和跟踪中未解决的问题和挑战。


2011.11.12 主题:Log-Structure与闪存的天作之合

梁智超 (Flash Group)

讲一些使用日志结构的键值数据库 [pptx]
Abstract:
日志结构这个概念最早是在1988年由John K. OusterhoutFred Douglis设计的日记结构文件系统中出现的。现在,一些使用日志结构的键值数据库逐渐出现,其中包括RiakRethinkDB以及LevelDB。这些键值数据库继承了日志结构的主要思想,同时又采用了不同的实现方式,在很多工业级的应用中发挥了举足轻重的作用。

赖文豫 (Flash Group)

闪存以及固态硬盘
Abstract:
闪存凭借其优良的特性,已经在移动和嵌入式领域得到了广泛的运用。本次报告主要介绍闪存和SSD的相关知识,主要包括闪存的分类、性能、局限性以及发展趋势,SSD的架构以及接口类型;此外,还会介绍近期对我们购买的SSD的一些测试结果。

曹庆玲 (Flash Group)

列存储的优化以及列存储对闪存的适应
Abstract:
在列存储上,通常有三种主要的优化措施,他们分别是:压缩,块循环以及推迟物化。其中压缩扮演最重要的角色,它能使列存储的性能提高一个数量级。列存储上的一些特性使得它在闪存上能发挥出更好的性能,但闪存又有它自身的一些特性,所以列存储必须做一些改变来适应闪存。


2011.10.29 会议地点:理工配楼一楼会议室

刘龙 (Cloud Group)

物联网与云计算 [ppt]
Abstract:
2008IBM提出"智慧地球"以来,物联网开始越来越多的受到关注。物联网的架构基本分为三层:由RFID、传感网等组成感知层;InternetWifi3G等网络,组成物联网的网络层;此外,针对各类社会中的应用需求是其应用层。而云计算作为物联网产业链中的关键中间技术,将是物联网发展的重要基石。

刘兵兵 (Cloud Group)

Linux使用技巧简介
Abstract:
主要讲解了一些linux的常用命令和软件,以及使用linux测试的技巧和经验。


2011.10.21 会议地点:理工配楼一楼会议室

张啸剑 (Web Group)

社会网络中的个性化隐私保护 [pptx]
Abstract:
目前,针对社会网络隐私问题已提出许多保护策略,而这些策略都是假设攻击者拥有相同的背景知识。然而,在实际应用中不同的用户有不同的隐私需求。所以在拥有相同背景知识的前提下,不能满足个性化隐私需求,进而不能在隐私和可用性之间进行较好的平衡。基于此需求,本文提出一种框架来满足用户的个性化隐私设置需求。


2011.10.14 会议地点:理工配楼一楼会议室

范玉雷 (Flash Group)

支持范围查询的闪存存储结构
Abstract:
由于闪存具有和磁盘完全不一样的特性,主要是随机写性能比较差,所以大部分都采用异位更新的方式。现有的基于闪存的存储模型主要有行列混合存储、IPL存储模型和追加存储模型。虽然行列混合存储可以很好的支持查询,但是行列混合存储的更新性能没有被考虑。IPL存储模型和追加存储模型虽然具有较好的更新模式,但是没有考虑到OLTP中一中很重要的应用,就是范围查询。本文主要目标是,尽量不降低更新性能提高查询性能,尤其是范围查询。针对此,我们提出了块页式两级存储管理和内存级B+-tree索引结构。


2011.09.24 会议地点:理工配楼一楼会议室

马友忠 (Cloud Group)

云数据管理中的索引技术 [ppt]
Abstract:
云数据管理系统因其高可扩展性、高可用性得到越来越多的重视,然而,目前仅支持Rowkey上的点查询和范围查询,对非Rowkey上的查询和多维查询无法提供有效的支持。本报告主要对目前云数据管理中的索引技术进行了调研,分析了各自的优缺点,以及未来的研究方向。

张啸剑 (Web Group)

大数据简介 [ppt]
Abstract:
近来,许多企业和研究领域可以关注大数据的发展。此次报告从大数据的定义、框架、应用和相应的挑战入手进行介绍。由于大数据不同于海量数据和大规模数据,需要设计和开发新的计算模型、算法和存储构建。报告中主要介绍了大数据的随即采样模型、数据流模型和更略图模型等计算模型。


2011.06.24 会议地点:理工配楼一楼会议室

张啸剑 (Web Group)

社会网络中个人隐私分值计算和可信预测
Abstract:
近来,社会网络中的隐私和可信问题受到越来越多的关注。此次报告主要涉及社会网络中个人隐私风险计算和个人之间彼此信任的预测问题。隐私风险计算主要讲解了极大似然和EM参数估计方法,而可信预测主要讲解了社会心理学中的平衡理论和地位理论。


2011.06.17 会议地点:理工配楼一楼会议室

张金增 (mobile Group)

地理社交网络的基于tag的空间协同搜索
Abstract:
随着移动定位技术和social network的不断发展,geo-social network 逐渐流行。基于该场景,提出一种基于tag的空间协同搜索,帮助位于不同位置的有不同需求的用户找到满足他们大多数需求的活动场所。为了有效的回答该查询,提出了两种解决方案。实验结果验证了提出算法的有效性。

霍峥 (Mobile Group)

基于停留点的轨迹隐私保护技术
Abstract:
轨迹上的停留点往往包含较多的敏感信息,因此,从停留点出发保护轨迹隐私更加合理、高效。我们提出了一种基于停留点保护的轨迹隐私保护方法,可以有效的降低信息扭曲度。


2011.06.10 会议地点:理工配楼一楼会议室

刘东琦 (Mobile Group)

关于Flickr上的论文和应用研究
Abstract:
最近几年关于web2.0的研究的论文渐增,像FacebookTwitterFlickr这些Web2.0时代的代表,不仅给我们带来了很好的应用,同时也给我们带来了一个很好的研究平台。在Flickr上我们可以免费获得大量的tagtitlepicture等信息,这给我们的研究带来了很大的方便。基于Flickr的研究目前主要有基于Flickr的距离计算、旅游推荐、基于Flickr进行预测、图像文件检索这四个方向。

富丽贞 (XML Group)

GILX:图结构XML上的压缩区间编码方法
Abstract:
当引入ID/IDREF关系后,XML文档不再用树模型来表示,而只能用图模型来表示。由此给XML数据管理带来许多新的问题。在图结构的XML文档上,可达性查询是一种很关键的查询方式。在这个报告中,我们介绍了一种压缩的区域编码方法来支持高效的可达性查询。


2011.06.03 会议地点:理工配楼一楼会议室

杨森 (Web Group)

在基于信任打分的网络中找出节点的偏见和威望值
Abstract:
在基于信任打分的网络上一种新的计算节点权重的方法。


2011.05.27 会议地点:理工配楼一楼会议室

王海平 (Cloud Group)

利用MapReduce作Join查询优化问题研究 [pptx]
Abstract:
MapReduce作为一个并行的编程框架,能够让我们很轻易地采用廉价机器并行处理大规模数据集,遗憾地是,同一个MapReduce job并不能够很好地处理异构数据源,例如join查询。

文洁 (Mobile Group)

云计算环境下隐私保护的查询处理 [pptx]
Abstract:
随着云计算的发展,云上DaaS服务也成为一种趋势。但是,这种服务导致了两类隐私的泄露,即数据隐私和查询隐私。ICDE 2011DASFAA 2011上的两篇文章提出了两种不同的云上隐私保护框架。一个是基于隐私同态加密算法的框架。即,使用加密算法隐私同态的特征,让客户端引导查询处理过程,从而达到保护查询隐私和数据隐私的目的。另一个框架是基于秘密分享模式的。即在数据外包之前,使用秘密分享公式将数据划分成n份,从而达到隐私保护的效果。


2011.05.20 会议地点:理工配楼一楼会议室

王淼 (Cloud Group)

知识库上的语法规则优化和数据清洗
Abstract:
自然语言是非常复杂的,因此为了建立准确的知识库,我们需要做语法规则的优化和抽取结果的数据清洗。

曹庆玲 (Flash Group)

SSD上的查询与优化 [ppt]
Abstract:
SSD上关于查询处理与优化的一个survey


2011.05.13 会议地点:理工配楼一楼会议室

范玉雷 (Flash Group)

在追加存储中考虑事务
Abstract:
目前闪存数据库的研究主要是针对闪存的随机写性能比较差,提出了一系列的闪存存储方案??行列混合存储、基于日志的存储、追加存储三种方案,但是各自有各自的优势,各自有各自的缺点。以前提到的追加存储都是应用到Key-Value系统中,如果把追加存储应用到闪存数据库管理系统中就会存在很多问题, 比如说索引、事务处理等等。其中Rollback和恢复是事务处理中必不可少的部分,针对原有的方法进行针对追加存储方案的改进,使得恢复更快,性能更优。

童薇 (Web Group)

微博链接的语义分析
Abstract:
本次报告介绍了WSDM2011上的关于Twitterlink语义分析的一篇论文“Topical Semantics of Twitter Links”,同时也介绍了我们组对sina微博数据分析的一些结果。


2011.05.06 会议地点:理工配楼一楼会议室

DASFAA 参会者

特殊专题:DASFAA参会报告
Abstract:
曹老师、范玉雷、梁智超、綦晓颖就这次DASFAA会议做了参会报告。


2011.04.22 会议地点:理工配楼一楼会议室

韩旭 (Cloud Group)

Redis--key value内存数据库介绍
Abstract:
Redis是一个key-value内存数据库,由于其对数据的存储和操作都是在内存中,所以有着很高的性能。但是由于内存的容量相对较小和易失性,Redis又提供了虚拟内存管理和数据持久化功能。主要介绍了Redis的数据流程和对虚拟内存管理的一些改进想法。

卢泽萍 (Flash Group)

闪存数据库日志技术
Abstract:
闪存作为一种新型的存储设备,将取代磁盘成为新一代的数据库二级存储设备。但是,直接使用传统的日志方法在闪存数据库中难以充分利用闪存的优越性。我们分析了闪存数据库中日志设计的问题,提出了一些新的解决方案。一种是对闪存中天然存在的数据的历史版本来进行管理和利用的日志及恢复方法HV-Logging;一种是使用链表结构取代原有的顺序结构进行日志记录的LB-Logging


2011.04.15 会议地点:理工配楼一楼会议室

刘龙 (Cloud Group)

Online模式下的聚集操作 [ppt]
Abstract:
在传统的数据库系统中,聚集操作通常是批处理的:在提交一个查询后,系统在相当长的时间内处理很大的数据量,最后给出最终的结果。在Online Aggregation中,作者提出的一种新的操作界面,在这个界面中,用户既能观察他们的聚集查询结果,同时也能随时停止查询的进行。

黄毅 (Mobile Group)

一种用户协作的无匿名区域的位置隐私保护方法
Abstract:
基于位置服务的广泛应用给人们的生活带来了极大的便利。但是用户在享受这些便利的服务的同时,个人的位置隐私也面临着严重的威胁。目前,典型的位置隐私保护技术是位置k匿名方法。该方法容易使中心服务器成为性能瓶颈和集中攻击点,也容易造成查询处理过程更为复杂。报告介绍了一种用户协作的无匿名区域的位置隐私保护方法。


2011.04.08 会议地点:理工配楼一楼会议室

闪存小组

特殊专题:软件和硬件在数据管理过程中的相互作用 [ppts]
Abstract:
该专题主要介绍硬件磁带、磁盘、FlashSSD和存储集存储器,同时还分析了这些硬件和数据库管理系统之间的关系和相互作用。本专题包含7个报告。第一个详细叙述了从磁带到磁盘的技术路线,以及现在主流的固态硬盘技术。接下来的三篇文章主要介绍了NAND闪存芯片上的数据管理技术。接下来的两篇介绍除了闪存之外的非易失硬件对软件技术的影响。最后一篇阐述了当前的SSD的能源效能的测试。


2011.04.02 会议地点:理工配楼一楼会议室

史英杰 (Cloud Computing Group)

云环境下的查询处理进程估计
Abstract:
在云环境下进行查询处理进程估计面临很多的挑战性因素,包括:任务并行,执行速度不固定,任务出错等等。本次报告介绍了现有的一些方法如何解决这些挑战性问题,同时介绍了我们关于本问题的一些初步的想法。

刘兵兵 (Cloud Group)

Cassandra和Hbase的系统测试报告
Abstract:
CassandraHbase做了一系列的测试,对其测试结果进行了汇报


2011.03.25 会议地点:理工配楼一楼会议室

马友忠 (Web Group)

手机应用程序项目报告
Abstract:
随着苹果公司手机应用程序商店App Store的巨大成功,越来越多的手机制造商、运营商和互联网服务商也都推出了自己的应用程序商店。然而,大量应用程序的出现,给手机用户带来了巨大的麻烦,用户要想找到自己想要的手机应用程序变得越来越困难。因此,手机应用程序的搜索和推荐技术的研究显得非常重要,作者从项目背景、项目研究动机、相关解决方案等方面做了介绍,最后提出了相关问题与大家进行交流。

邓云 (Web Group)

Twitter更像什么,社交网络还是新的媒体
Abstract:
Twitter是现在在世界上很流行的一种网络应用。那到底什么是Twitter?这次报告将会根据WWW2010上的一篇文章"What is Twitter, a Social Network or a News Media"来挖掘一些关于Twitter的高级特性。


2011.03.11 会议地点:理工配楼一楼会议室

陈威 (Web Group)

Twitter中的主题权威识别与微博搜索分析
Abstract:
本次报告介绍了WSDM会议上关于Twitter上主题权威发现和微博搜索技术的的三篇文章。主题权威发现的两篇文章中,TwitterRank使用的是一种基于图结构的类PageRank算法,而另一篇文章使用基于高斯混合模型的聚类方法来选择候选权威用户,并通过对候选用户的排序给出最终的权威用户集。此外,本次报告还介绍了一篇对微博搜索和Web搜索详细比较的测评文章。

马如霞 (Web Group)

Twitter中的信息传播
Abstract:
作为一个微博服务,Twitter的发展极为迅速。在此报告中,我们主要关注Twitter上的信息扩散和传播问题。这里我们介绍了WCID 2011上的两篇论文。第一篇主要研究了信息级联过程中如何处理数据确实的问题,从而更加准确的估算出传播模型的参数。第二篇工作主要研究了Twitter上的用户影响力评估。通过这两篇文章,我们了解了Twitter上信息扩散和传播方面的一些问题。


2011.01.14 会议地点:理工配楼一楼会议室

韩旭 (Cloud Group)

UDT网络协议介绍
Abstract:
UDT 相比于传统的网络协议(如:TCP)有着良好的性能。当在某些延时很大的网络中,UDT的参数也需要进行相应的调优。

王伟 (XML Group)

XML数据库测试报告
Abstract:
关于4xml数据库测试的总结报告。

胡享梅 (Cloud Group)

元数据管理
Abstract:
近年来,为了满足大规模数据的存储,聚簇存储成为一个越来越流行的方式。伴随着聚簇存储的出现,如何访问聚簇文件系统的数据成为一个挑战性的问题。元数据管理的研究就是为了解决这个问题。本次报告重点介绍目前在元数据管理研究中已有的一些方法以及未来在TaijiDB上可做的元数据管理研究


2011.01.07 会议地点:理工配楼一楼会议室

郭青松 (XML Group)

XML关键词查询改写
Abstract:
这次报告,我们主要讨论了在XML关键词查询中的查询改写问题。其中,我对已经存在的XML关键词查询改写方法进行了分类。另外,我提出了一种全新的自动化的方法将关键词查询改写为结构化查询,它考虑了XML数据的内容和结构。首先我们将查询关键词按照数据的内容拆分为指向结构的词和指向内容的词,并且根据schem和数据我们可以抽取出这些指向结构的词的关系图,它对应于一个带权的有向图。这个有向图的最优和前K个生成根树对应的是最优的和top-k结构化查询方法。

王淼 (Cloud Group)

诺西实习报告 [ppt]
Abstract:
关于诺西实习的总结。主要报告实习参与的测试项目??针对传输协议UDT的性能测试。首先,传输协议UDT是一种面向高速广域网上的海量数据传输协议。然后,对于测试脚本的每个部分进行详细介绍。

霍峥 (Mobile Group)

移动对象的轨迹隐私保护研究
Abstract:
现有的大多数轨迹隐私保护的工作都关注于轨迹k匿名,但是单一的轨迹k匿名并不能完全保护轨迹隐私??即使移动对象藏匿于组中,如果该组内没有足够多种类的隐私信息,攻击者还是可以 把敏感信息和移动对象联系起来。因此,我们致力于找到一种能提供更强的轨迹隐私保护的方法。

2010

2010.12.24 会议地点:理工配楼一楼会议室

文洁 (Mobile Group)

连续密度查询
Abstract:
介绍了连续密度查询的相关工作,指出之前的算法导致的结果遗失问题。提出了一种新的基于TPR树的算法来解决上述问题。新的算法可以返回所有密集区域,并且得到更加精确地计算结果。

周春姐 (Mobile Group)

研究回顾、探讨与交流
Abstract:
对博士期间的研究过程和经历进行了总结,提出了一些研究心得,经验和教训。


2010.12.17 会议地点:理工配楼一楼会议室

陈威 (Web Group)

博客意见检索
Abstract:
随着Internet中博客、论坛端点的不断发展和内容的不断丰富,网络舆情逐渐发展成为舆情分析的重要关注点,而博客中的意见检索是研究界关注较多的方向。本次报告从博客意见检索的目标、框架、实现方法等方面综述了最近几年研究界关于博客意见检索的研究成果。

马如霞 (Web Group)

用户个人隐私保护问题研究
Abstract:
互联网上存储了大量的信息。尤其随着Web2.0技术的出现,网络中个人信息的数量在急剧增加。恶意用户可以通过高度索引的搜索引擎来收集网络上的个人信息,从而获得个人的隐私信息。这是一种基于搜索引擎挖掘个人隐私的一种新型隐私泄露问题。在这个报告中,我们对一个已有的方法进行扩展,该方法由我们的一位已毕业研究生艾敬提出。我们新提出了一个基于二部图的聚类方法来解决上述问题。


2010.12.10 会议地点:理工配楼一楼会议室

梁智超 (Flash Group)

一种基于闪存数据库的延长闪存使用寿命的新方法
Abstract:
随着容量的增长和价格的下降,闪存开始走进企业及应用并展现出了替代传统磁盘的强大潜力。但是,闪存也存在写前擦除擦出次数有限的顽疾,这导致了频繁的随机写和小的写很快就会将一个闪存的块磨损殆尽。在此背景下,我们分析了传统数据库中的空闲空间管理方法,并指出其和闪存的不适应性。此外我们也提出了一种新的方法来缓解这个问题,这种方法通过对空闲空间管理和缓冲区管理的调整减少了写I/O的次数,从而延长了闪存的使用寿命。

綦晓颖 (Flash Group)

一种专用于企业级SSD的基于操作的闪存转换层算法
Abstract:
闪存转换层是闪存设备上非常重要的一个固件,对闪存设备的性能有很大的影响。当SSD直接应用于企业级环境时,出现了很多问题。因此为提高总体性能,需要重新设计闪存转换层。本文提出了一种新的基于读、写操作的闪存转换层算法。


2010.12.03 会议地点:理工配楼一楼会议室

童薇 (Web Group)

基于社会注释数据的结构化查询推荐 [ppt]
Abstract:
查询推荐已经被认为是一种重要的方式去帮忙用户进行搜索和提高搜索引擎的使用率。

杨森 (Web Group)

OpenScholar系统介绍
Abstract:
OpenScholar是由Web组开发的自动生成学者主页的系统,它具有自动检索主页内容、动态更新维护等特点。


2010.11.26 会议地点:理工配楼一楼会议室

王海平 (Cloud Group)

云环境下的查询优化
Abstract:
在云环境下,数据以Block块为单位进行备份存储,在查询时,可能会涉及到数据迁移的问题。如何尽快以尽可能小的代价完成查询是一个值得研究的问题。

张啸剑 (Web Group)

基于唯一性约束及错误值的记录链接分析 [ppt]
Abstract:
本文主要讲述了基于唯一性约束及错误值的记录链接分析。作者采用K-部图对不同数据源的记录进行建模,然后在K-部图上进行聚类和匹配操作,来解决DuplicatesConflicting Data问题。


2010.11.19 会议地点:理工配楼一楼会议室

邓云 (Web Group)

评估实体识别结果 [ppt]
Abstract:
实体识别是数据集成中一个非常重要的技术。它试图在海量数据记录中识别出代表相同实体的记录,在这个意义上来说,它和聚类或者说是划分相当类似。而这次报告主要关注于一种叫做GMD的实体识别结果的评估方法。

赵婧 (Cloud Group)

查询处理研究
Abstract:
查询处理的研究工作无论是对于并行数据库还是云环境下的数据库来说都是一个很重要又很有难度的问题。此次报告中,我们简要介绍了集中式数据库和分布式数据库中的查询处理流程,然后介绍了大规模数据处理的研究现状,包括就MapReduce的一些争论以及join算法的实现。最后我们介绍了自己的工作和未来的工作。


2010.11.14 会议地点:理工配楼一楼会议室

富丽贞 (XML Group)

图数据上关键词检索的多样性问题
Abstract:
关键字搜索是一种web上常用的信息检索机制。由于具有友好的用户查询接口,事实上,在查询结构化和半结构化数据时,关键字搜索同样是一种非常有效的检索机制。目前,在图数据上的查询处理研究问题已经引起了学术界越来越多的关注。在该报告中,我们集中讨论图上关键字检索的语义多样性问题。

曹庆玲 (Flash Group)

SSD的企业级应用 [ppt]
Abstract:
SSD在企业中的应用越来越广泛,但这时就出现了一个问题,现在的平台是不是适合SSD?这篇文章对这个问题进行了解答。在报告中也对SSD RAID进行了介绍。


2010.11.06 会议地点:理工配楼一楼会议室

史英杰 (Cloud Group)

CIKM2001参会总结
Abstract:
在这个报告中,我对CIKM2010的情况作了一个简单的总结和介绍,并结合自己参加会议的经历谈了一些自己的想法。

刘兵兵 (Cloud Group)

RHP:一个提高cassandra中range query效率的数据分布方法
Abstract:
cassandra中,负载均衡和范围查询的效率之间是一个巨大的矛盾,如何在他们之间做折中,是一个关键问题。


2010.10.30 会议地点:理工配楼一楼会议室

刘东琦 (Mobile Group)

时空序列景点查询演示 [ppt]
Abstract:
从现实角度出发,考虑flicker上面的一些景点标记信息,如果想在一定限制的时间内,对这些景点进行遍历(游玩),那么方案肯定是有很多种的,那么如何进行遍历才是最节省空间和时间的呢?我们给出一个demo演示,给大家介绍下,我们提出的三种有效的方法。

刘龙 (Cloud Group)

对象存储调研报告 [ppt]
Abstract:
在存储业界,对象存储作为一种新的存储技术是一个学术研究和开发的课题。本篇调研报告从五方面描述了对象存储技术的关键点,分别是:为何引入对象存储的概念、它包括哪些要素、如何利用这项技术、在工业上和学术上它的发展状况以及我们在研究中如何利用它。

黄毅 (Mobile Group)

Android开发介绍 [ppt]
Abstract:
AndroidGoogle公司于2007115日发布的一个基于Linux内核的手机操作系统。在过去的三年中,Android系统获得了巨大的市场份额,并且在持续增长中,开发者对它的热情居高不下。目前,Android软件商城已有超过十万个应用,是仅次于苹果软件商城的第二大软件商城。本次报告介绍了Android平台上软件开发的流程以及Android内部的运行机制。


2010.10.23 会议地点:理工配楼一楼会议室

范玉雷 (Mobile Group)

基于Flash的多版本数据存储
Abstract:
由于Flash的异位更新特性和PostgreSQL的多版本存储设计,使得较多的更新操作和小的随机写操作发生,这些操作会严重影响数据库系统性能和Flash的寿命。基于闪存的多版本存储(FMVDS)主要从减少更新和小的随机写角度重新设计了多版本存储,进而减少擦除所带来的整个系统性能下降。在FMVDS中,事务状态表项增加一个时间戳,数据记录增加一个指向旧版本数据的指针,通过这两个新增加项实现了高并发和快速的恢复。

姜大昕 (MSRA)

上下文感知搜索
Abstract:
介绍MSRA关于上下文感知搜索的研究。


2010.09.25 会议地点:理工配楼一楼会议室

马友忠 (Web Group)

基于演化规则的实体识别 [ppt]
Abstract:
实体识别主要用来辨别数据库中的不同记录是否代表现实当中的同一个实体。实际情况下,实体识别随着对数据、模式和应用的不断理解而逐步改进,而不是一次完成的。本文研究了在ER规则不断演化的过程中如何保持最新的ER结果。传统的ER方法在迭代的过程中是从最初的数据开始,这样对于大数据集来讲是行不通的。本文主要研究如何利用前面物化的ER结果来减少工作量。文章介绍了能够加速演化的算法属性,并提出了针对两种聚类ER模型的高效规则演化技术:基于匹配的聚类和基于距离的聚类。通过实际数据集的验证表明:物化的方法优于传统的方法。

张金增 (Mobile Group)

VLDB论文报告
Abstract:
本次报告介绍两方面的内容,首先介绍了基于PrestigeTop-K相关空间Web对象检索,在该方法中提出了基于prestige相关性的概念,采用基于prestige的相关性和位置的相近性对检索到的top-k个结果进行排名。然后介绍了如何从GPS数据中挖掘重要的语义位置,使用一个双层图模拟位置之间以及位置与用户之间的关系,在此基础上,提出了一种新的排名模型,为每个语义位置分配其重要性的值。

史英杰 (Web Group)

VLDB2010论文总结
Abstract:
VLDB2010和云数据管理相关的论文可以分成四类:云数据管理系统,测试,查询优化和一些开放性问题。报告总结了论文的研究动机、关键技术以及对我们研究的启发。


2010.09.18 会议地点:理工配楼 一楼会议室

王仲远 (Graduate)

初到微软新感受
Abstract:
介绍个人初到MSRA的生活和感受。

周大 (Graduate)

闪存数据管理和云计算介绍
Abstract:
分享自己在云计算和闪存数据管理的新感受和发现。




2010.06.19 会议地点:理工配楼 一楼会议室

霍峥 (Mobile Group)

轨迹数据隐私保护的研究现状 [ppt]
Abstract:
介绍了在四个应用场景中的轨迹数据隐私保护技术。对于在线应用,最关键的问题是要在保护轨迹数据隐私的同时 保证较高的服务质量;对于离线应用,最关键的问题是在保护轨迹数据隐私的情况下保证数据可用性。

郭青松 (XML Group)

XML关键词查询改写 [ppt]
Abstract:
这次报告,我们主要讨论了在传统信息检索和新的XML关键词查询中的查询改写问题,其中,主要部分是关于XML 键词查询改写中的任务和方法。另外,我们对现有的XML查询改写问题进行了分类总结,并提出了一种全新的查询改写方法。


2010.06.12 会议地点:理工配楼一楼会议室

马如霞 (Web Group)

Web上可信度的研究现状
Abstract:
web信息产生过程中所涉及的三个实体:信息本身,web网站和用户来介绍web信息可信度研究的相关技术。这里着重讨论了:同种实体内部的相互关系影响该实体的可信度;不同类别实体之间的可信度也会相互影响。

陈威 (Web Group)

Wikipedia信息质量及可信度研究
Abstract:
本次报告介绍了Wikipedia中的信息质量和可信度问题并介绍了相关的研究题目。此外还对WWWWICOW等会议中关于Wikipedia信息可信度的相关文章进行综述介绍。


2010.06.05 会议地点:理工配楼一楼会议室

胡享梅 (Cloud Group)

基于云数据管理的索引
Abstract:
本次报告介绍了为什么要在云数据上建立索引,目前在云上建立索引的相关研究工作以及我们在云数据管理上索引研究的工作进展。

王海平 (Cloud Computing Group)

NoSQL综述 [ppt]
Abstract:
本次报告简要地介绍了NoSQL,介绍了NoSQL提出的原因,历史,定义,基本理论以及NoSQL数据库的简单分类。


2010.05.29 会议地点:理工配楼一楼会议室

富丽贞 (XML Group)

图上的关键词搜索
Abstract:
在这个报告中,主要介绍了一些在图上的关键词搜索方法。关键词搜索为用户提供了一种简单而友好的从复杂数据结构中搜索信息的界面。我们重点介绍在图上的关键词搜索技术存在的挑战。一个是,什么结果是关键词搜索的查询结果;一个是,什么样的查询结果是好结果,即如何排序。第三个是,如何高效的完成关键词搜索。

富丽贞 (XML Group)

三网融合 [ppt]
Abstract:
本次报告介绍了三网融合的概念,三网融合的发展,三网融合带来的好处以及目前国内外三网融合的现状。


2010.05.22 会议地点:理工配楼一楼会议室

寇玉波 (Web Group)

基于基本结构的图匹配算法
Abstract:
过去图匹配技术是基于点的。这意味着每个点对应的候选集形成的搜索空间可能很大。减小搜索空间可以提高查询处理的效率。本报告提出提高图匹配算法的粒度,来减小搜索空间,最终达到提高查询处理效率的目的。我们通过统计实验和几个简单的实验证明了这一想法的有效性。

王伟 (XML Group)

数据去重研究
Abstract:
本次报告介绍了数据去重现有的几种方法:基于hash的方法,Delta方法等,主要介绍了他们的基本思想,以及小数据的数据去重问题.


2010.05.08 会议地点:理工配楼一楼会议室

史英杰 (Web Group)

云数据库测试结果和分析
Abstract:
本次报告介绍了云数据库系统的测试结果,并对结果进行了分析解释。

王海平 (Cloud Computing group)

分布式数据库体系结构与设计 [ppt]
Abstract:
本次报告介绍了基于关系数据模型的分布式数据库系统的体系结构以及数据分块与重定位相关知识。


2010.04.24 会议地点:理工配楼一楼会议室

周烜博士(澳大利亚CSIRO研究院)

数据库和信息检索用户界面的集成
Abstract:
澳大得亚CSIRO研究院的周?博士介绍了将数据库和信息检索的用户界面集成以更好支持查询的相关工作。


2010.04.17 会议地点:理工配楼一楼会议室

梁智超 (Flash Group)

告诉你一些关于闪存的新东西
Abstract:
本次报告介绍了UCSD非易失性系统实验室的一些研究工作。他们针对闪存进行了大量的测试工作并根据测试结果设计了多种应用,其中包括一种称为MangoFTL、一种针对闪存的数据编码方法以及一种面向数据中心应用的系统架构Gordon

范玉雷 (Mobile Group)

现有数据库管理系统在固态硬盘上的测试
Abstract:
通过分析IOps可以分析SSDHDD的物理特性。通过现有的数据库系统的性能对比来分析SSDHDD的应用性能。然后提出一些想法:1、改变PG的版本信息存储,把版本信息和数据分开;2、改变MySQL的存储引擎;3MySQLBDB)上的弱一致性;4、那种数据适合放置在SSD上。


2010.04.03 会议地点:理工配楼一楼会议室

王仲远 (Web Group)

网页抽取技术在舆情系统中的应用
Abstract:
本次报告介绍了实验室开发的网络舆情监控系统中所使用的两种网页抽取技术,以及其它一些在系统开发中常使用的工具。

黄毅 (Mobile Group)

Flex开发介绍 [ppt]
Abstract:
Flex是当前很流行的一种RIA开发技术。本次报告主要介绍了什么是FlexFlex的历史,并且探讨了Flex的原理,优势,应用范围,以及同其他RIA技术的差异。

赵婧 (Web Group)

实验环境搭建和MapReduce框架
Abstract:
本次报告包括对目前实验室的云数据管理实验平台的搭建进行介绍以及MapReduce框架的基本思想及其实现过程的介绍。

梁智超 (Flash Group)

Source Insight 一种阅读源码的工具 [ppt]
Abstract:
本次报告介绍了一种面向工程的程序编辑和代码阅读器??Source InsightSource Insight在用户使用时可以动态分析源代码并不断更新自身的符号信息数据库,从而可以自动地为用户提供有用的上下文信息。


2010.03.27 会议地点:理工配楼一楼会议室

周春姐 (Web Group)

普适计算中基于时间段的乱序事件处理
Abstract:
普适计算中复合事件处理有越来越多的现实应用.复合事件处理的一个关键因素就是从事件流中实时地抽取所需要的模式.然而,网络延迟或机器故障经常使事件产生乱序.并且,现有的工作都假设事件是没有间隔的点事件,而现实中的许多事件都是有时间间隔的.本文提出了一种基于时间段的乱序事件模型,并提出了一种混合方法进行处理,实验证明此方法的效率和可行性.

刘兵兵 (Cloud Group)

ICDE2010-Keynote [ppt]
Abstract:
本次报告根据icde2010keynote,对我们为什么要做云计算,该怎样去做,要做什么,进行了讨论。

李玉坤 (Web Group)

ICDE2010和SIGMOD2010会议概览
Abstract:
本报告基于录用的论文情况,对于国际数据库会议ICDE2010SIGMOD2010进行了总结,分析了目前的研究热点。


2010.03.20 会议地点:理工配楼一楼会议室

周大 (Flash Group)

RWConvertor: 固态硬盘随机写优化
Abstract:
随着电子技术的发展,固态硬盘作为一种新的数据存储设备,具有省电、抗震和体积小等有点。此外,更吸引人的是其高速的随机读性能。这主要得益于它在读取数据时没有机械延迟。因此近年来固态硬盘被广泛应用在笔记本、台式机和数据服务器上。但是,低下的随机写性能已经成为其进一步广泛应用的性能瓶颈。固态硬盘随机写性能是比随机读和连续访问的速度慢两个数量级,因此以写为主的应用在固态硬盘上性能一般都比较差。在这篇文章中,我们首次提出了通过在随机写序列中插入未修改的数据来实现将随机写转换为连续写,进而提高写的性能。此外,我们还通过最优写序列来进一步提高写的性能。我们采用严格的数学方法来证明了我们的转换序列具有最优的代价,而且是在多项式时间之内获得该结果。当本方法应用在数据流上时,我们通过综合增益和粒度的带宽方法来选择最优写出数据项。


2010.03.13 会议地点:理工配楼一楼会议室

张金增 (XML Group)

走近物联网
Abstract:
物联网作为下一代信息技术,引起了社会的广泛关注。它可以使得世界上的任何一个物体都可以通过网络连接起来。本次报告首先对物联网进行整体的介绍,然后介绍 了其体系结构和关键性技术,并给出了它的广泛应用。最后,提出了未来物联网的发展方向。

郝兴 (Mobile Group)

物联网相关研究报告 [ppt]
Abstract:
本次报告介绍了物联网的相关工作及发展趋势,主要介绍了华盛顿大学的微型网络项目及相关的物联网研究热点问题。


2010.03.06 会议地点:理工配楼一楼会议室

史英杰 (Web Group)

开源云数据管理系统测试
Abstract:
本次报告介绍了当前云数据管理系统的测试benchmark,描述了我们测试环境的配置以及部分测试结果,并对其进行了分析。

王仲远 (Web Group)

云数据库系统的系统结构设计与实现
Abstract:
实验室的云数据库管理系统项目旨在研究新型的数据存储及数据库管理系统,使得它能够支持下一代大数据的存储与管理,并且应用到一个具体的领域里,如移动通信领域。这个报告,介绍了整个系统的设计与实现,以及目前我们所搭建的原型系统框架。


2010.01.09 会议地点:理工配楼一楼会议室

陈跃国博士
(Invited Talk)

时间序列分析及多媒体数据库
Abstract:
时间序列和交互式多媒体有着广泛的应用,例如在计算机游戏。在识别时间序列模式中,如何刻画时间序列模式是一个很重要的问题。报告提出了一种有效的翘曲距离测度及高效的高效的算法进行连续模式识别。对于交互式多媒体数据库,主要着重于其多媒体数据的索引、存储结构、定义有效实用的相似度函数以及高效的处理算法。

綦晓颖 (Flash Group)

闪存转换层算法简介
Abstract:
本次报告介绍了几种闪存转换层算法,如BAST, FAST, LAST, 以及DFTL等,介绍了它们的基本思想及其优缺点。此外,还介绍了闪存芯片上的一些基本实验。

2009

2009.12.26 会议地点:理工配楼一楼会议室

张瑞博士 (Invited Talk)

移动对象上的连续相交连接查询
Abstract:
移动对象上的连续相交连接查询是一类计算代价非常高,对应用场景非常重要的一类查询,目前并没有专门的这方面的工作。我们通过改进一种基础算法和把已有的TP-Join方法扩展来处理这类查询。本次报告介绍了我们在这方面开展的工作。

陈晋川博士 (Invited Talk)

不确定数据管理
Abstract:
陈晋川博士概述了不确定性数据管理研究的已有成果并介绍了一些常见处理数据不确定性的方法,提出了在不确定性数据管理的一些有价值的研究课题。


2009.12.19 会议地点:理工配楼一楼会议室

王海平 (Cloud Computing Group)

cassandra和sigmod编程竞赛 [ppt]
Abstract:
casandra是一个高度可扩展的第二代数据库系统,综合了DynamoP2P数据分布处理技术以及BIGTABLE的基于列族的数据模型。sigmod编程竞赛的主要任务是在去年主存索引的基础上做一个分布式查询器。

吕瑛 (Mobile Group)

锤子和钉子
Abstract:
锤子--研究方法,钉子--研究问题,两者必备。报告首先抛出了三把锤子:签名、有序保留最小完全不冲突哈希函数和位置敏感哈希函数,然后引入了一枚新的钉子


2009.12.12 会议地点:理工配楼一楼会议室

史英杰 (Web Group)

云数据管理系统调研
Abstract:
随着计算机技术和通信技术的发展,企业和公司产生的数据量快速增长,云数据管理系统是有效存储和管理大规模数据的一种有效手段。本次报告介绍了部分云数据管理系统并对它们进行了分析比较。

刘兵兵 (Cloud Computing Group)

Hive - 在mapredudce框架下的数据仓库解决方法 [ppt]
Abstract:
介绍了在hadoop上建立的一个支持管理和查询结构化数据的系统hive并介绍了其实现查询语言的原理。


2009.12.05 会议地点:理工配楼一楼会议室

马如霞 (Web Group)

社会网络中的信任计算
Abstract:
本次报告介绍了社会网络中可信度计算现有的几种方法:AdvogatoAppleseedTidalTrust等,介绍了他们的基本思想及其实现。

陈威 (Web Group)

数据融合-集成中的数据冲突解决方案
Abstract:
在本次报告中我们简要介绍了数据融合的相关知识,包括数据冲突类型、冲突处理策略、数据融合在集成程序中的角色以及目前数据融合的实现方案。我们还介绍了当前数据融合研究领域的挑战和开放问题并对本次报告做了简单总结。


2009.11.28 会议地点:理工配楼一楼会议室

汤显 (mobile Group)

ACR:一种基于闪存的自适应的缓冲区置换策略
Abstract:
本次报告介绍基于闪存的自适应的缓冲区管理算法ACRACR算法采用一种新的基于代价的策略,可以针对不同的存取模式进行自适应的调整。

范玉雷 (Mobile Group)

Flash上的数据库管理系统中的多版本并发控制研究
Abstract:
Flash的异地更新,以及In-Page Logging的存储方式使得数据在Flash上存在多个版本。多版本并发控制需要串行化理论的支持,多版本并发控制协议包含有:MV2PLMVTOMVSGTTWROMV,分别是多版本的两阶段锁、多版本的时间戳排序、多版本的序列化图、多版本的乐观协议和只读事务的多版本并发控制协议。通过现有的数据库系统的性能对比来分析几种并发控制算法的性能。最后提出未来在Flash上的数据库管理系统的并发控制研究。


2009.11.21 会议地点:理工配楼一楼会议室

徐俊劲 (XML Group)

基于同义词规则的字符串近似搜索
Abstract:
这个报告介绍了基于片段的字符串匹配方法,并给出了一个新的相似度计算函数。

富丽贞 (XML Group)

有向无环图上可达性计算
Abstract:
在实际中,可达性计算不仅在图数据库上是个核心操作,在其他领域的图查询中也是一个核心操作。因此,近些年来得到学术界的广泛关注。在这次报告中,介绍了我所提出的一种新的编码方法。该方法能够极大地提高可达性计算的效率,编码的压率很高,构建时间很短。

张金增 (XML Group)

信息检索模型及相关反馈
Abstract:
这次报告首先介绍了四种经典的信息检索模型,在此基础上,给出了改进检索结果的两种方法:全局方法和局部方法,重点对局部方法中的相关反馈技术进行了探讨。


2009.11.14 会议地点:理工配楼一楼会议室

李玉坤 (Web Group)

数据空间研究回顾
Abstract:
对于我们在数据空间方面的研究工作进行了回顾,介绍了目前正在进行的一项研究工作。

张相於 (Web Group)

数据空间研究进展报告
Abstract:
介绍了在数据空间方面的研究和系统实现进展。

寇玉波 (Web Group)

利用特征关联提高子图查询效率
Abstract:
在图数据库的子图搜索这个问题上,过去的工作关注选择怎样的结构作为特征可以更好的提高过滤效率产生更少的候选图。目前来看这一思路遇到了瓶颈:虽然提出的特征越来越复杂,然而最后的候选集准确率依然很低。因此我们提出使用特征之间的关联来提高子图查询的效率的想法。


2009.11.08 会议地点:理工配楼一楼会议室

李玉坤 (Web Group)

CIKM2009参会总结
Abstract:
根据我们的参会经历和印象,对CIKM2009进行了简单总结,重点介绍了会议的三个主题报告。

周大 (Flash Group)

CIKM2009 参会总结 [ppt]
Abstract:
CIKM是一个很高水平的国际会议,主要分为信息检索,知识管理和数据库三个方向。这次参会本人主要集中在poster方面。这个方面大家展示了很多关于如何提高搜索引擎的性能和效果的。

王仲远 (Web Group)

CIKM2009参会总结
Abstract:
在这个报告中,我介绍了CIKM2009上与Web数据管理和点击日志挖掘相关的3篇文章与1Tutorial。此外,还介绍了一些参会感受。

张相於 (Web Group)

CIKM2009参会总结
Abstract:
在这个报告中,我对CIKM2009的情况作了一个简单的总结和介绍,并结合自己参加会议的经历谈了一些自己的想法。


2009.10.31 会议地点:理工配楼一楼会议室

张相於 (Web Group)

云数据管理的一种高效多维索引 [ppt]
Abstract:
这是参加CIKM 2009CloudDB Workshop的预报告,介绍了一种云数据管理背景下的高效多维索引机制。

李玉坤 (Web Group)

基于上下文查询个人数据空间 [poster]
Abstract:
用户在撰写个人文档的时候,往往需要引用一些其它文档的内容(例如一些图片、数据、表格等)。用户访问个人文档时,有时需要重新访问这些被调用的相关文档。现有的工具不能很好的支持这种用户需求。基于此本文定义了一种新的基于上下文的个人数据关系(Context-based Relationship),并提出了有效地挖掘这种数据关联的方法,以及基于这种关联查询个人数据的方法。

周大 (Flash Group)

CIKM2009预报告 [poster]
Abstract:
固态硬盘作为一种新型的电子存储设备,具有高速的随机读性能。所以固态硬盘被广泛地应用在笔记本、台式机和服务器中。固态硬盘也被认为在未来的数年中将会取代磁盘成为新的数据存储设备。但是差的随机写性能在实际中成为性能的瓶颈。在本文中,我们提出在随机序列中加入未修改的数据,这样可以将随机序列变化为连续序列。在这种情况下,数据的写入速度就会得到极大的提高。


2009.10.24 会议地点:理工配楼一楼会议室

肖湘晔 (Web&Mobile Group)

NDBC2009特邀报告总结
Abstract:
肖湘晔博士对第26届中国数据库学术会议NDBC 2009的特邀报告作了简要的回顾和总结,重点介绍了包括董欣博士、孟卫一教授、王海迅博士和陈雷博士的主题报告的内容。

李玉坤 (Web Group)

SKG2009参会报告
Abstract:
SKG2009进行了简单介绍,重点介绍了这次会议的两个主题报告。

霍峥 (Mobile Group)

新的研究热点:带有地理信息的查询 [ppt]
Abstract:
在查询中能发现用户明确的或潜在的地理信息能提高用户查询的满意度。这些年来,关于带有地理信息的查询已经成为研究热点。目前有几种处理方法,第一类是基于训练数据的,这类方法需要查询日志等大量数据来处理;另一类是将空间位置和文本相似性结合进行查询,但这类方法只能处理本地的地理信息。目前,最大的挑战是如何发现用户隐含的地理信息。

胡享梅 (Web Group)

轨迹模式挖掘
Abstract:
随着移动设备和基于位置服务的普及,导致了用户移动历史数据的海量增长。这就为我们分析用户的移动行为提供了机遇。目前,用户运动的轨迹模式挖掘成为很热的一个研究问题。本次报告主要介绍了目前在这个研究问题上的一些代表性的研究工作,并总结指出了其中的一些缺点和不足。


2009.10.11 会议地点:理工配楼一楼会议室

艾静 (Web Group)

C-Rank -- 一种Deep Web数据记录可信度评估方法
Abstract:
如何识别和评价Web上的数据信息的可信度已经变得越来越重要。为了解决这个问题,本次报告提出了一种为Deep Web数据记录计算可信度的有效方法C-Rank,该方法为每一条记录构造一个S-R可信度网络。

郝兴 (Mobile Group)

基于位置服务中的连续查询隐私保护研究
Abstract:
近年来,伴随着移动计算技术和无限设备的蓬勃发展,位置服务中的隐私保护研究受到了学术界的广泛关注,提出了很多匿名算法以保护移动用户的隐私信息。但是现有方法均针对snapshot查询,不能适用于连续查询。如果将现有的静态匿名算法直接应用于连续查询,将会产生隐私泄露、匿名服务器工作代价大等问题。针对这些问题,提出了δp-隐私模型和δq-质量模型来均衡隐私保护与服务质量的矛盾,并基于此提出了一个贪心匿名算法。该算法不仅适用于snapshot查询,也适用于连续查询。最后,实验结果证明了算法的有效性。

王伟 (XML Group)

基于代数的Transform查询优化策略
Abstract:
XQuery/Update中定义了一种特殊的查询?Transform查询。Transform查询类似于关系数据库中的假设查询,可以表示成假设查询的一般形式:“Q when {U}”,即查询Q的查询结果是假设数据库执行了更新操作{U}以后的结果,而更新操作U实际不修改数据库的状态。Transform查询需要拷贝XML数据库中的结点,并对拷贝的结点执行更新操作,所以不影响数据库的状态。但该操作通常拷贝和更新了大量与查询结果无关的结点,因此如何减少拷贝与更新操作的代价是Transform查询处理优化的关键。提出了基于OrientXATransform查询优化方法,并在Native XML数据库系统OrientX 3.0里实现和验证了该方法。

周大 (Mobile Group)

HF-Tree--一种闪存数据库的高更新性能索引结构
Abstract:
由于闪存高昂的写操作代价,传统的基于磁盘的索引结构如果直接应用在闪存上的话会导致极差的更新性能。周大在本次报告中提出了一种新颖的索引结构HF-tree,通过组提交、更新合并,以及多级延迟的方式来提高更新性能。

梁智超 (Mobile Group)

Sub-Join -- 一种闪存数据库的查询优化算法
Abstract:
和磁盘(HDD)相比,固态硬盘具有高速的随机读取速度、低功耗、体积小等特点,因而被认为将取代磁盘成为新一代的数据存储设备。但是闪存数据库的查询性能的提高却远小于固态硬盘相比于磁盘IO 性能的提高。其原因在于现有的数据库是基于磁盘而设计的,使得现有的数据库不能充分发挥固态硬盘的高速性能。因此文章提出一种名为子连接(Sub-Join)的连接算法。子连接算法首先将数据表的连接列和主键投影为新的子表,然后对子表进行接连操作,最后根据子表的连接结果再从原始数据表中回取查询结果。通过和开源数据库Oracle Berkeley DB 的比较实验,结果表明子连接算法比原有的算法性能提高40%-100%,充分说明它的优越性。


2009.09.28 会议地点:理工配楼一楼会议室

董欣 (AT&T Research)

不确定性数据集成
Abstract:
来自AT&TData Management Department董欣博士拜访WAMDM实验室并做了题为《不确定性数据集成》的特邀报告,介绍了她和她的研究团队在不确定性数据集成方面做的重点工作。


2009.09.19 会议地点:理工配楼一楼会议室

肖湘晔 (Web&Mobile Group)

Co-Location模式的高效发现方法
Abstract:
肖湘晔博士介绍了她在攻读博士学位期间的一些重点工作,包括Co-Location模式的高效发现和移动设备上的Web浏览技术,并对未来的研究工作提出了一些展望。

陆嘉恒 (XML Group)

移动环境中关键词搜索关键技术研究
Abstract:
陆嘉恒博士的移动环境中关键词搜索关键技术研究课题获得了国家自然科学基金资助,在本次报告中他对该课题的研究内容、研究方向等做了详细的介绍。


2009.07.25 会议地点:理工配楼一楼会议室

郭青松 (XML Group)

OrientX4.0 - 支持关键字搜索
Abstract:
随着XML技术的发展,越来越多的用户使用XML数据。传统的方法是使用XQuery来进行查询,但是这需要用户学习XQuery查询语言,并且还需要用户了解XML文档的结构和内容。这对一般用户来说是一个巨大的挑战,但是关键字搜索能解决上述问题。为了让用户能够更好、更方便地使用XML数据,所以我们将在OrientX4.0中提供关键字搜索。

王伟 (XML Group)

OrientX4.0系统开发报告 [ppt]
Abstract:
XML 关键字搜索技术的实现


2009.07.18 会议地点:理工配楼一楼会议室

郝兴 (Mobile Group)

路网中的不确定kNN查询
Abstract:
路网上的移动对象查询,尤其是k近邻查询(k Nearest Neighbor Query,即查找距离用户最近的k个对象)一直是非常重要,且引起广泛关注的问题。本次报告将针对路网上的诸多不确定性因素,讨论在道路网络中不确定性的表示以及如何针对移动用户的不确定新进行k近邻查询。

黄毅 (Mobile Group)

隐私保护展示程序开发报告
Abstract:
为显示隐私保护算法,体现隐私保护技术在863普适计算项目中的研究内容,设计开发隐私保护展示程序。本报告主要介绍该展示程序的特点、功能、开发计划与进展等。

周春姐 (Mobile Group)

基于时间段的乱序事件流的查询处理
Abstract:
复合事件处理在实际应用中越来越重要,其中,复合事件处理的一个关键方面就是从事件流中实时地抽取以便于决策。然而网络延迟或机器故障经常会引起事件的乱序。并且,现有的很多工作都没有考虑事件的持续性,而时间段的考虑对现实应用和事件间的关系是很重要的。因此,本文针对时间段和乱序事件提出了可行的解决方法。


2009.07.11 会议地点:理工配楼一楼会议室

梁智超 (Flash Group)

Flash组系统开发报告 [ppt]
Abstract:
对已有的开源数据库系统进行改造以开发出针对flash存储的DBMS是一种可取的开发方式,但是选择哪个开源DBMS进行改造却是一个需要谨慎处理的问题。在经过一份分析后,我们认为包含了Berkeley DB作为其存储引擎的MySQL是最佳选择。


2009.07.04 会议地点:理工配楼一楼会议室

李玉坤 (Web Group)

SIGMOD2009会议概览 [ppt]
Abstract:
根据会议情况分析了目前一些热点的研究问题,并介绍了两篇会议论文。

周大 (Mobile Group)

闪存研究报告 [ppt]
Abstract:
闪存数据库研究在国际上变得越来越热。我们非常高兴看到在sigmod2009VLDB2009上有一些关于索引,查询处理和事物处理方面的文章。这个报告将简单介绍这些文章的基本问题和解决方法。

富丽贞 (XML Group)

XML编码及查询优化 [ppt]
Abstract:
由于缺乏好的估计方法和代价模型,带有许多XPath步和连接操作的复杂XQuery查询表达式的查询优化受到限制。此外,编码是XML数据库系统的核心操作,设计一个支持动态更新的编码方法已经成为研究的热点问题。这次报告介绍了sigmod09中一个新编码方法DDE和一种新的实时查询优化方法ROX


2009.06.27 会议地点:理工配楼一楼会议室

卢泽萍 (Mobile Group)

闪存数据库上的日志存储问题 [ppt]
Abstract:
近年来,闪存存储器的技术迅速发展,越来越多的数据存放在闪存之上,因此,如何管理闪存数据,如何使传统的数据库技术更好的适应基于闪存的数据库成了一个重要的研究课题。而随着研究的不断深入,越来越多的学者认为,对于闪存数据库的事务性能的改进是一个非常有意义的工作。 在本次报告中,我们探讨了数据库的日志在不同闪存设备上存储时所表现出来的不同特点,并进一步讨论了在日志存储之上的恢复技术和将来所要做的工作。

胡享梅 (Web Group)

基于位置的数据库选择
Abstract:
本次报告主要是给大家介绍一下基于移动的web数据库选择的研究动机以及这个问题的定义;与传统的数据库选择相比,它考虑的因素有什么不同。然后介绍一下传统的数据库选择中的几篇相关工作。最后提出一个初步解决方案来跟大家共同探讨。

赵婧 (Web Group)

结构化数据的snippet生成
Abstract:
随着移动过设备使用的越发频繁,在移动设备上的查询结果显示显得越发重要。在结构化查询中,一个结果记录往往包含很多的数据项,但是移动设备相对于传统显示设备来说较小的显示屏幕无法适应如此多的数据项,因此,我们需要根据用户的查询、移动设备的特点等方面来确定记录的哪些数据项返回给用户,即snippet抽取过程,从而减少每条查询结果的内容长度,提高显示的效率。


2009.06.20 会议地点:理工配楼一楼会议室

王伟 郭青松 (XML Group)

XML 关键字搜索引擎
Abstract:
XML已经成为数据交换的事实上的标准,对XML数据的查询成为一个非常重要的问题。使用W3C推荐的标准查询语言XQueryXpath我们能够很容易查询到自己想要的数据,但是这需要用户熟悉XQueryXPath语言,并且他们还要了解XML的结构和内容才能写出正确的查询。这对普通用户来说是一个很大的挑战,这就促使了对XML关键字搜索的研究,它不需要用户掌握XML查询语言,也不需要用户了解XML文档内容,这样就使得用户查询变得非常容易。OrientX3.5的下一个版本(4.0)的主要特征就是支持关键字搜索功能,在报告中郭青松分析比较了现有的XML关键搜索引擎的各自特点和不足,然后总结出了他们的共同特征并在此基础上定义了OrientX4.0版的主要特征。王伟主要就OrientX4.0版的关键字搜索中的关键技术,SLCA的计算原理和算法、以及查询结果排序的模型进行了探讨。


2009.06.13 会议地点:理工配楼一楼会议室

富丽贞 (XML)

图结构的XML数据查询处理研究
Abstract:
当把XML数据模型定义为图模型时,就会出现许多新的研究课题。尤其在查询图结构的XML文档时出现许多挑战性问题。因为以前的XML文档的查询处理技术都是针对树结构的XML数据,这些方法不能直接的应用到图结构的XML数据查询。

范玉雷 (Mobile Group)

Flash上的MVCC [ppt]
Abstract:
Flash具有异位更新的特性,使得数据在硬件上存在多个版本.鉴于此考虑,数据库管理系统的事务处理子系统采用MVCC,可能会使数据库管理系统具有更好的性能.我们首先介绍了MVCC的一些基本原理,比如MVSRMVCR.然后介绍了几个MVCC协议,比如MVTOMV2PL.解析BDBPG中事务子系统,然后更深入的了解事务处理的过程。


2009.06.06 会议地点:理工配楼一楼会议室

潘晓 (Mobile Group)

位置,位置,位置
Abstract:
此次报告主要是与大家一起研究讨论Christian S. JensenMDM09上的Keynote

李玉坤 (Web Group)

C-Query: 基于上下文的个人数据空间查询策略
Abstract:
用户在编辑个人文档的时候,经常需要参考其他文档(邮件、图片、网页等),而且经常需要重新访问这些被引用的文档。由于在这些文档之间没有建立关联关系,使得这种访问往往效率较低。本文提出了一种自动挖掘这种基于用户行为的引用关系的方法。从而支持用户基于这种关系有效地查询个人数据信息。


2009.05.23 会议地点:理工配楼一楼会议室

王伟 郭青松 (XML Group)

OrientX系统开发报告 [ppt]
Abstract:
OrientX3.5 的主要特征和实现方法


2009.05.16 会议地点:理工配楼一楼会议室

周大 (Mobile Group)

固态硬盘随机写优化
Abstract:
对于固态硬盘来说,相对于连续/随机读、连续写,随机写的IO性能非常差。本文提出一种新颖方法,可以避免固态硬盘低下的随机写性能。

汤显 (Mobile Group)

缓冲区管理策略总结 [ppt]
Abstract:
本报告分别介绍了基于磁盘和基于闪存的几个经典的缓冲区管理算法。这包括磁盘上的LRU, LFU, FBR等缓冲区算法以及CFLRU, FAB, BPLRU等基于闪存的缓冲区算法。


2009.04.25 会议地点:理工配楼一楼会议室

王仲远 (Web Group)

云计算上的索引框架研究 [ppt]
Abstract:
云计算系统的出现使得软件服务商部署大规模分布式系统变得容易起来。云计算系统会在用户和软件厂商之间提供一个简单统一的接口,使得软件厂商能够专注于软件本身。但是,现有的云计算系统对于索引并没有很好地支持。该文提出了一种云计算上的索引框架,能够减少云计算系统内部的数据传输开销。

张相於 (Web Group)

云计算平台上的数据管理——局限与挑战 [ppt]
Abstract:
分析了适合移植到云计算平台上的数据管理应用,并且讨论了这种移植目前仍然面临的挑战。


2009.04.18 会议地点:理工配楼一楼会议室

周军锋 (XML Group)

MCN: 一种新的XML关键字查询语义 [ppt]
Abstract:
该报告主要介绍一种新的XML关键字查询语义,相应的文章发表于DASFAA2009

姜芳艽 (Web Group)

互斥查询的选择性估计 [ppt]
Abstract:
报告了关于互斥查询中的选择性估计的研究结果,论文发表在DASFFA2009上。


2009.04.11 会议地点:理工配楼一楼会议室

李玉坤 (Web Group)

ICDE2009特约报告总结 [ppt]
Abstract:
ICDE2009的三个特约报告做了简单总结.

周大 (mobile Group)

ICDE参会总结
Abstract:
ICDE是一个非常重要的数据管理的国际大会。在这个会上,有很多与闪存数据库相关的研究工作。从这些工作看来,事务处理已经成为这个领域的一个研究热点。

梁智超 (Flash Group)

介绍几个ICDE2009中的Demo [ppt]
Abstract:
WEST(网络实体搜索技术)是一个不同于传统搜索引擎的Pepole Search系统,它的返回结果不是简单的返回和查询人名相关的所有网页,而是返回一个个的聚类,每个聚类里面的页面只和一个不同于其它聚类里面的人物实体相关。Fa是一个用来解决SLO violations的一个全新的自动诊断系统。UQLIPS则是一个基于Web的集成平台,它可以进行在线相似视频的检测以及检索。


2009.04.04 会议地点:理工配楼一楼会议室

潘晓 (Mobile Group)

连续查询的隐私保护技术
Abstract:
近年来,位置隐私保护技术受到了广泛关注。但是现在的匿名算法都是针对snapshot的查询类型。这个报告讨论了我们一些针对连续查询隐私保护的想法。

周春姐 (Mobile Group)

普适计算中的复合事件检测
Abstract:
普适计算环境中传感器设备的大规模使用产生了数量巨大的、错综复杂的原子事件,而现实世界中的许多应用却更注重复合事件的检测,例如:健康护理,监督设施管理,环境/安全监控等。因此如何从这些底层的原子事件中抽取人们感兴趣的、有用的复合事件就变得越来越重要。目前,在复合事件检测方面存在大量的研究工作,他们的研究内容各有侧重。有的强调时间因素,特别是对时间段的考虑的重要性;有的研究了分布式数据源中的复合事件检测;近期又有人提出了不确定性数据上的复合事件检测工作。由于复合事件检测的日益重要,本文分析了复合事件检测研究中存在的挑战性问题,从事件类型、时间因素和数据的精确程度三个方面归纳总结了复合事件检测的现有研究工作,并指出了未来的研究方向。同时,本文还提出了一个事件模型和复合事件检测的框架结构。


2009.03.28 会议地点:理工配楼一楼会议室

姜芳艽 (Web Group)

Deep Web集成:查询Deep Web中的结构化数据 [ppt]
Abstract:
介绍了Deep Web的相关背景知识,Deep Web数据集成的关键技术、国内外相关的研究小组、元搜索引擎与元查询之间的区别与联系,以及未来我们关注的研究点。

胡享梅 (Web Group)

数据库选择
Abstract:
数据库选择是一个很重要的研究问题。该报告总结介绍了数据库选择之前的一些相关研究工作及目前我们主要研究的问题。


2008.03.21 会议地点:理工配楼一楼会议室

李玉坤 (Web Group)

CoreSpace:一个基于用户行为的个人数据空间框架
Abstract:
提出了一种新的数据空间框架:核心数据空间,通过刻画用户与具体的数据对象之间的关系建立附和用户行为规律的数据视图,基于此为用户提供更有效的查询方法。

寇玉波 (Web Group)

一种有效的个人任务挖掘方法
Abstract:
提出并阐述了一种基于个人数据访问行为的个人任务挖掘方法。


2009.03.14 会议地点:理工配楼一楼会议室

黄飞 (Cloud Computing)

基于Hadoop的Map/Reduce框架研究报告 [ppt]
Abstract:
Map/Reduce框架是Hadoop的核心算法。 它是一个用来解决基于海量数据问题的简单但是功能强大的算法。在这篇报告中,我会先介绍一下hadoopMap/Reduce的概念,然后对Map/Reduce框架的具体流程做详细的介绍。

胡一 (Web Group)

HBase的基础介绍 [ppt]
Abstract:
HBaseHadoop的子项目,为Hadoop提供分布式数据存储。HBase是一个基于列操作的数据表,它的三层文件结构为分布式数据存储提供可行方案,它的三层体系结构解决了分布式数据的分配及定位问题。基于和MySQL的比较,我们对HBase的性能有了更直观的理解。

陈威 (Web Group)

C-DBLP开发进展及规划展望
Abstract:
C-DBLP对外发布以来,开发小组根据用户的反馈和研究工作的需要新加入了一些功能,并对一些研究性问题如重名区分、关系挖掘进行了研究,本次报告介绍了开发取得的进展和解决研究性问题的初步思路,并对未来的工作进行了规划。


2009.03.07 会议地点:理工配楼一楼会议室

贾琳琳 (Web Group)

基于字典的近似查询匹配技术研究
Abstract:
介绍了用于近似查询的ISH方法并分析了它的优缺点,提出一种新的索引结构及相应算法,实验证明新方法的效率显著优于ISH

徐俊劲 (XML Group)

字符串相似度
Abstract:
介绍了当前计算字符串相似度的方法,包括编辑距离和基于片段的方法。


2009.02.28 会议地点:理工配楼一楼会议室

赵婧 (Web Group)

Faceted Search [ppt]
Abstract:
faceted search进行一个比较全面的介绍,包括概念、与navigational searchdirect search的区别,同时也对faceted search的用户界面当前研究现状进行介绍。

陈威 (Web Group)

Facet层次结构的自动构建
Abstract:
facet的层次结构是facet search系统中数据的主要组织形式,它们被用于支持系统基于facet的导航式浏览过程和对搜索结果的优化。facet层次结构的构建是在facet search研究领域中最重要的研究课题之一。由于目前的系统中facet的层次结构大都是手工建立的,我们迫切需要有一种自动构造facet层次结构的方法。本次报告介绍了W. DakkaP. G. Ipeirotis在自动构建facet层次结构上的研究进展和成果。


2009.01.11 会议地点:理工配楼一楼会议室

周军锋 (XML Group)

XML数据管理技术研究 [ppt]
Abstract:
该报告主要介绍XML数据管理技术的主要研究点,并用简单的例子对相应的研究点进行了介绍

富丽贞 (XML Group)

图数据库系统的相关研究问题
Abstract:
这次报告主要介绍了关于图数据库系统的一些研究热点,包括索引建立,包含查询处理以及可达性计算三方面研究。

WAMDM实验室研讨会(2006-2008

2008

2008.12.27 特邀报告 会议地点:信息楼一楼会议室

陈继东 (EMC Research China)

云个人信息管理 [ppt]
Abstract:
随着个人数字信息的自动在线存储和备份,随时随地访问以及安全共享和发布的巨大需求,个人信息管理已经不可避免的转移到“云”计算的环境中。个人信息云服务的目标是安全的访问和组织所有你的信息,并保证你可以在任何时间任何地点,使用任何设备访问到这些信息,且从不会丢失。EMC公司正在通过结合Mozy在线备份服务和Pi个人信息服务创建一个新的云服务业务公司称为Decho(也即是“数字回声(digital echo)”,指用户个人数字空间中来回存取信息)。它将使用EMC遍布全球的数据中心来存储消费者和业务文件,具体通过Mozy的前后端软件来提供访问和存储服务,通过Pi的元数据软件来管理个人信息。Decho能够发送基于云的个人信息管理服务,帮助个人在任何地点都能保存,管理和丰富最重要的信息。

柴云鹏 (Tsinghua University)

云计算的个人理解 [ppt]
Abstract:
云计算是近年来出现的一个新的概念,本文首先通过将云计算和以前的分布式计算和网格计算等进行比较,帮助理解云计算的概念和特点。另外基于上述对云计算的理解,分析了云计算在平台和结合应用两个方面可能的研究方向。


2008.12.20 会议地点:信息楼一楼会议室

艾静 (Web Group)

Web上的信息可信性问题 [ppt]
Abstract:
Web上的信息可信性问题是目前的一个重要的研究论题。这篇报告是关于目前信息可信度问题的研究的综述。详细介绍了在六种不同的Web应用场景下如何保证信息可信的方法,包括P2P网络、网上论坛、维基百科等等。还介绍了信息可信度的标准和评价方法。最后是一个简短的总结。

胡享梅 (Web Group)

网页作弊 [ppt]
Abstract:
对常见的web作弊进行综述,重点介绍提高排名和隐藏作弊两类方法。作弊者们利用关键词和链接作弊的方式获得在搜索引擎上的虚假排名。此外,内容隐藏、覆盖和重定向等方法也常被用来隐藏作弊行为。最后介绍了针对不同的作弊方法如何进行检测。


2008.12.13 会议地点:信息楼一楼会议室

谷晓巍 (Mobile Group)

相关知识的不确定推理
Abstract:
不确定性推理体现在人类生活的很多方面,我们首先考虑了不确定推理系统的一些重要因素,并且提出了一个基于相关的不确定性推理框架。

周春姐 (Mobile Group)

普适计算中不确定性复合事件检测的研究与挑战
Abstract:
传感器设备的大规模使用产生了数量巨大的原子事件,因此如何从这些底层的原子事件中抽取人们感兴趣的、有用的复合事件就变得越来越重要。现实世界中存在许多复合事件检测的应用,例如:供应链管理,监督设施管理,健康护理,环境监控等。目前,在事件检测方面存在大量的研究工作,他们的研究内容各有侧重。有的强调时间因素,特别是对时间段的考虑的重要性;有的研究了分布式数据源中的复合事件检测;近期又有人提出了不确定性数据上的事件检测工作。由于事件检测的日益重要,本文分析了事件检测研究中存在的挑战性问题,从事件类型、时间因素和数据的精确程度三个方面归纳总结了事件检测的现有研究工作,并指出了未来的研究方向。


2008.12.07 会议地点:信息楼一楼会议室

王伟 (XML Group)

OrientX系统简介 [ppt]
Abstract:
简单介绍了OrientX系统的各个方面,包括OrientX的体系结构、主要特征、存储、系统演示及其OrientX获得的一些成绩和评价。

朱金清 (XML Group)

OrientX3.0及其改进之处 [ppt]
Abstract:
主要介绍OrientX3.0系统的查询处理实现,包括导航查询处理和代数查询处理。并分析了代数查询处理存在的效率问题及其XQuery/Update的实现问题。

王伟 (XML Group)

OrientX新版本定义及计划 [ppt]
Abstract:
OrientX新版本的定义及其开发计划


2008.11.29 会议地点:信息楼一楼会议室

张相於 (Web Group)

OrientSpace第二阶段规划
Abstract:
介绍了OrientSpace系统第二阶段开发的具体规划。

张相於 (Web Group)

基于用户行为的个人数据空间演化策略
Abstract:
演化是数据空间最为突出的特点之一。个人数据空间中的演化问题与集成环境下的演化问题有所不同。我们提出了一种基于用户行为和用户反馈的个人数据空间演化框架。该框架能够以pay-as-you-go的方式实现个人数据空间的演化。

李玉坤 (Web Group)

TaskSpace: 一种基于任务的个人数据空间模型
Abstract:
任务使人们常用的一种个人数据组织和查询方式。基于此本文提出了一种基于新的个人数据组织模型TaskSpace。并提出了基于TaskSpace的数据查询方法,实验证明该模型和查询方法可以提高人们对数据空间的访问效率。


2008.11.14 会议地点:信息楼一楼会议室

周大 (Mobile Group)

2008闪存数据库研讨会
Abstract:
2008闪存数据库会议在安徽省合肥召开。有超过20个该领域的老师和学生参加该会议。这次会议的研讨内容包括存储、索引、查询处理和事物处理等方面。在介绍完这次会议的研究内容之后,我们介绍了我们在闪存数据库查询方面最新的工作进展。我们介绍一些基本的想法和实验。最后我们展示了在合肥的一些照片。

郭青松 (XML Group)

CRF模型介绍 [ppt]
Abstract:
条件随机域模型(CRF)是一种判别模型,经常用于自然语言处理和生物序列比对,对序列数据加以标记和对其进行解析。我们尝试把CRF模型使用在XML关键字重写上。

刘兵兵 (Web Group)

基于累积得分的信息检索技术评估方法 [ppt]
Abstract:
作者提出了4种评估IR技术的新方法,分别是CG,DCG,NCG,NDCG。第一种方法计根据排序结果集计算获取的文档相关度得分。第二种方法跟第一种相似但是针对后边取得的文档对累积得分使用了折扣因素。第三(四)种方法针对CG和DCG以理想IR为标准进行了标准化。另外作者针对5种不同的IR方法使用本文提出的评估方法进行了实验,并且对影响这些方法的参数进行了讨论。


2008.11.07 会议地点:信息楼一楼会议室

潘晓 (Mobile Group)

CIKM2008参会总结 [ppt]
Abstract:
介绍了赴美参会的一些感受。

周军锋 (XML Group)

工作总结
Abstract:
本次报告主要介绍已有的XML关键字查询方法,然后介绍数据流上关键字查询的基本想法


2008.10.31 会议地点:信息楼一楼会议室

寇玉波 (Web Group)

Web应用中的实体识别问题研究
Abstract:
本实验是关于在文本中提取与字典近似匹配的子字符串的问题。这个问题有许多重要的应用场景,例如从文本文档中抽取实体,以及从生物学文献中识别生物学概念。

朱金清 (XML Group)

SQL/XML查询语句分析
Abstract:
主要分析了SQL/XML语句的特点,重点考察了XML查询在SQL中出现的位置、特点等,根据现有的关系数据库考虑如何将XML查询扩充到已有的数据库中。

范玉雷 (Mobile Group)

解释性编程语言:Ruby [ppt]
Abstract:
Ruby是一个注重均衡的语言,它的发明者松本行弘 Yukihiro “matz” Matsumoto,混合了他喜欢的语言(Perl、Smalltalk、Eiffel、 Ada和Lisp)产生了一种具有函数式及指令程序设计特性的新语言。重要的语言特性有


2008.10.17 会议地点:信息楼一楼会议室

张相於 (Web Group)

数据空间研究进展报告
Abstract:
介绍了近期在数据空间系统开发以及研究方面的进展和思考。

张相於 (Web Group)

TEXEM:一种基于实体的邮件任务提取策略(NDBC2008) [ppt]
Abstract:
介绍了我们在邮件任务提取方面的工作,该工作将出现在NDBC2008。

王仲远 (Web Group)

一种数据驱动的Wrapper自动生成与维护方法(NDBC2008) [ppt]
Abstract:
本文提出了一种新颖的数据驱动的Wrapper自动生成与维护方法.这种方法利用同一领域不同网站之间,以及同一网站不同版本之间的语义关系,通过数据项的匹配,来生成和维护Wrapper.

黄静 (XML Group)

MLCEA:一种基于实体的XML关键字查询语义(NDBC2008) [ppt]
Abstract:
定义有效的查询语义来确定返回结果是XML关键字查询中的研究问题之一,我们提出了基于实体的两种语义:LCEA和MLCEA,能够有效地提高XML关键字查询的效率。


2008.10.11 会议地点:信息楼一楼会议室

朱金清 (XML Group)

基于相关性语义的高效XML Twig查询处理方法(NDBC2008) [ppt]
Abstract:
虽然XML关键字查询方法容易使用,但表达能力有限;而结构化查询语言在用户不了解模式信息的前提下无法正确地表达查询.提出一种基于相关性(related)语义来扩充XPath的表达能力,使得用户在不了解文档模式的情况下也可以轻松表达自身的查询请求.提出基于related语义的XML Twig查询处理方法rTwigStack.

卢泽萍 (Mobile Group)

TPC-C标准及试验平台 [ppt]
Abstract:
TPC-C 是一种旨在衡量联机事务处理(OLTP)系统性能与可伸缩性的行业标准基准测试项目。为了评估软件的性能,需要一个严格符合TPC-C标准的测试软件,获取统一的性能指标。


2008.09.20 会议地点:信息楼一楼会议室

贾琳琳 (Web Group)

基于字典的近似匹配与查询算法
Abstract:
如何高效地从随机输入文档中近似地抽取字典中的成员

李玉坤 (Web Group)

OwnerCorrelation: 一种新的个人数据空间管理框架
Abstract:
数据对象与主体的关联性在个人数据空间管理中有重要作用。基于这一假设我们提出了一个新的概念OwnerCorrelation来刻画这种关联性。为个人数据空间研究提出另外一种新的思路。


2008.09.13 会议地点:信息楼一楼会议室

周春姐 (Mobile Group)

室内导航研究综述
Abstract:
由于信号强度、精确度等因素的影响,传统的各种定位方法都不适合于室内环境,室内导航与室外导航存在很大的差异性,有其独特的需求和广泛的应用,因此室内导航研究成为一个热点。文章分析了室内导航存在的挑战问题,从导航方式、导航技术和导航系统三方面归纳总结了现有的研究工作,并指出了未来的研究方向。

汤显 (mobile Group)

近期工作总结
Abstract:
这次报告主要介绍最近工作以及所涉及到的初步想法。这个初步的想法来源于两个方面的文章,一个是自调优方向的,一个是底层存储方向的。


2008.09.06 会议地点:信息楼一楼会议室

潘晓 (Mobile Group)

香港研究工作总结
Abstract:
重要介绍了在香港期间的研究工作,并对徐老师的实验室进行了简单的介绍。

周军锋 (XML Group)

工作总结
Abstract:
这次报告主要向大家介绍过去四个月在新加坡国立大学所做的工作,主要包含两个部分。第一个是关于扩展XPath语法的工作,第二个是关于XML关键字查询的工作。


2008.07.26 会议地点:信息楼一楼会议室

陈丁洁
陈威 (Undergraduate)

C-DBLP开发报告及系统展示 [ppt]
Abstract:
C-DBLPWAMDM实验室Web组基于数据集成技术开发的一个计算机领域中文文献集成系统,系统以文献作者为中心进行数据组织,集成中国国内核心期刊及知名会议的论文数据,向用户提供高效易用的文献检索服务。

张相於 (Web Group)

OrientSpace系统开发进展报告
Abstract:
介绍了OrientSpace这个假期的开发进展

席智勇 (Undergraduate)

PG 代码分析报告之executor
Abstract:
Executor 部分在PostgreSQL 系统中是查询子系统中的一个组成部分,是查询处理的最后一个步骤,负责执行传入的执行计划(Query Plan),并将结果发到指定接收处,如用户终端、网络接口和程序缓冲区等等。


2008.07.19 会议地点:信息楼一楼会议室

李玉坤 (Web Group)

EASE:一种有效的面向异构数据的关键字搜索方法
Abstract:
这是SIGMOD2008的一片文章(作者:李国良等)。其针对大量异构(结构化、半结构化、非结构化)数据的查询与索引问题,这篇文章提出了一种有效的自适应的关键字搜索方法:EASE。提出了一种基于图的扩展的倒排索引方法使基于关键字的索引更加简便。并且提出了一种新的排序策略以提高搜索的有效性。

朱金清 (XML Group)

复杂图中的关键字近似检索
Abstract:
这是一篇SIGMOD'08有关图上的关键字近似检索的文章。以前的相关工作都是通过Steiner-tree的方法来解决图上的关键字查询。但是这些工作主要有两大缺点:(1)它们会丢失非常相关的解,这些通过求解最短路径上常见的问题;(2)它们返回的解可能会含有较多的冗余结果,而这些冗余结果将会导致结果返回的效率低下。文章的作者利用了Lawer方法使得返回的结果不含冗余,并且以C-approximate的方式进行排序,从而高效地解决了复杂图上的查询问题。

席智勇 (XML Group)

PG Code review报告格式
Abstract:
PG代码分析报告的格式和分组情况


2008.07.05 会议地点:信息楼一楼会议室

陆嘉恒 (XML Group)

基于高效合并与过滤算法的字符串的近似搜索
Abstract:
我汇报了自己的研究经历并报告了一篇ICDE2008关于基于高效合并与过滤算法的字符串的近似搜索的算法。

贾琳琳 (Web Group)

在线广告与AdCenter实验室介绍 [ppt]
Abstract:
介绍在线广告的重要性以及关键词广告、基于内容的广告的投放原理,介绍微软AdCenter实验室的Demo。

贾琳琳 (Web Group)

分面式搜索 [ppt]
Abstract:
介绍分面式搜索以及分面式搜索与关键字搜索、分类搜索、高级搜索的区别。

寇玉波 (Web Group)

介绍Freebase [ppt]
Abstract:
Freebase致力于创建一个开放的共享的知识库。与Wikipedia的区别在于,它的信息更加结构化。Freebase是在web2.0以及semantic web方面一个有益的尝试。


2008.05.31 会议地点:信息楼一楼会议室

李玉坤 (Web Group)

个人数据空间管理技术研究 [ppt]
Abstract:
数字信息的迅猛增长使个人信息管理日益成为一个严重的问题。由于个人数据具有分布存储、杂乱无序、异构、个性化、动态演化等特征,使得个人个人数据管理效率面临挑战。本文关注用户行为特征对于个人数据管理技术的作用,提出了以用户为中心的个人数据空间管理框架。从数据集成、数据模型、数据查询几个方面介绍了相关工作、研究问题与挑战。进一步介绍了我们的研究工作和取得的初步成果,重点介绍了我们提出的核心数据空间的概念,以及开发的个人数据空间管理原型系统OrientSpace。

郝兴 (Mobile Group)

移动物体的连续密度查询 [ppt]
Abstract:
密度查询返回的区域满足物体密度大于用户规定的值。虽然已有一些工作处理在动态环境下返回对于移动物体的密度查询,这些工作都是利用snapshot的方法,即重新计算查询结果。这个报告介绍了一种连续维护移动物体密度查询结果的方法。


2008.04.23 会议地点:信息楼一楼会议室

徐俊劲 (XML Group)

XML树上的关键字查询
Abstract:
这个报告介绍了在XML树上实现关键字查询的方法,包括索引的建立,查询的处理和查询结果的分析。

周大 (Mobile Group)

一种新的闪存数据库事务处理IO机制
Abstract:
随着闪存的广泛使用,数据库越来越多地用来管理闪存上日益复杂的数据.事务处理是数据库最重要的部分之一.传统的数据库事务处理机制在闪存上存在很大的问题,本文提出了一种新的基于闪存事务处理机制.


2008.04.16 会议地点:信息楼一楼会议室

寇玉波 (Web Group)

对桌面搜索及相关研究的报告 [ppt]
Abstract:
本次报告介绍了桌面搜索的概念以及桌面搜索领域主要的研究成果。桌面搜索领域愈来愈热门,而桌面搜索所用的技术与个人信息管理(PIM)是密切相关的,因此值得我们关注。

黄静 (XML Group)

Dagstuhl研讨会:XML查询排序 [ppt]
Abstract:
这篇报告主要介绍了Dagstuhl研讨会上一些关于XML查询排序的有意思的报告。


2008.03.29 会议地点:信息楼二楼会议室

王仲远 (Web Group)

云计算介绍 [ppt]
Abstract:
在这个报告中,我们介绍了一个正在到来的颠覆性的技术革命——云计算。同时,我们讨论了云计算与Web2.0以及网格计算之间的关系与区别。并通过Google&IBM、Amazon、微软等公司提供的云计算的案例,来了解这一项有可能彻底改变用户使用计算机行为的技术。在报告的最后,我们讨论了云计算发展的未来以及它所面临的挑战等。

向锂 (Mobile Group)

FlashDB和LazyHash [ppt]
Abstract:
Flash存储设计索引的问题在于我们所面临的硬件平台和工作负载多种多样,FlashDB和LazyHash通过动态地调整索引结构来优化性能


2008.03.22 会议地点:信息楼二楼会议室

张相於 (Web Group)

一种基于事件的邮件处理方法 [ppt]
Abstract:
介绍了一种基于事件的邮件处理方法。该方法将一封邮件呈现为一个事件的集合,以达到辅助用户处理邮件的目的。

周军锋 (XML Group)

小组工作讨论
Abstract:
这个报告主要就目前XML小组的工作进行汇报,并就一些问题和大家进行交流。


2008.03.08 会议地点:信息楼二楼会议室

朱金清 (XML Group)

放松的Twig查询处理
Abstract:
Twig查询比二元连接处理能获取更高的查询性能,但是有两个问题存在,其一就是Schema信息太过于复杂,用户很难写确切的Twig查询;其二就是异质数据源之间的Schema有一点小差别,但书写的Twig查询无法运行在几个数据源之上。所以我们提出一种放松的Twig查询。

徐俊劲 (XML Group)

一种新的查询语义
Abstract:
这个报告介绍了已有的几种XML文档上关键字查询的查询语义及其不足,并定义了一种新的查询语义。

贾琳琳 (Web Group)

论文的自动分类 [ppt]
Abstract:
随着科学研究的日益发展,学术论文的数量指数级增长,因此带来的对论文自动分类方法的迫切需求。然而目前已有的方法在准确率和召回率上无法满足用户在实际应用中的需求。我们通过分析各种可能的因素,研究如果通过搜索引擎提高分类效果。


2008.03.01 会议地点:信息楼二楼会议室

谢敏 (XML Group)

LaTeX: An Intro
Abstract:
介绍LaTeX,相关工具,参考文献,及简单使用。

李玉坤 (Web Group)

EasyKeep: 一种高效的个人数据空间集成策略
Abstract:
提出了一种高效的、自适应的个人数据集成策略,并通过实现一个原型系统证明了它的可行性。

王仲远 (Web Group)

大规模Deep Web上的数据集成方法
Abstract:
我们提出了一种能够实现高精度抽取的大规模Deep Web数据集成方法


2008.01.05 会议地点:信息楼二楼会议室

张新 (XML Group)

XQuery/Update处理技术研究
Abstract:
这次报告主要是讨论如何处理XQuery/Update, XQuery/Update语法草案是去年由W3C提出来的. 这次主要工作是研究如何基于XML代数有效处理XQuery/Update查询. 以及Transform查询处化.

凌妍妍 (Web Group)

Web应用中的实体识别问题研究
Abstract:
实体识别指的是从单个、两个或多个的数据集合中识别出那些指向现实世界同一实体的记录。一方面,Web数据集成中数据源的多样性和动态变化性对海量公开数据的实体识别提出了挑战;另一方面,一些特殊的应用要求在两个或多个数据源上进行保护数据私有性的实体识别。

谢敏 (XML Group)

外包数据库的完整性验证研究
Abstract:
外包数据库的完整性验证研究近期工作小结,需要注意的问题,以及需要完成的工作

肖珍 (Mobile Group)

位置服务隐私保护研究
Abstract:
这次报告分析了位置服务中隐私保护问题,相关的解决方案,并提出了自己的两种解决方法。


2007

2007.12.15 会议地点:信息楼二楼会议室

周军锋 (XML Group)

复杂结构XML文档的精确查询问题
Abstract:
这个报告针对复杂结构的XML文档,讨论了(1)如何为用户提供简单灵活的查询接口,(2)精确表述用户的查询意图。

姜芳艽 (Web Group)

Deep Web数据集成中相似性计算方法 [ppt]
Abstract:
这个报告介绍了已有的相似性计算方法,并提出了在Deep Web数据集成中相似性计算面临的挑战和初步的解决思路。


2007.12.09 会议地点:信息楼二楼会议室

王仲远 (Web Group)

Jobtong系统进展&研究方向 [ppt]
Abstract:
这个报告介绍了一个Deep Web上进行大规模数据集成的系统:Jobtong系统,并介绍了这个系统在本学期的一些进展以及一些延伸应用。在报告的最后,还对这个项目的下一步计划提出了一些想法。

潘晓 (Mobile Group)

基于最大运动边界攻击模型的位置隐私保护方法
Abstract:
针对最大运动边界攻击模型,本文提出了一个新的匿名算法。利用图模型来形式化的表示这个问题,并设计了增量维护某一图中所有团的方法帮助寻找匿名集。

周大 (mobile Group)

flash数据库上的索引和事务研究
Abstract:
本文关注在flash上的数据库研究。本文提出一种新型的索引结构,初步的实验表明,该索引结构相比于ftl,jffs3和IPL都有了很大的性能的提高。另外本文还提出两个关于事务在flash上的比较有意思的问题


2007.12.02 会议地点:信息楼二楼会议室

张浩鹏 (Web Group)

SNS 与DBRef [ppt]
Abstract:
介绍了SNS的概念,分析了主流SNS的feature,对DBRef的建设提出一些想法。

周春姐 (Mobile Group)

分布式工作流系统的时间管理模型研究 [ppt]
Abstract:
本文为支持跨时区,不同时间粒度,不同工作体制的分布式协同商务活动建模与执行的分布式工作流管理系统建立了一套统一的、较完整的时间管理模型DWfS-TMM(Distributed Workflow System-Time Management Model)。

肖珍 (Mobile Group)

位置服务中基于语义的查询差异性:一个新的隐私保护模型
Abstract:
这次报告提出了位置服务中一个新的隐私保护模型,其中考虑查询的语义信息及查询的差异性.同时基于该模型也提出了匿名算法,以及一些启发式剪枝规则和算法优化策略.


2007.11.24 会议地点:信息楼二楼会议室

王伟 (XML Group)

维度模型数据仓库的搭建 [ppt]
Abstract:
主要报告中创公司数据仓库的搭建

黄静 (XML Group)

XML信息检索中结果排序技术 [ppt]
Abstract:
这篇报告主要总结了已有的XML信息检索中对返回结果打分和排序的方法。


2007.11.17 会议地点:信息楼二楼会议室

向锂 (Mobile Group)

基于flash的DBMS上的并发控制的一个新问题
Abstract:
我们研究了怎样在基于Flash的DBMS上做并发控制,发现了一个有趣的问题!

贾琳琳 (Web Group)

对新版本DBRef的讨论 [ppt]
Abstract:
这次主要演示了目前版本的dbref系统,并且提出了一系列问题和大家讨论。


2007.11.10 会议地点:信息楼二楼会议室

艾静 (Web Group)

数据集成领域中的不确定性问题 [ppt]
Abstract:
这篇报告主要分为三个部分,第一部分详细介绍《Data Integration with Uncertainty》这篇论文,第二部分简要介绍MUD 2007 workshop上的相关论文,第三部分介绍Deep Web领域中的不确定性问题。

郝兴 (Mobile Group)

不确定数据 [ppt]
Abstract:
这次主要介绍了基于数据位置信息不确定的查询处理算法。

周军锋 (XML Group)

概率XML简介 [ppt]
Abstract:
这个报告对近年来概率XML及其应用进行了总结,涉及到查询语义、查询结果概率的计算以及概率XML在数据集成中的应用。


2007.11.03 会议地点:信息楼二楼会议室

张相於 (Web Group)

邮件中的社会网络和协作任务管理问题 [ppt]
Abstract:
这次主要演示了邮件管理中的一些挑战性问题和我们的见解,并且提出了一个MIR的初稿和大家讨论。

武琼 (Web Group)

中文信息处理简介及相关工作 [ppt]
Abstract:
这个报告主要介绍了中文信息处理领域知识以及基于元数据的web信息提取方面的研究。为研究组提供了一个中文自然语言处理开放平台。


2007.10.27 会议地点:信息楼二楼会议室

朱金清 (XML Group)

OrientX 3.0 演示 [ppt]
Abstract:
这个报告主要是辅助演示实验室开发的XML数据库管理系统OrientX。在过去一年中,对OrientX2.5版本进行重编码, 然后加入一些新的特性,比如提出新的架构,XQuery/Update,编程API和可视化。XML的更新功能是新版本的主要亮 点,最好主要演示一下OrientX新版本OrientX3.0。

王凌 (Mobile Group)

位置管理与移动对象数据库
Abstract:
介绍移动数据库研究进展情况,并总结我们未来关注的研究点。具体地,包括移动对象所引技术,查询处理技术,不确定性和概率查询,时空数据挖掘。


2007.10.13 会议地点:信息楼二楼会议室

朱金清 (XML Group)

XML IR介绍 [ppt]
Abstract:
本文介绍了XML IR的处理流程,包括查询语义的定义、算法的涉及、评分排序和结构的展示四个方面,着重介绍了语义和算法两个部分。

谢敏 (XML Group)

VLDB2007 参会总结 [ppt]
Abstract:
简单的回顾VLDB 2007开会经历,包括研究论文和演示程序。


2007.09.09 会议地点:信息楼二楼会议室

刘伟 (Web Group)

Deep Web数据集成介绍 [ppt]

李玉坤 (Web Group)

Dataspace及PIM介绍 [ppt]

周军锋 (XML Group)

XML查询处理技术简介 [ppt]

谢敏 (XML Group)

外包数据库的完整性审计 [ppt]

周大 (Mobile Group)

闪存数据管理介绍 [ppt]


2007.06.09 会议地点:信息楼二楼会议室

周军锋 (XML Group)

Efficient Processing of Partially Specified Twig Queries
Abstract:
部分指定结构的twig查询可以为用户提供最大的灵活性,用以在查询中表达更灵活的语义约束。这个报告关注与如何以更简洁有效的方式来表达部分指定的twig查询并提供高效的查询处理策略。

向锂 (Mobile Group)

页内日志:面向Flash的DBMS设计 [ppt]
Abstract:
随着Flash的广泛应用,基于Flash存储设备的DBMS具有越来越大的应用前景,Sang-Won Lee等在Sigmod07上发表的这篇文章介绍了一种称之为IPL的设计方法.


2007.04.14 会议地点:信息楼二楼会议室

艾静 (Web Group)

Dataspace上的索引
Abstract:
为了支持数据空间中的大量异质信息的查询,本文提出了几种基于Dataspace特性的索引方法。这些方法的本质都是基于扩展的倒排表技术,将关键字搜索与结构化搜索结合起来,从而建立最符合dataspace的数据特点及用户需要的索引结构。


2007.04.07 会议地点:信息楼二楼会议室

尹少宜 (Mobile Group)

基于NAND Flash的数据库索引技术研究
Abstract:
为了支持NAND Flash上大量记录中主码的快速查找,一些基于flash的数据库索引技术被提出。我们对这些方法进行了深入分析,并且建立了代价模型来对它们进行定量的比较,从而使得各种方法的优劣和适用范围更加清晰,并为新的索引结构设计提供了参考依据。


2007.03.31 会议地点:信息楼二楼会议室

张新 (XML Group)

OrientX系统新的存储结构
Abstract:
为了更好地支持XML的更新, 我们改进了原来 的OrientX存储实现,新的存储方法可以在保证原来系统模块不做很大的改动的基础上更好地支持XML的更新

潘晓 (Mobile Group)

Quality Aware Privacy Protection for Location-based Services (DASFAA 2007) [ppt]
Abstract:
在这篇文章中,我们讨论了LBS中的隐私保护问题。在将隐私需求分为location anonymity 和 identifier anonymity的基础上,给出了满足此两种需求的隐私保护解决方法。试验结果表明,我们的方法可以满足各种隐私与Qos的需求。

潘晓 (Mobile Group)

Clustering Moving Objects in Spatial Networks (DASFAA 2007) [ppt]
Abstract:
本文解决了在路网环境下移动对象的聚类问题。文中在介绍CB的概念基础上,提出了一个能解决此问题的框架结构。这个结构不仅将聚类代价划分为了CB维护与结合,而且还可以有效地支持各种聚类标准。

李忺 (Web Group)

Dasfaa07-EasyQuerier (DASFAA 2007) [ppt]
Abstract:
EasyQuerier从易用性的角度,针对web数据库集成系统中建立的集成接口过于复杂这个问题,而设计的一个基于关键字的查询接口。在EasyQuerier系统中,用户可以方便的填写若干关键词的查询,不需要考虑选择领域和浏览复杂的集成接口。而其中实现领域自动匹配以及查询的自动转换是这项工作中需要解决的技术问题。对此我们提出了两项计算模型来解决这个问题。


2007.01.13 会议地点:信息楼二楼会议室

谢敏 (XML Group)

OrientX系统改进考虑
Abstract:
A new design for OrientX. The architecture, core components and the related research topic that may be interesting.

王仲远 (Web Group)

JobTong介绍
Abstract:
These slides introduce how does JobTong System work, which is a solution of Deep Web Integration. By now, JobTong has more than 300,000 job records. In these slices, the structure of JobTong is presented and the next work is proposed.

潘晓 (Mobile Group)

RFID数据管理
Abstract:
RFID technology has gained significant momentum in the past few years. In addition to applications in retail and distribution, RFID technology holds the promise to simplify airline luggage management, healthcare, and library. We present a brief introduction to RFID technology ,and highlight some fruits of RFID data management, including storage and model of RFID, warehousing and mining massive RFID data sets, data cleaning and demos existing.


2007.01.06 会议地点:信息楼二楼会议室

周军锋 (XML Group)

欧洲学术访问简介
Abstract:
In this presentation, the interesting research points focused by the Knowledge and Database Systems Lab, NTU Athens, are introduced firstly, these points covers a wide range in database research area; and then, two XML related problems are introduced, they are context-aware database and partially twig pattern query.

郝兴 (Mobile Group)

NN查询的几种新颖形式
Abstract:
The slide presents five novel forms of Nearest Neighbor Search, including Conventional NN Queries, Reverse NN Queries, Aggregate NN Queries, NN Queries with Validity Information and Skyline Queries. Some algorithms to answer these queries are also introduced.


2006

2006.11.17 会议地点:信息楼二楼会议室

李玉坤 (Web Group)

关于PIM(个人信息管理) [ppt]
Abstract:
In the slide, Background knowledge of Personal Information Management (PIM) is introduced firstly, which includes development history of PIM, the origin of the concept of PIM and today’s studying condition of PIM, especially the PIM workshop which has been held twice is presented. Then The related works on PIM has been summarized and the related branches is discussed on. In the end, some ideas and probable research topics are issued out and paid a brief statement, also an outlook on PIM research was proposed.


2006.10.28 会议地点:信息楼二楼会议室

姜芳艽 (Web Group)

Web数据集成中的查询转换问题 [ppt]

周大 (Mobile Group)

Flash数据库管理系统


2006.10.21 会议地点:信息楼二楼会议室

艾静 (Web Group)

数据集成——十年成就与展望 [ppt]

凌妍妍 (Web Group)

Mashup相关知识介绍 [ppt]


2006.10.07 会议地点:信息楼二楼会议室

尹少宜 (Mobile Group)

Trustworthy Keyword Search for Regulatory Compliant Record Retention [ppt]


2006.09.22 会议地点:信息楼二楼会议室

刘伟 (Web Group)

Deep Web的介绍 [ppt]

张新 (XML Group)

OrientX:一个本地的XML数据库 [ppt]


2006.09.09 Venue: FL2, Meeting Room, Information Building

王仲远 (Web Group)

google本质论 [ppt]

张新 (XML Group)

Orientx: 总结与未来 [ppt]






Maintained by WAMDM Administrator() Copyright © 2007-2017 WAMDM, All rights reserved