WAMDM实验室研讨会(2009-2014)
2014
 2014.12.30  会议地点:理工配楼一楼会议室
 (Cloud Group) 流从哪里来?流向哪里去?——消息系统介绍 
Abstract:
流数据处理作为现在很热门的研究话题,流的数据源包括:点击流数据、网络流量监测数据、传感器产生的数据、视频流数据等等。如何将流数据从数据源头注入到流数据处理系统中,消息系统起着至关重要的作用。本报告对比分析了现阶段比较流行的数据注入工具:Flume、Scribe、Sqoop、Chukwa、RabbitMQ、Kafka、SpringXD,并对RabbitMQ、Kafka、SpringXD进行了详细介绍。
 (Web Group) 语义层次划分与知识库释义字典的建立 
Abstract:
报告主要介绍了两个方面的内容,首先是语义层次划分的问题,即上下位关系的发现。之后结合近期工作,提出了在知识库上建立释义字典的需求,并结合上下位关系发现的方法,提出了有别于以往工作的字典建立方法。
 2014.12.23  会议地点:理工配楼一楼会议室
 (Web Group) 带权点击流网络的标度性研究 
Abstract:
大数据的可用,特别是用户在线冲浪记录的研究,使得可以定量研究用户在各网站间交互的长期、复杂模式。构造了一个点击流网络,结点代表网络站点,边表示用户在站点间的转换行为,通过分析用户群体在站点间注意力转变的流量,发现站点的在网络中的影响力与其注意力流的转换有标度关系。
 (Web Group) 利用知识图谱进行实体解析:方法与挑战 
Abstract:
Web上充斥着大量的自然语言数据,如何理解其背后的语义对诸如信息检索、数据集成等应用至关重要,其中一种重要的方法就是利用知识图谱来识别并解析Web上的文本。本次报告围绕这一研究热点,讨论了关键的挑战、现有的一些方法,以及未来的一些方向。
 2014.12.16  主题:闪存
 (CloudGroup) 利用闪存扩展缓存提升数据库应用的性能 
Abstract:
固态盘和磁盘在数据检索代价方面存在很大的不同,SSD通常可以有效地处理频繁访问的热数据,而HDD则可以处理访问频度不是很高的冷数据。利用SSD的高速随机访问性能可以减少内存和磁盘之间的性能差异。本次报告我们讨论了如何用SSD作为扩展缓存提升数据库系统的性能。
 (Cloud Group) 企业级闪存-最新发展及应用 
Abstract:
相比于消费级闪存产品,企业级闪存更耐用、性能更高、寿命更长,写入性能和延迟抖动也表现很好。本报告介绍了企业级闪存的发展以及两款最新产品。
 2014.12.09  主题:Web数据管理
 (Cloud Data Management) VLDB2014 概述 
Abstract:
本次报告对VLDB2014做了个概述,包括3个keynote和该会议所收的论文,并且挑了其中两篇论文。一篇论文提出了几种在持久化存储器上实现的排序和连接算法。另一篇论文探讨了非易失存储器的存储管理。
 (Web Group) 位置数据发布中的唯一性隐私保护 
Abstract:
在数据发布过程中,潜在的唯一性问题会暴露用户的个人信息、政治倾向等敏感信息给攻击者。在本文中,我们针对位置数据中的唯一性问题提出了保护唯一性的方法,因此防止了用户敏感信息的泄露。
 (Web Group) 一种避免选择性估计的查询处理方法——Plan Bouquets 
Abstract:
为了解决OLPA由于编译时选择性估计误差导致运行时选择不当的问题,文章提出 “bouquet”计划,这个计划就是在编译时完全避开了易错的选择性,取而代之的是在选择性错误空间上建立一组最优计划集,使得空间中每个位置上至少有一个子集接近最优选择。这样,在运行时,查询的实际选择性就可以通过bouquet计划的部分执行序列逐步发现。其中,部分执行的时间和切换是通过阶梯式递进的等成本曲面映射到最佳性能的方法控制。
 2014.12.06  会议地点:理工配楼一楼会议室
 (Cloud Group) R存储:一种支持实时分析的可扩展性分布式系统
Abstract:
为实现大规模数据处理,数据库系统一般被分为两类:OLTP和OLAP系统。一般我们认为OLTP和OLAP查询有不同的数据访问模式,实现需要和需求,因此OLTP查询和OLAP查询应该由两个不同的系统处理,数据间断性地从OLTP系统中经过一个ETL过程进入到OLAP系统里为了数据分析。但由于这个过程太慢,在大数据背景下,我们迫切的需要提供一种实时的OLAP查询支持。R存储就是当OLTP查询创造一个最新的版本时OLAP查询就能读到这个最新的数据。
 (Cloud Group) 内存数据库Redis-内部实现与应用 
Abstract:
Redis是完全开源免费的,遵守BSD协议,先进的key-value持久化产品。它通常被称为数据结构服务器,因为值(value)可以是字符串(String), 哈希(Map), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。
 2014.11.29  主题:查询理解
 (Web Group) 知识库上的查询理解 
Abstract:
随着知识库的日益兴起,怎样更加准确高效的对其进行检索成为了一个重要的研究课题。这方面的课题主要面临三个挑战:(l)歧义性,(2)覆盖率,(3)规模增长。本报告从关键词查询和自然语言查询两个方面分别作了介绍,并对两种不同查询的理解方法做了总结和对比。
 2014.11.18  会议地点:理工配楼一楼会议室
 (Cloud Group) 一种基于事态正相关性的自适应数据流划分方法 
Abstract:
针对流式大数据处理中的数据划分问题,我们提出一种基于事态正相关性的自适应数据流划分方法。根据用户的查询请求,在编译时获得最大划分集合;在运行时通过计算数据的时态正相关性,进行划分码的合并;并通过基于密度的网格动态划分,提高该方法的健壮性。
 (CloudGroup) 利用smart SSD处理数据
Abstract:
SSD作为一种新型的存储设备已经广泛应用于各种存储系统。大规模数据处理中数据传输代价是制约系统性能的一大瓶颈。将计算下推到数据可以有效缓解上述压力。目前SSD的可计算能力不断增强,本次报告我们讨论了如何利用SSD的计算能力来提升数据处理性能。主要从外部排序和数据查询两个方面展开讨论。
 2014.11.11  会议地点:理工配楼一楼会议室
 (Cloud Group) 数据流划分策略研究报告 
Abstract:
为实时处理流式大数据,针对分布式处理平台而言,根据用户输入的不同查询请求,我们需对数据进行划分处理,从而可以提高系统的处理速度。报告中详细介绍了三种划分策略,分别是:针对感知查询的静态划分,基于时态近似依赖的动态划分,以及感知数据流间相关性的动态划分。最后,对各种策略的优缺点进行了总结。
 (Web Group) 私有信息检索技术 
Abstract:
这次报告主要介绍了几种利用私有信息检索技术保护强隐私的方法。
 2014.11.02  主题:大数据挖掘与空间关键字查询
 (Web Group) 微博大数据挖掘学习报告 
Abstract:
本次报告主要从微博结构入手首先分析微博的内容和背景特征,进而得出微博数据的1H-2S-3M-4V特点;接下来主要从社会属性挖掘和内容挖掘两个方面分析目前的研究现状。最后根据微博数据的10大特点对微博数据挖掘的挑战性和社会需求引发的新问题进行了探索。
 (Mobile Group) 空间关键字查询 
Abstract:
地理空间索引在空间关键字查询中发挥了重要作用。现有的地理文本索引并没有在相同实验框架下进行比较。这使得我们很难确定哪些索引技术能最好的支持特定功能。我们提出了一个标准,对这些空间关键字查询性能进行了比较。
 2014.10.28  主题:Web数据管理
 (Web Group) 基于小数据的人类在线兴趣长程演化研究 
Abstract:
人类在线行为是一个复杂过程,常常依赖于兴趣,尽管当前在行为定向和用户兴趣挖掘方面有大量研究,但对于人类兴趣过程的本质规律却知之甚少.大数据的可用,特别是人类在线冲浪时留下的数据记录、电子商务记录、通讯记录等,使定量分析人类兴趣动力学成为可能.这些人类行为数据被称之为大数据时代的“小数据”,有助于揭示许多复杂的社会经济现象,并可应用于舆情监控、信息推荐等方面。本讲座中介绍了有关在线人类行为数据挖掘的一个新概念以及一些思考。这个新概念是:“small data”,在NIPS2013上由Deborah Estrin教授提出。我们的想法是通过这些“小数据”挖掘分析用户在线兴趣行为规律。
 (Web Group) 短文本理解研究 
Abstract:
近年来,短文本理解成为一个研究热点。短文本,以查询、微博等为代表,因其通常缺乏完成句法结构和上下文等重要特征,给文本的语义分析、实体识别、关键词抽取和相似性度量等带来了新的挑战。本次报告围绕短文本理解的研究,对亟待解决的问题、面临的挑战以及主流技术等做了简单介绍,并介绍了一些相关的机器学习模型,也是本人在微软亚洲研究院学习期间的一个总结。
 2014.10.21  主题:近期交流报告
 (Cloud Group) WI2014参会报告 
Abstract:
第14届Web智能国际会议(WI2014)于2014年8月11日至14日在波兰华沙圆满举办。此次会议共收到research paper投稿242篇,并接收了85篇,接收率为35.1%。此次会议共8个keynote,7个tutorial和4个panel。
 (Web Group) 2014香港海量数据研讨会介绍
Abstract:
为进一步促进内地、香港的科研合作发展,国家自然科学基金委员会与香港中文大学于2014年9月23-24日在香港联合举办学术研讨会,研讨主题定为:海量数据管理。本报告介绍了有关这交研讨会在大数据方面的一些新观点。
 (Cloud Group) 2014海量数据研讨会 
Abstract:
介绍和展示2014(香港)海量数据研讨会的相关内容,并针对专题报告《One-Pass AUC Optimization》进行深入讲解。最后是照片分享。
 (Mobile Group) 香港浸会大学交流汇报 
Abstract:
主要报告了在香港浸会大学的研究进展和经历。
 2014.10.18  主题:大数据管理——数据倾斜问题&统计推断
 (Cloud Group) MapReduce系统中的数据倾斜问题 
Abstract:
对于分布式架构的系统,数据倾斜难以避免。本次报告对MapReduce环境下,数据倾斜的基本定义、类型以及基本的处理方式进行介绍。同时会对近几年的相关文章进行总结。
 (Cloud Group) 一种基于模拟的统计方法:Bootstrap 
Abstract:
统计推断是一个十分复杂的课题,其中的一个困难就是,在实践中一个分布的某些除均值以外的特性是非常难估计的。随着廉价计算能力的出现,基于实验和基于模拟的统计分析方法随之发展了起来,从而简化了此种统计推断,其中比较广泛使用的方法就是这种基于模拟的统计方法Bootstrap。
 2014.05.30  主题:存储管理
 (FlashGroup) SSD在不同数据负载中的作用
Abstract:
作为一种新型的存储介质,许多应用已经开始用SSD去替换磁盘,SSD与磁盘有着不同的I/O特性,引入SSD后,如何发挥SSD的特性成为制约系统性能的关键,我们分别从多租户技术和搜索引擎两方面介绍SSD对现有算法的影响。
 (Flash Group) PostgreSQL存储管理实现技术
Abstract:
PostgreSQL是一种非常先进的开源、对象关系型数据库管理系统。在这次报告中我们将会对PostgreSQL存储管理的实现技术做一定的介绍。
 2014.05.22  主题:隐私保护
 (Web Group) 用服务相似性来保护LBS查询的位置隐私 
Abstract:
这篇论文提出了一个以用户为中心的LBS架构,允许用户在提交位置信息查询之前可以获知位置不精确度对服务质量的影响大小。同时,将其应用到本地搜索应用中。
 2014.05.16  主题:短文本理解
 (Web Group) 短文本理解 
Abstract:
自然语言处理一直是一个研究热点,尤其是语义挖掘,受到广泛关注。短文本因其缺乏语法和上下文信息,使用传统自然语言模型对其进行处理往往得不到好的效果。本次研讨会围绕这一主题,选取了近年来几篇相关工作,探讨这一主题的研究与发展。
 2014.04.11  主题:Web数据管理
 (Web Group) 利用数据划分面向效用的数据发布 
Abstract:
对于数据发布的大多数工作中,都考虑发布统计值来保护敏感信息。我们考虑一种新型的数据发布方式。通过划分敏感数据,使得每个获得数据的攻击者无法推断出敏感信息。
 (Web Group) HTML5初探 
Abstract:
HTML5的发展历史和一些有趣的属性
 2014.04.04  主题:新存储上的数据管理
 (FlashGroup) 代价敏感的PCM数据管理 [ppt]
Abstract:
基于PCM的存储设备的高速发展引起了工业界和学术界的普遍关注,将PCM运用到现有的存储系统可以获得很好的性价比,我们的报告介绍了PCM存储在企业级数据管理的作用,分析了PCM对现有存储系统的影响。
 (Flash Group) OceanBase简介 
Abstract:
OceanBase 是阿里巴巴集团研发的可扩展的关系数据库,实现了数千亿条记录、数百 TB 数据上的跨行跨表事务。截止到 2012 年 8 月, OceanBase 支持了收藏夹、直通车报表、天猫评价等 OLTP 和 OLAP 在线业务,线上数据量已经超过一千亿条。本报告对OceanBase架构和实现技巧进行了介绍。
 2014.03.28  主题:RDF存储及查询简介
 (Cloud Group) RDF存储及查询简介 
Abstract:
RDF是一个为了促进网络资源的自动化处理而设计的综合性的资源描述框架,近年来再工业界已经有了广泛的使用。虽然其本身的三元组结构简单易懂,但对RDF的研究可以衍生出很多方面的问题,如基于关系数据库的RDF组织方式、RDF图上检索算法的研究等,都是近来比较热点问题,本报告对RDF的背景知识、以及分别基于关系数据库、三元组、图的组织和查询方式做了大致介绍。
 2014.03.14  主题:Web数据管理
 (Web Group) Web用户在线行为数据挖掘 
Abstract:
用户在线行为信息在个性化Web应用中有很重要的作用,但通常获取这些信息比较难。介绍了两个算法,基于用户浏览Web页面的行为数据,预测其人口属性信息。
 (Web Group) 深层网络真值发现 
Abstract:
Web上通常有大量信息但是它们常常不准确。不同信息来源发布的信息准确度不尽相同。对于用户来说,判断数据是否为真是一件不太容易的事情。最近在事实和数据源可信性方面已经有了大量的研究工作,本报告针对其中存在的一些问题进行了分析和整理。
 2014.03.07  主题:大数据管理——流数据&极值理论
 (Cloud Group) 数据流处理语言介绍 
Abstract:
近年来,随着流数据应用的不断增加,针对不同平台的流数据处理语言也应运而生。本次报告主要介绍了四个流数据处理语言:Stanford-CQL、IBM-SPL、StreamBase-StreamSQL和DBT-SQL,并对其进行了对比说明。最后,阐述了实验室正在开发的PQSAL的架构与面临的挑战。
 (Cloud Group) 极值理论简介 
Abstract:
传统的统计学更关注于数据中大部分数据所符合的规律,但是在很多实际的应用中,数据中的长尾部分,也就是占比很小的那部分数据却有着更大的价值。极值理论就是从这一类问题出发,对数据集中的极值数据进行分析。本报告对这一理论及其应用进行了简单的介绍。
 2014.01.10  主题:Web组系统调研报告
 (Web Group) graphlab + spark 
Abstract:
本组报告,主要介绍了graphlab、spark这两种系统,包括系统体系结构、功能模块、实现等。另外,对于相似的系统,我们给出了几组比较分析。
 (Web Group) 大规模图数据处理系统:pregel 和 Hama 
Abstract:
随着大数据时代的到来,许多实际的计算问题都涉及到大图。虽然图的应用和处理技术已经发展了很长时间,但是随着信息技术的不断发展,各种信息以爆炸式增长,导致图的规模日益增长。这些图的规模给它们的处理带来了极大的挑战。本次报告主要介绍两个大规模图数据库处理系统:pregel和hamma。
 2014.01.03  主题:移动数据隐私保护
 (Web Group) 保护人类移动数据中的特征信息 
Abstract:
粗粒度的数据集对于个人隐私的保护是不够的,因此需要新的技术来保护个人隐私。
2013
 2013.12.27  主题:数据流处理系统介绍 
 (Cloud Group) 数据流处理系统介绍 
Abstract:
针对不同应用需求的数据流处理系统,本次报告介绍了四个应用较广的新型数据流处理系统。对每个系统的产生背景、架构、性能和特点等分别进行了说明,并通过对高可用性、负载均衡和可扩展性等方面进行了对比分析。
 2013.12.21  主题:闪存及混合存储上的数据管理
 (FlashGroup) 代价敏感的混合存储数据管理 [ppt]
Abstract:
基于闪存的混合存储系统是一个研究热点,将闪存运用到现有的系统可以获得很好的性价比,我们首先介绍了基于闪存的扩展缓存系统的研究现状,然后提出了一个基于代价的混合数据管理策略。
 (Flash Group) SSD上Bloom过滤器的改进 
Abstract:
Bloom过滤器被应用在包括数据库管理系统在内的很多应用程序中。目前,它们大多存储在内存中,然而有限的内存空间限制了Bloom过滤器的大小进而引发高错误率。本次报告介绍了几种利用SSD扩展Bloom过滤器存储空间的优化技术。
 2013.12.13  主题:Flash组系统调研报告
 (FlashGroup) MongoDB调研 [ppt]
Abstract:
MongoDB是一个应用非常广泛的基于文档的非关系数据库,我们介绍了mongoDB的发展历史,详细描述了数据集群的设置,对mongoDB的自动数据分片、数据恢复、主从数据结点选举等方面做了详细的介绍。最后,将mongoDB和MySQL以及巨杉数据库的性能也做了对比。
 (Flash Group) VoltDB简介 [ppt]
Abstract:
VoltDB是一种NewSQLogic的关系型数据库系统,它支持SQL访问同时具有高性能的事务处理能力。在这次报告中我们将会对VoltDB的特性和实现技术做一定的介绍。
 (Flash Group) CouchDB调研报告 [ppt]
Abstract:
CouchDB是一个面向Web的数据库。它使用Json文档作为存储形式、HTTP作为API、Javascript作为文档查询语言。CouchDB能很好的应用在现代Web和移动应用中。这篇报告就介绍了CouchDB的一些关键特性和技术架构。
 2013.011.29  主题:网络数据管理
 (Web Group) 差分隐私下精确直方图发布方法 
Abstract:
提出一种基于聚类的划分方法AHP,通过分析排序和过滤直方图计数有助于提升发布精度,引入满足差分隐私的升序排序与高通滤波机制。利用排序后的直方图,基于动态规划、经验值聚类以及贪心搜索机制,提出三种可用性驱动的有效聚类方法。
 (Web Group) 一个图相似性算法及其在社会计算中的应用 
Abstract:
结点一致的两个图相似性度量有广泛应用,介绍了当前一些图相似性算法,分析了它们在图的关键部分结点间链接改变时无法感知之不足。介绍了SDM2013提出的一个算法DELTACON,实验结果表明比现有的算法性能高的多。
 2013.11.22  主题:分布式RDF数据库系统简介
 (Cloud Group) 分布式RDF数据库系统Bigdata简介 
Abstract:
Bigdata是一种可水平扩展的分布式RDF数据库系统,它能够运行在由大量普通机器所构成的集群之上,支持标准的SPARQL查询,并对PB级的RDF数据进行并发地高效处理。本次报告将简单介绍一下Bigdata系统,包括Bigdata的分布式架构、索引方法及其RDF数据库模式。
 (Cloud Group) JVM介绍2 
Abstract:
在上一次的JVM介绍中,我主要介绍了JVM的内存管理方法和垃圾回收的一些机制,同时也包括了一些参数的设置。这次主要讲述了在JVM中并发的实现机制和并发时的内存模型,结合实例介绍JAVA语言中并发的用法和需要注意的地方。
 2013.11.15  主题:交互式环境下的实时分析处理系统
 (Cloud Group) CIKM2013参会报告 [ppt]
Abstract:
第22届信息与知识管理国际会议(CIKM2013)于2013年10月27日--11月2日在美国旧金山圆满举办。此次会议共收到research paper投稿848篇,其中143篇被接收为长文(长文接收率16.86%),106篇被接收为短文(短文接收率29.36%)。此次会议日程丰富,共有4个keynote,9个tutorial,10个industry talk,1个panel和52个paper session。
 (Cloud Group) 交互式环境下的实时分析处理系统 
Abstract:
实时处理必然是未来数据处理技术发展的一个趋势,它的实现方式是多样的,可以是精确的或者是近似的。不同的应用场景下可以选择不同的实现。
 2013.11.08  大数据时代:图数据及流数据管理
 (Web Group) 基于GPU的图挖掘综述 
Abstract:
随着实时计算、高性能计算等市场需求的推动,GPU已从图形处理器发展到通用目的、可编程、高性能并行、多线程的多核处理器,具有强大的计算能力与较高的内存带宽。介绍了近年来基于GPU的图挖掘研究进展。
 (Cloud Group) 流数据增量处理过程中的高效SQl编译方法 
Abstract:
本次报告介绍了针对流数据增量处理过程的高效编译方法,即通过编译的方式对特定查询性能进行优化。
 2013.11.01  主题:Web数据管理
 (Web Group) 使用类SQL语言处理大数据 
Abstract:
这个报告主要介绍了微软使用的一个大数据平台和处理这个大数据平台的类SQL语言。
 (Web Group) 关联实体识别 
Abstract:
这个报告主要介绍了实体识别的两个相关研究,一个是一种关联实体识别的框架,另一个是在实体识别中加入虚假信息的一种敏感信息保护方法。
 2013.10.25  主题:云数据管理
 (Cloud Group) 对Hadoop的反思:纵向扩展还是横向扩展? 
Abstract:
过去十年已经有大量的廉价集群被部署来做数据分析。工业界和学术界一般都认为通过增加机器来对集群进行横向扩展比通过增加配置来进行纵向扩展更适合这类应用。流行的数据分析框架比如Hadoop正是着眼于此。但是是否应该重新审视这个观点呢?在实际的数据分析中绝大部分情况下处理的数据都没那么多,因此完成可以在单台机器上处理完成,且效率更高。
 2013.10.18  主题:闪存数据管理
 (FlashGroup) 利用基于SSD扩展缓存提高数据库的恢复性能 [ppt]
Abstract:
固态盘(Solide State Device,SSD)比磁盘有更好的数据访问性能,目前在数据密集型应用SSD受到了广泛的关注。然而,因为存储容量和价格等因素使得SSD不会完全取代磁盘.将二者混合使用可以获得较高的性价比,将SSD用做的内存的扩展缓存是目前的研究热点,报告介绍利用SSD的非易失性加速系统启动或恢复过程。
 2013.10.11  主题:流数据管理
 (Cloud Group) 流处理系统简介 
Abstract:
近几年来,随着大数据的兴起,针对流数据的快速处理和实时响应的应用越来越多。本次报告主要介绍流数据系统的发展流程和对几个重要系统的调研工作。
 (Web Group) 基于时空事件流的共现模式发掘 
Abstract:
随着移动定位技术的发展,大量的位置相关的设备也得到了广泛的应用,这些设备产生了大量的事件流数据,这些事件流数据不仅包含有时间信息,同时也包含有事件信息。本次报告主要介绍了从事件流数据中挖掘出时空共现模式所面临的主要问题和采用的新方法。
 2013.06.28  主题:一种有效的基于新硬件的数据库系统的事务恢复模型
 (Flash Group) MixSL:一种有效的基于新硬件的数据库系统的事务恢复模型 
Abstract:
事务恢复是数据库系统的一个重要组件,保证了事务原子性和持久性。首先,我们介绍了传统的WAL和影子页恢复技术。然后,本报告介绍了日志技术和影子页技术在基于闪存或者PCM的数据库系统中的实施和优化,并分析了其优缺点。根据MLC闪存和PCM的特性,我们提出了一种新的基于新硬件的数据库系统事务恢复模型,并对缓冲区管理策略、并发粒度、闪存空间利用率做了充分考虑。
 2013.06.21  主题:云上的大数据管理
 (Cloud Group) 集合相似性连接综述 
Abstract:
集合相似性连接是一项很重要的操作,有很多的应用领域。本次报告主要对现有的基于MapReduce的集合相似性连接算法进行了综述,分析了各自的优缺点,在此基础上,提出了一些新的想法。最后介绍了几个具有挑战性的工作。
 (Cloud Group) 空间文本相似性连接 
Abstract:
近几年来,随着智能手机和GPS的普及,空间文本数据的数量正在急速增长,基于空间文本相似性连接的应用也越来越多,与此同时,空间文本相似性连接技术的研究也受到越来越多的关注。本次报告主要介绍几个有关空间文本相似性连接的最新的研究工作。
 2013.06.07  主题:SSD与微博数据管理
 (Flash Group) 利用SSD提升搜索引擎缓存性能 
Abstract:
传统大规模搜索引擎用磁盘来存储索引、摘要以及文档等数据,性能受制于磁盘I/O存在的瓶颈。SSD作为新型二级存储介质,拥有随机读和顺序读延迟接近的特性。这篇报告分析了搜索引擎中的I/O模式和不同的Cache管理策略,并介绍了针对SSD、磁盘混合存储系统下的cache管理策略。
 (Web Group) 走进微博 
Abstract:
随着Web2.0的发展,涌现出新型的社交媒体--微博。本报告将介绍基于微博数据流的国内外最新研究动态。
 2013.05.31  主题:闪存及网络数据管理
 (Flash Group) 利用SSD来加速企业级应用 
Abstract:
基于闪存的固态硬盘具有十分出色的I/O性能。随着固态硬盘容量的增加及价格的持续下降,越来越多得企业开始部署大量SSD来加速他们关键性应用。本次报告主要介绍几个利用固态硬盘来加速企业级应用特别是云计算应用的研究工作。
 (Web Group) Ningx 简介 
Abstract:
简单介绍了一下Nginx以及相关的一些和web server有关的知识:Http反向代理服务器,FastCGI以及常见的I/O模型。
 2013.05.24  主题:大数据时代——深度学习及隐私保护
 (Web Group) 深度学习简介 
Abstract:
本次报告介绍了机器学习的一些背景知识以及深度学习的由来和现状。
 (Mobile Group) 隐私与在线广告 
Abstract:
隐私是用户的基本权利,其意义已经超越了技术本身上升到了立法的层次。在线广告是互联网时代最重要的商业模式之一,针对隐私保护的立法是否会对未来的商业盈利模式有所冲击是一个重要而迫切的研究课题。目前,诸如计算广告学等领域都在针对在线广告开展研究。本文中,研究人员从隐私保护对在线广告效果的分析以及隐私保护对社交网络效果的分析得出了对未来商业具有指导性的结论。
 2013.05.17  主题:高维数据处理与JVM介绍
 (Cloud Group) 基于MapReduce的高维数据连接查询处理 
Abstract:
大规模、高维数据的连接查询是一种计算代价很高的操作,传统的以某种索引结构为基础的单击算法无法满足性能的要求。本次报告首先对基于MapReduce的连接查询相关工作进行了介绍,然后提出了一种基于SAX的高维向量相似性连接算法,并介绍了初步实验结果,最后介绍了几个具有挑战性的工作。
 (Cloud Group) JVM介绍 
Abstract:
JVM提供了JAVA一次编译到处运行的特点,同时它也提供了内存管理、垃圾回收的功能。对于处理大量的数据,了解JVM的一些参数的设置和调优是很有帮助的。
 2013.05.10  主题:大数据——机遇与挑战
 (Cloud Group) ICDE2013参会报告 
Abstract:
第29届数据工程国际会议(ICDE2013)于2013年4月8日--11日在澳大利亚昆士兰州布里斯班圆满举办。此次会议共收到research paper投稿443篇,并接收了95篇,接收率为21.4%;industry paper投稿20篇,接收了8篇;demo paper投稿69篇,接收了27篇。此次会议共有3个keynote,9个seminar和1个panel。
 (Web Group) DASFFA参会报告 
Abstract:
第18届DASFFA会议于2013年4月22日--25日在中国武汉圆满举办。此次会议共收到research paper投稿208篇,并接收了51篇长文,接收率为24.5%。此次会议共有2个keynote,4个seminar和1个panel。
 (Cloud Group) 大数据环境下的概率数据结构 第一部分:基数估计 
Abstract:
随着大数据时代的到来,保证一定精度的估计值就可以满足很多的应用场景。而这会大大节省时间和空间的开销。本报告以基数估计这类典型的应用场景为例,介绍了适合大数据的基数估计算法。
 2013.04.19  主题:DASFAA预报告——网络与移动数据隐私保护
 (Web Group) 差分隐私保护下集值型数据的增量发布 
Abstract:
隐私的集值型数据发布为计数查询与数据挖掘应用提供了许多机遇。与先前基于划分隐私保护模型(例如,k-匿名)的方法相比,差分隐私保护技术提供了比较强健的隐私保证。然而,现存的基于差分隐私保护方法的集值型数据发布方法均局限于静态的数据集,而这些方法并不能直接应用于如今快速更替信息的隐私保护。因此,本文提出了一种有效的满足差分隐私的方法,IncTDPart,该方法能够增量地发布集值型数据。
 (Mobile Group) 移动社交网络中的隐秘位置推理攻击 
Abstract:
在丰富背景知识的环境下,攻击者很容易将用户访问过但未留下访问记录的位置恢复出来,重构用户整条轨迹,导致用户有意保护的隐秘位置泄露。针对此问题,本文提出了一种推理隐秘位置的轨迹重构攻击模型,并设计了相应的隐私提醒机制。轨迹重构攻击可以根据用户的历史位置数据、用户朋友的位置以及朋友之间的关系计算用户访问隐秘位置的概率,设计了一种实现在路网空间中的隐私提醒机制,可将最可能泄露的隐秘位置及泄露概率推送给用户。
 2013.04.12  主题:Web环境下以及闪存上的数据管理
 (FlashGroup) 内存高效的闪存key-value存储数据管理 [ppt]
Abstract:
Key-value存储具有比关系数据库技术更好的扩展性,目前广泛应用于数据去重、在线游戏等互联网应用,kv存储可以提供很高的系统吞吐,影响kv系统性能的关键因素是索引,但随着数据量的增大,内存空间无法满足索引需求,将大部分索引存储在外存是解决这一问题的有效途径,报告介绍了目前这方面的研究进展,重点介绍了如何利用过滤器实现基于SSD的高效的索引。
 (Web Group) Web环境下关联数据的抽取、构建与应用(1) 
Abstract:
随着Wikipedia等以知识共享为目的在线社区的不断发展,以及从WEB上自动抽取信息的技术的进步,建立大型知识库已成为可能。当前已出现一些知识库,如研究机构发布的YAGO、 DBpedia以及工业界发布的知识库Freebase。本报告介绍了关联数据的抽取以及知识库构建的方法、当前的进展、研究的机遇以及遇到的挑战。
 2013.03.29  主题:混合存储与外包数据库中的查询结果验证技术
 (Flash Group) 高性价比的混合存储 [ppt]
Abstract:
主要介绍了使用少量的闪存来提高混合系统的性能,获得比较好的性价比。
 (Mobile Group) 外包数据库中的查询结果验证技术 [ppt]
Abstract:
查询结果验证是外包数据库中一项非常重要的技术。包数据库模型主要由三个实体组成:(l)数据所有者,(2)数据库服务提供商,(3)用户。在该模型中,数据所有者将数据及相关索引结构上传到外部数据库服务器,数据库服务器代表数据所有者向用户提供服务。由于第三方的数据库服务器是不可信的,它可能会为了自己的利益篡改数据和查询结果。如果缺乏有效的措施,一旦出现这些情况,而用户又无法证明数据的真伪,往往会给用户,甚至数据拥有者造成严重的后果。因此,需要为客户提供一种手段使其能够快速准确地验证查询结果是否真实和完整。
 2013.03.22  主题:大图数据及时空数据上的数据挖掘与隐私保护
 (Mobile Group) 大图上隐私感知的查询处理 
Abstract:
大图上与距离有关的隐私问题在人们的生活和生产中有巨大作用。比如,人们都希望在享受导航软件便利的同时不暴露自己的当前位置。拥有大量社交网络数据的公司如果可以确保他们的数据不被泄露,也可以选择云平台处理数据来节省大量资金。研究者就大图上与距离相关的隐私问题展开了研究并取得了阶段性的进展,未来的工作也许会直接有益于人们的生活和企业的运行。
 (Mobile Group) 时空共现模式在流数据上的发现 
Abstract:
当今社会各种移动设备的应用,产生了大量的时空数据,从这些数据中挖掘出时空共现模式有着非常广泛的应用。本次报告着重探索在流数据上时空共现模式的发现,研究流数据下该种模式的特征,通过采用新的度量标准和方法,成功的在流数据中发现了新的共现模式,并对共现模式随时间演化的趋势进行了有效的发掘。
 2013.03.15  主题:差分隐私保护热点研究
 (Web Group) 差分隐私保护下的回归分析 
Abstract:
差分隐私下的回归分析是分析数据的有力工具之一。然而,现在差分隐私下的回归分析方法要么局限于非标准类型的回归或者是不能生成较为准确的回归结果。文中提出了一种函数机制,该机制通过扰动目标函数达到减少全局敏感性以及缩小噪音量的效果,并在线性回归和逻辑斯谛回归上取得精确的回归效果。
 (Web Group) 通过变长的N-gram实现差分隐私序列数据的发布 [ppt]
Abstract:
在本文中,作者开发了可变长度的n-gram的模型,该模型用一组的可变长度的n-gram,提取了统计数据库中的基本信息。这种方法使用了一个精心设计的查询树结构和一系列基于马尔可夫假设的新技术,从而降低添加的噪声的幅度。发布的n-gram是有多种用途的。此外,笔者开发了一个产生人工合成数据库的解决方案,这使更广泛的数据分析任务成为可能。
 2013.01.04  主题:车载自组网中的位置隐私问题
 (Web Group) 人肉搜索介绍 [pdf]
Abstract:
通过两篇论文全面介绍了人肉搜索实证研究的相关内容。作为一种众包搜索行为,人肉搜索将一大批网络用户纳入协作群体,是一种新的问题解决之道。它是复杂社会网络分析研究方向的一种很有价值的科学研究平台。本讲座还介绍了讲者的一些学习心得。
 (Mobile Group) 车载自组网中的位置隐私问题 
Abstract:
在车载自组网中的位置隐私是个很受关注的问题。mix-zone方法,可以使得攻击者无法侦听到mix-zone内的车辆通信内容。基于统计的度量标准可以用来评估mix-zone的抗追踪保护能力。新提出的mix-zone部署问题用来保证利用最小数量的mix-zone达到满足DT-ET约束的最优隐私效果。

2012
 2012.12.28  差分隐私下的回归分析
 (Web Group) 空间OLAP查询在查分隐私上的研究 
Abstract:
大量低时效性的大规模数据都含有空间地理位置信息,这些数据用于OLAP查询以支持决策时并不能被很好的利用。同时由于数据的敏感性,如何能够安全的查询带有地理位置区域的OLAP信息查询已经成为一个亟待解决的问题。
 (Web Group) 差分隐私下的回归分析 
Abstract:
差分隐私下的回归分析是分析数据的有力工具之一。然而,现在差分隐私下的回归分析方法要么局限于非标准类型的回归或者是不能生成较为准确的回归结果。文中提出了一种函数机制,该机制通过扰动目标函数达到减少全局敏感性以及缩小噪音量的效果,并在线性回归和逻辑斯谛回归上取得精确的回归效果。
 2012.12.23  MySQL存储引擎和相关技术
 (FlashDB) MySQL存储引擎和相关技术简介 
Abstract:
其它类型的数据库解决方案采取是“一个尺码满足一切需求“,意味着你要么就牺牲一些性能,要么你就用几个小时甚至几天的时间详细调整你的数据库。而MySQL 插件式的存储引擎可以针对不同的解决方案提供不同的技术,从而使MySQL效率高,更灵活。在不同的技术如存储机制、索引技巧、锁定水平等上面的差异决定了存储引擎之间的差异。本次报告首先介绍存储引擎的基本概念、存储引擎类型和存储引擎的体系结构,然后讲解如何去创建一个自定义存储引擎,最后介绍自己在混合式系统与存储引擎方面的工作进展。
 (Flash Group) 一个列存储数据库:C-store 
Abstract:
C-store是由StoneBraker在2005年开发的一个列存储数据库。它是写优化的,带有一个可写存储和一个读优化的存储。所有新插入的数据和更新的数据都要先放在可写存储中。然后在某个时间由元组移动器将他们移入读优化存储中。而且在C-store中表是没有物理存储的,只存一些Projection。
 2012.12.14  异质存储系统中闪存敏感的缓存管理策略
 (Flash Group) 开发利用基于闪存的SSD内部并行机制优化查询处理中的扫描及连接操作 
Abstract:
基于闪存的固态硬盘内部存在着丰富的内部并行特性,然而数据库管理系统中传统的扫描及连接算法均未充分固态硬盘内部这一优良特性。本工作提出了一种并行扫描算法并在此基础上设计了一种并行哈希连接算法以充分利用SSD内部丰富的并行机制。
 (FlashGroup) 异质存储系统中闪存敏感的缓存管理策略 
Abstract:
基于闪存的异质存储系统是当前的研究热点,将闪存用做磁盘的读写缓存有利用最大化发挥二者的存储特性。总结该领域当前最热的研究点,提出适合于不同类型闪存特点的缓存管理方法,系统在保证一定的访问命中率的情况下,实现了对闪存的友好写操作。
 2012.12.07  主题:基于事件的共现模式与热点地区
 (Mobile Group) 基于事件的共现模式与热点地区 
Abstract:
基于事件的社交网络是一种新兴的社交网络形式,它包含两个方面,线上交互的部分及线下交互的部分。该类型社交形式有很多的应用,包括朋友推荐,服务改进,广告投放等。这些事件信息包含了时间和空间两个方面,对其时空共现模式进行深入研究可以为人们提供更好的服务。而且,热点地区一直是人们关心的话题,如果我们能把这两者结合起来,做一些研究性的工作,肯定能为社会做出贡献。
 (Mobile Group) 朋友推荐:一种移动社交网络中的近邻服务 [ppt]
Abstract:
随着移动设备的发展,移动社交网络成为人们生活中很重要的组成部分。近邻服务是移动社交网络中的一种很流行的服务,它的目的是找出当前位置附近的其他用户,比如提醒用户近邻的好友,或者发现近邻的潜在朋友等。我们提出了一种新的近邻服务,即朋友推荐,为用户推荐近邻的潜在好友。为了返回更令人满意的推荐结果,我们考虑了两个用户之间的profile的相似度。然而,服务提商是不可信的,所以在享受近邻服务的同时,有必要保护用户的隐私,如位置和profile等。我们分别提出了两种隐私保护的算法,分别保护位置和profile隐私。朋友推荐的算法可以在隐私保护处理过后的数据上进行。

 2012.11.30  主题:WEB交互式编程
 (Web Group) WEB交互式编程知识分享 
Abstract:
WEB交互式编程的相关知识技术分享,介绍了包括HTTP协议、Cookie等相关知识以及实验室已有的相关系统。
 (Web Group) 微博数据流中事件检测及其关联检测技术研究 
Abstract:
近些年来,随着Web2.0的发展,新型媒体不断涌现。微博,凭借其自身特点成为目前最受欢迎的社交媒体。微博数据具有很强的实时动态性和内容覆盖面广等特征,这使得我们在微博数据流中进行事件检测和关联检测成为可能。但是,微博的短文本特性、强噪音文本、丰富的社交信息、实时动态性也给事件检测及其关联分析带来了挑战。本报告对已有的相关工作进行了分析,同时提出了一种有效的事件检测及其关联检测算法。
 2012.11.23  主题:非阻塞连接算法
 (Cloud Group) 大数据时代的存储-SQL,NoSQL 还是 NewSQL? 
Abstract:
大数据时代的数据存储面临着新的挑战。在这种情况下,到底什么样的存储适用于大数据,是SQL,NoSQL还是所谓的NewSQL。本报告对这个问题做简要介绍,并对NoSQL的代表技术Bigtable和NewSQL的代表技术Spanner分别进行了介绍。
 (Cloud Group) Early Join:非阻塞连接算法 
Abstract:
多表连接基础上的在线聚集中不可缺少的是非阻塞的连接算法。衡量一个非阻塞连接算法的好坏主要在于是否能快速地产生early result,以及总的运行时间是否够快。目前的非阻塞连接算法主要分为2类,一类是针对在线聚集的,另一类是应用在数据流场景中的。前一类主要涉及的相关工作包括Ripple join、Hash Ripple Join、SMS-Join、DBO等,后一类则主要包括XJoin、Hash Merge Join、RPJ。
 2012.11.09  主题:CIKM2012参会报告
 (XML Group) 一种图上查询依赖的编码方法 
Abstract:
在有向图上,可达性计算是一个最基本的操作。它回答这样一个问题:在图上两个点u和v之间是否存在一条从u到v的路径。在很多实际应用中都用到了可达性计算,如软件工程,编程语言以及分布式计算等。尽管已存在很多可达性编码技术来支持高效的可达性计算,但是已有的方法不考虑查询的局部性特性。在我们这个工作中,我们提出了一种查询依赖的可达性编码方法。
 (Cloud Group) CIKM2012参会报告 
Abstract:
今天的CIKM在美国的夏威夷州毛伊岛召开。今年的CIKM一共有3个keynote,讲者分别来自yahoo!研究院、卡内基梅隆大学和堪萨斯大学。这次会议录取了146篇长文,录取率为13.4%;录取了157篇短文,录取率为27.8%。此外本次会议还有一个industry session,讲者来自Google、Linkin、Adobe等知名的IT企业,本次会议历时5天,吸引了全世界几百名学者参会。
 2012.11.02  主题:HBase Coprocessorri简介
 (Cloud Group) 基于MapReduce的连接查询处理 
Abstract:
连接查询是在数据处理中是一种重要的操作,而针对海量、复杂数据的连接操作又是一种非常费时的操作。MapReduce在大规模数据处理和计算方面具有很大的优势,但是MapReduce本身并不支持复杂的Join操作,这限制了MapReduce在某些方面的应用。本次报告首先对基于MapReduce的连接查询操作进行了综述,并对基于MapReduce的相似连接进行了重点分析。接下来又介绍了在高维数据相似连接方面的初步想法,最后介绍了几个具有挑战性的工作。
 (Cloud Group) 介绍HBase Coprocessor 
Abstract:
HBase,一种分布式的、可扩展的大规模数据存储系统,自0.92版本以来增加了一个重要的功能组件??Coprocessor。HBaseCoprocessor允许用户在不用修改HBase源代码的基础上编写自己的代码并在HBase的server端执行,使用户可以根据自己的需求增强或屏蔽HBase原有的功能。本次报告主要对HBase Coprocessor及其一些典型的应用进行介绍。

 2012.05.18  主题:Postgresql & SSD中的内部并发
 (FlashDB) PG内存管理 
Abstract:
Postgresql(PG)是伯克利大学研发的一套开源的关系型数据库,在业界应用广泛。在即将来临的暑假,Wamdm要研发的FlashDB也是基于PG。PG内存管理十分繁琐复杂。本次报告主要从内存管理的四个方面:内存上下文,高速缓存,缓冲池管理和进程间通信来分析PG内核。重点讲解内存上下文和高速缓存这两个方面。
 (Flash Group) 开发利用基于闪存的SSD内部并行机制 
Abstract:
随着基于闪存的固态硬盘在个人计算机和企业服务器上的广泛应用,固态硬盘受到学术界和工业界越来越多的关注。除了具有闪存存储器的优良特性之外,固态硬盘内部还具有丰富的并行特性。传统数据库系统主要是针对磁盘的机械特性和对称读写特性而设计的,并不能发挥固态硬盘内部并行特性的优势。我们首先将固态硬盘作为一个黑盒进行探测以了解其内部的并行特性。在此基础上,我们提出了一个针对SSD的并行模型,以充分利用固态硬盘内部丰富的并行特性。
 2012.05.11  主题:云上新动态
 (Cloud Group) 基于MapReduce的Join方法综述 [pptx]
Abstract:
MapReduce在大规模数据处理和计算方面具有先天的优势,但是MapReduce本身并不支持复杂的Join操作,这限制了MapReduce在某些方面的应用,为解决这一问题,已有部分学者进行了相关研究。本次报告主要对相关工作进行了总结,并重点介绍了基于集合相似度的Join和KNN Join两个工作。
 (Cloud Group) 一些数据存储系统介绍 
Abstract:
最近涌现出许多开源的数据存储系统,一些是面向键值存储,一些事想要解决传统关系型数据的扩展性问题。这些系统的设计目标都是问了能够有效的存储大规模的数据,这个主题是为了介绍一些这样的存储系统。
 2012.05.04  主题:OrientX
 (XML Group) largeXML文档上编码技术研究 
Abstract:
编码技术是XML数据库查询处理的关键技术。到目前为止,尽管提出了各种各样的编码方法,如前缀编码、区间编码以及素数编码以及其他与之相似的编码方法,但是这些方法总是存在这样或那样的缺点。本文提出了一种简单而有效的triple编码方法。
 (XML Group) C++程序链接过程和相关技术简介 [pptx]
Abstract:
C++程序链接过程和相关技术简介。
 (XML Group) XML数据库测试平台介绍及技术分享 
Abstract:
近年来,在学术界和工业界的共同推动下,XML数据库技术已经取得了突飞猛进的进展,诞生了大量的XML数据库原型系统和商用产品,但是并没有一套全面的评测基准,也没有一个基准测试平台来衡量数据库的功能和性能指标,因此搭建一套完善的XML数据库基准测试平台是切合实际需求的。

 2012.04.20  主题:DASFAA参会报告
DASFAA 参会者 特殊专题:DASFAA参会报告 
Abstract:
张金增、史英杰、霍铮、曹庆铃就这次DASFAA会议做参会报告。
 2012.04.13  主题:PCM
 (Flash Group) 数据管理和应用中有效引入相变存储器 [pptx]
Abstract:
相变存储是一种新兴的存储技术,它兼有记忆和存储两方面的特点。在现有的存储体系中引入PCM可以有效的提高数据管理的性能,将PCM用作主存和扩展存储是将PCM添加数据库系统管理应用的两种主要的方式。PCM自身的读写不对称和有限的使用寿命的特性使得我们在引入PCM进行数据管理时必须设计有好的算法和结构以提高他的可用性和可靠性。
 (Flash Group) 存储级内存:技术概述及其带来的系统影响 [pdf]
Abstract:
存储级内存(SCM)是IBM提出的一种新型的数据存储设备。SCM具有固态、快速的访问时间(与DRAM同一个数量级)、低廉的价格(与磁盘同一个数量级)和较强的持久性(约10年)。SCM的出现模糊了主存和存储之间的差距,这就给数据库系统的设计带来了巨大的影响。本报告给出了SCM技术的概述并介绍了一种典型的SCM设备:相变存储器(PCM)。此外,本报告还详细讨论了传统数据库的设计在SCM上应该重新考虑的地方。
 2012.04.06  主题:DASFAA参会预报告
DASFAA 参会者 特殊专题:DASFAA参会预报告 
Abstract:
张金增、史英杰、霍铮、曹庆铃就这次DASFAA会议做参会预报告。

 2012.03.30  主题:闪存架构
 (Flash Group) 闪存设备和RAID 
Abstract:
越来越多的固态硬盘特性被发现,例如内部并行特性,但是固态硬盘仍然存在很多问题。该报告从三个方面介绍RAID与闪存设备的结合,提高闪存的性能:1、固态硬盘内的RAID;2、固态硬盘之上的RAID;3、固态硬盘和磁盘之上的RAID。
 (Flash Group) 适应于闪存的系统架构及应用 
Abstract:
近几年,闪存在笔记本电脑和企业级领域得到了广泛应用。在这些环境下,大部分的系统需要提供高吞吐、低延迟的存储性能。因此,闪存成为一个最好的选择,作为RAM与磁盘之间的缓冲。在该套ppt中,我们介绍了两种系统设计FlashStore和SkimpyStash。
 2012.03.23  主题:Cloud & RDF
 (Cloud Group) 基于HBase和MapReduce存储大规模RDF数据 [pptx]
Abstract:
随着RDF数据集的发展,它变的越来越大以至于不能利用传统的RDBMS进行存储,并且传统的RDF存储机制也不能满足现在存储和查询的要求。所以我们迫切的需要提出一种更高效的存储机制和查询过程。
 (Cloud Group) Jena-HBase:一个分布式的、可扩展的高效RDF存储系统 
Abstract:
在传统的RDF存储模式中,通常只能支持单机的存储方式。但随着大数据时代的到来,RDF存储的可扩展性成为了其中一个必不可少的特性。在本文中,介绍了Jena-HBase这样一个系统,由于其底层采用的云数据管理系统HBase,从而能够保证其存储的可扩展性。
 2012.03.16  主题:WSDM2012简介
 (Web Group) WSDM2012 会议概览 
Abstract:
本报告分析了WSDM2012的会议热点研究问题,并且介绍了社会网络方面的三篇论文。
 (Web Group) WSDM2012 会议概览 II 
Abstract:
介绍了WSDM2012有关社会网络的两篇论文。
 2012.03.11  主题:XLDB2011简介
 (Cloud Group) XLDB会议简介 
Abstract:
简单介绍XLDB会议,重点关注XLDB2011的内容。
 (Cloud Group) Facebook数据高速公路 [pptx]
Abstract:
本次报告报告了脸谱公司的实时日志处理系统,它采用Scribe作为日志收集期并通过Calligphus写入到HDFS中,HDFS充当一个消息中继器的作用。Puma系统定期地从HDFS中获取记录数据完成聚集操作,并将聚集结果周期性地写入到HBase中。
 2012.03.02  主题:链接数据简介
 (Web Group) 关联数据研究现状 
Abstract:
本次报告介绍了关联数据(Linked Data)及其相关研究问题,包括关联数据的基本概念、发布关联数据需要遵循的指南以及基于关联数据构建的应用示例。报告中还介绍了一个由草根社区发起的将开放数据发布成关联数据的Linking Open Data项目,报告最后给出了关联数据可能的研究方向。
 (Web Group) 介绍RDF--Resource Description Framework 
Abstract:
RDF(Resource Description Framework)是用来表示关联数据(Linked Data)的数据类型。RDF是一种通用数据格式,它提供了一个资源描述框架,可以对世界上的万事万物进行描述。本次报告从RDF所需的背景知识、什么是RDF、RDF的语法、RDF的schema、RDF的应用和RDF的查询语言六个方面对RDF进行了介绍。

 2012.01.08  主题:Inside and Outside SSD
 (FlashGroup) 设计闪存转换层提高ssd的性能和寿命 [pptx]
Abstract:
闪存转换层是添加在闪存芯片上执行地址映射,垃圾回收和磨损平衡功能的一个软件层,地址映射用于完成逻辑地址到物理地址的转换,对上层应用隐藏了闪存写前擦除的特性。磨损平衡策略可以提高擦除的均衡性,提高闪存的寿命。
 (Flash Group) SSD的性能测试 
Abstract:
从以前读的论文中我们知道SSD的一些特点,但是我们并没有真正做过测试。因此,我们做了一些测试实验。我们在6块SSD上做测试并且收集IOps,MBps和平均延时的数据。对实验结果分析后,我们得到了SSD的一些共性特点,并且也发现了SSD一些不同和奇怪的结果。
 (Web Group) TextDigger:还原文本主题 
Abstract:
报告介绍了一种关键词抽取的新方法。这种方法是基于图的,而且能够克服词汇壁垒的问题。

2011
 2011.12.31  主题:Primary Exploring of Differential Privacy
 (Web Group) 差异隐私的度序列可图化查询优化算法 
Abstract:
针对社会网络和图数据的度序列隐私保护已提出很多种算法。然而,这些算法都是针对特殊的攻击背景而不能为用户提供严格的隐私保护。为此,提出了一个新的研究问题:采用差异隐私策略保护度序列。差异隐私策略既可以提供严格的隐私保护,又能响应用户的度序列查询。然而,由于该隐私策略采用噪音扰动真实度序列值,查询结果具有很大的误差,可用性较低。通过研究隐私和可用性之间的关系,提出了一种可图化推理约束策略。在此基础上又给出了一种高效的查询优化算法GQODS。
 (Web Group) 差异性隐私下的数据挖掘 
Abstract:
差异性隐私是一种新的并且强大的隐私保护要求,如果一个算法满足差异性隐私,那么它就能够保证不论攻击者有什么样的背景知识都不能获得任何个人信息。在这里介绍了两篇在差异性隐私上做数据挖掘的论文。
 2011.12.24  主题:云端小飞象系列报告之二
 (Cloud Group) 海量物联网数据的索引 
Abstract:
由于物联网数据的海量性、频繁更新等特点,导致传统的数据库管理技术无法满足扩展性和频繁更新的要求,我们试图在云环境下实现物联网数据的高效管理。报告主要分析了物联网数据的特点,现有云数据管理系统及相应索引方案的局限性,并在此基础上提出了一种在云环境下支持物联网数据频繁更新和高效多维范围查询的索引方案。
 (Cloud Group) Hadoop in SIGMOD 2011 [ppt]
Abstract:
介绍下SIGMOD2011上部分Hadoop相关文章的情况,希望借此来使大家对Hadoop的一些最新研究动态有所了解。
 2011.12.17  主题:云端小飞象系列报告之—
 (Cloud Group) MapReduce上的在线聚集 
Abstract:
在线聚集(OLA)在1997年被首次提出,随着云计算的不断发展,这个问题又一次引起了人们的关注。在本次报告中,我们讨论了在云环境下实现在线聚集所面临的挑战性问题,并结合已有的研究工作讨论了初步的实现框架。
 (Cloud Group) MapReduce的介绍和应用 
Abstract:
Mapreduce是在阿帕奇基金会的hadoop项目中。这是一个编程框架,mapreduce支持并行性,这个并行性是用户透明的,目前,针对大数据的处理,越来越多的应用选择mapreduce框架来解决。
 2011.12.10  主题:移动计算与社交网络系列报告之二:矛与盾的较量
 (Mobile Group) 移动社交网络中的位置隐私保护 
Abstract:
随着社交网络的流行和智能手机的发展,移动社交网络越来越受到人们的关注。但是,位置信息的引入也为隐私保护带来了新的挑战。本报告分析了移动社交网络中的位置隐私,并提出了可能的解决办法。
 (Mobile Group) Feel Free to Check-in: 地理社交网络中防止隐秘位置推理攻击的隐私保护方法 
Abstract:
随着地理社交网络/移动社交网络的发展,位置隐私问题成为移动社交网络用户最关注的问题。在报告中,我们分析了移动社交网络的特点以及隐私位置推理攻击的攻击模型,给出了针对隐秘位置推理攻击的隐私保护方法。
 2011.12.3  主题:移动计算与社交网络系列报告之一:新与旧的碰撞
 (Mobile Group) 加密云数据上的隐私保护的空间关键字查询技术 
Abstract:
随着云计算的发展,越来越多的公司企业为了减少运行和维护的代价,将自己的数据外包到云上,让云来管理和存储数据,同时为查询用户提供服务。我们在享受云带来的便利的同时,也需要解决它带来的隐私泄露问题,如何保护云上数据隐私和查询隐私非常重要。我们的这个工作的目的就是用加密的算法来保护两者的隐私,同时设计一个配套的空间关键字查询的技术,使得云在加密空间上也可以正确地进行查询处理。
 (Mobile Group) 虚拟走向现实-地理社交网络探析 
Abstract:
地理社交网络是一种新型的社交网络,为社会网络加入了位置维,使得它具有额外的社会动态性,它为虚拟世界和物理世界搭建起一座桥梁。本次报告包括三个方面的内容,首先,从整体上对地理社交网络进行介绍,接下来分析了在该领域的已有研究工作,最后指出了下一步的挑战性工作。

 2011.11.26  主题:XML数据库系统
 (XML Group) 新版OrientX XML数据库系统 
Abstract:
近几年国内外对非结构化数据的研究都十分关注,国外大部分都是些商用的xml数据库,大概有百多家公司都在从事非结构化数据库的研发。我们也可以从中看出XML数据库研发的重大意义。OrientX是由WAMDM实验室自主研发的,是中国Native XMLDB的代表。。。
 (XML Group) 编码技术在XML数据库中应用 
Abstract:
当考虑到ID/IDF关系时,XML数据不能再用树模型来表示,这时需要用图模型来表示。这使得在进行查询处理时,判断节点间的祖先后代关系更加复杂。为了解决这一难题,我们引入了编码技术。本次报告主要介绍适合图模式XML数据的编码技术。
 (XML Group) XML数据库测试 [pptx]
Abstract:
使用大约1000个用例来对XML数据库进行测试,通过分析测试的结果来有效的评估各个数据库的性能。
 2011.11.19  主题:Topic Detection and Tracking(TDT)
 (Web Group) 微博中的事件发现 
Abstract:
事件是指发生在特定时间和地点的事情,微博帖子的实时分布式特性为事件发现提供了保证,同时也为事件发现提出了挑战。此次报告介绍了在微博中进行事件发现所面临的挑战、相关工作以及一些改进思路。
 (Web Group) 主题检测与跟踪-回顾与挑战 
Abstract:
主题检测与跟踪研究的目标是从流数据(如新闻、广播)中发现和关联具有相关主题的材料。本次报告中我们介绍了主题检测和跟踪的五大任务和相关研究方向,并对各任务(尤其是新事件检测和主题跟踪任务)介绍了部分有代表性的研究工作。报告最后提出了在主题检测和跟踪中未解决的问题和挑战。
 2011.11.12  主题:Log-Structure与闪存的天作之合
 (Flash Group) 讲一些使用日志结构的键值数据库 [pptx]
Abstract:
日志结构这个概念最早是在1988年由John K. Ousterhout和Fred Douglis设计的日记结构文件系统中出现的。现在,一些使用日志结构的键值数据库逐渐出现,其中包括Riak、RethinkDB以及LevelDB。这些键值数据库继承了日志结构的主要思想,同时又采用了不同的实现方式,在很多工业级的应用中发挥了举足轻重的作用。
 (Flash Group) 闪存以及固态硬盘 
Abstract:
闪存凭借其优良的特性,已经在移动和嵌入式领域得到了广泛的运用。本次报告主要介绍闪存和SSD的相关知识,主要包括闪存的分类、性能、局限性以及发展趋势,SSD的架构以及接口类型;此外,还会介绍近期对我们购买的SSD的一些测试结果。
 (Flash Group) 列存储的优化以及列存储对闪存的适应 
Abstract:
在列存储上,通常有三种主要的优化措施,他们分别是:压缩,块循环以及推迟物化。其中压缩扮演最重要的角色,它能使列存储的性能提高一个数量级。列存储上的一些特性使得它在闪存上能发挥出更好的性能,但闪存又有它自身的一些特性,所以列存储必须做一些改变来适应闪存。

 2011.10.29  会议地点:理工配楼一楼会议室
 (Cloud Group) 物联网与云计算 [ppt]
Abstract:
自2008年IBM提出"智慧地球"以来,物联网开始越来越多的受到关注。物联网的架构基本分为三层:由RFID、传感网等组成感知层;Internet、Wifi、3G等网络,组成物联网的网络层;此外,针对各类社会中的应用需求是其应用层。而云计算作为物联网产业链中的关键中间技术,将是物联网发展的重要基石。
 (Cloud Group) Linux使用技巧简介 
Abstract:
主要讲解了一些linux的常用命令和软件,以及使用linux测试的技巧和经验。
 2011.10.21  会议地点:理工配楼一楼会议室
 (Web Group) 社会网络中的个性化隐私保护 [pptx]
Abstract:
目前,针对社会网络隐私问题已提出许多保护策略,而这些策略都是假设攻击者拥有相同的背景知识。然而,在实际应用中不同的用户有不同的隐私需求。所以在拥有相同背景知识的前提下,不能满足个性化隐私需求,进而不能在隐私和可用性之间进行较好的平衡。基于此需求,本文提出一种框架来满足用户的个性化隐私设置需求。
 2011.10.14  会议地点:理工配楼一楼会议室
 (Flash Group) 支持范围查询的闪存存储结构 
Abstract:
由于闪存具有和磁盘完全不一样的特性,主要是随机写性能比较差,所以大部分都采用异位更新的方式。现有的基于闪存的存储模型主要有行列混合存储、IPL存储模型和追加存储模型。虽然行列混合存储可以很好的支持查询,但是行列混合存储的更新性能没有被考虑。IPL存储模型和追加存储模型虽然具有较好的更新模式,但是没有考虑到OLTP中一中很重要的应用,就是范围查询。本文主要目标是,尽量不降低更新性能提高查询性能,尤其是范围查询。针对此,我们提出了块页式两级存储管理和内存级B+-tree索引结构。

 2011.09.24  会议地点:理工配楼一楼会议室
 (Cloud Group) 云数据管理中的索引技术 [ppt]
Abstract:
云数据管理系统因其高可扩展性、高可用性得到越来越多的重视,然而,目前仅支持Rowkey上的点查询和范围查询,对非Rowkey上的查询和多维查询无法提供有效的支持。本报告主要对目前云数据管理中的索引技术进行了调研,分析了各自的优缺点,以及未来的研究方向。
 (Web Group) 大数据简介 [ppt]
Abstract:
近来,许多企业和研究领域可以关注大数据的发展。此次报告从大数据的定义、框架、应用和相应的挑战入手进行介绍。由于大数据不同于海量数据和大规模数据,需要设计和开发新的计算模型、算法和存储构建。报告中主要介绍了大数据的随即采样模型、数据流模型和更略图模型等计算模型。

 2011.06.24  会议地点:理工配楼一楼会议室
 (Web Group) 社会网络中个人隐私分值计算和可信预测 
Abstract:
近来,社会网络中的隐私和可信问题受到越来越多的关注。此次报告主要涉及社会网络中个人隐私风险计算和个人之间彼此信任的预测问题。隐私风险计算主要讲解了极大似然和EM参数估计方法,而可信预测主要讲解了社会心理学中的平衡理论和地位理论。
 2011.06.17  会议地点:理工配楼一楼会议室
 (mobile Group) 地理社交网络的基于tag的空间协同搜索 
Abstract:
随着移动定位技术和social network的不断发展,geo-social network 逐渐流行。基于该场景,提出一种基于tag的空间协同搜索,帮助位于不同位置的有不同需求的用户找到满足他们大多数需求的活动场所。为了有效的回答该查询,提出了两种解决方案。实验结果验证了提出算法的有效性。
 (Mobile Group) 基于停留点的轨迹隐私保护技术 
Abstract:
轨迹上的停留点往往包含较多的敏感信息,因此,从停留点出发保护轨迹隐私更加合理、高效。我们提出了一种基于停留点保护的轨迹隐私保护方法,可以有效的降低信息扭曲度。
 2011.06.10  会议地点:理工配楼一楼会议室
 (Mobile Group) 关于Flickr上的论文和应用研究 
Abstract:
最近几年关于web2.0的研究的论文渐增,像Facebook、Twitter、Flickr这些Web2.0时代的代表,不仅给我们带来了很好的应用,同时也给我们带来了一个很好的研究平台。在Flickr上我们可以免费获得大量的tag、title、picture等信息,这给我们的研究带来了很大的方便。基于Flickr的研究目前主要有基于Flickr的距离计算、旅游推荐、基于Flickr进行预测、图像文件检索这四个方向。
 (XML Group) GILX:图结构XML上的压缩区间编码方法 
Abstract:
当引入ID/IDREF关系后,XML文档不再用树模型来表示,而只能用图模型来表示。由此给XML数据管理带来许多新的问题。在图结构的XML文档上,可达性查询是一种很关键的查询方式。在这个报告中,我们介绍了一种压缩的区域编码方法来支持高效的可达性查询。
 2011.06.03  会议地点:理工配楼一楼会议室
 (Web Group) 在基于信任打分的网络中找出节点的偏见和威望值 
Abstract:
在基于信任打分的网络上一种新的计算节点权重的方法。

 2011.05.27  会议地点:理工配楼一楼会议室
 (Cloud Group) 利用MapReduce作Join查询优化问题研究 [pptx]
Abstract:
MapReduce作为一个并行的编程框架,能够让我们很轻易地采用廉价机器并行处理大规模数据集,遗憾地是,同一个MapReduce job并不能够很好地处理异构数据源,例如join查询。
 (Mobile Group) 云计算环境下隐私保护的查询处理 [pptx]
Abstract:
随着云计算的发展,云上DaaS服务也成为一种趋势。但是,这种服务导致了两类隐私的泄露,即数据隐私和查询隐私。ICDE 2011和DASFAA 2011上的两篇文章提出了两种不同的云上隐私保护框架。一个是基于隐私同态加密算法的框架。即,使用加密算法隐私同态的特征,让客户端引导查询处理过程,从而达到保护查询隐私和数据隐私的目的。另一个框架是基于秘密分享模式的。即在数据外包之前,使用秘密分享公式将数据划分成n份,从而达到隐私保护的效果。
 2011.05.20  会议地点:理工配楼一楼会议室
 (Cloud Group) 知识库上的语法规则优化和数据清洗 
Abstract:
自然语言是非常复杂的,因此为了建立准确的知识库,我们需要做语法规则的优化和抽取结果的数据清洗。
 (Flash Group) SSD上的查询与优化 [ppt]
Abstract:
SSD上关于查询处理与优化的一个survey。
 2011.05.13  会议地点:理工配楼一楼会议室
 (Flash Group) 在追加存储中考虑事务 
Abstract:
目前闪存数据库的研究主要是针对闪存的随机写性能比较差,提出了一系列的闪存存储方案??行列混合存储、基于日志的存储、追加存储三种方案,但是各自有各自的优势,各自有各自的缺点。以前提到的追加存储都是应用到Key-Value系统中,如果把追加存储应用到闪存数据库管理系统中就会存在很多问题, 比如说索引、事务处理等等。其中Rollback和恢复是事务处理中必不可少的部分,针对原有的方法进行针对追加存储方案的改进,使得恢复更快,性能更优。
 (Web Group) 微博链接的语义分析 
Abstract:
本次报告介绍了WSDM2011上的关于Twitter的link语义分析的一篇论文“Topical Semantics of Twitter Links”,同时也介绍了我们组对sina微博数据分析的一些结果。
 2011.05.06  会议地点:理工配楼一楼会议室
DASFAA 参会者 特殊专题:DASFAA参会报告 
Abstract:
曹老师、范玉雷、梁智超、綦晓颖就这次DASFAA会议做了参会报告。

 2011.04.22  会议地点:理工配楼一楼会议室
 (Cloud Group) Redis--key value内存数据库介绍 
Abstract:
Redis是一个key-value内存数据库,由于其对数据的存储和操作都是在内存中,所以有着很高的性能。但是由于内存的容量相对较小和易失性,Redis又提供了虚拟内存管理和数据持久化功能。主要介绍了Redis的数据流程和对虚拟内存管理的一些改进想法。
 (Flash Group) 闪存数据库日志技术 
Abstract:
闪存作为一种新型的存储设备,将取代磁盘成为新一代的数据库二级存储设备。但是,直接使用传统的日志方法在闪存数据库中难以充分利用闪存的优越性。我们分析了闪存数据库中日志设计的问题,提出了一些新的解决方案。一种是对闪存中天然存在的数据的历史版本来进行管理和利用的日志及恢复方法HV-Logging;一种是使用链表结构取代原有的顺序结构进行日志记录的LB-Logging。
 2011.04.15  会议地点:理工配楼一楼会议室
 (Cloud Group) Online模式下的聚集操作 [ppt]
Abstract:
在传统的数据库系统中,聚集操作通常是批处理的:在提交一个查询后,系统在相当长的时间内处理很大的数据量,最后给出最终的结果。在Online Aggregation中,作者提出的一种新的操作界面,在这个界面中,用户既能观察他们的聚集查询结果,同时也能随时停止查询的进行。
 (Mobile Group) 一种用户协作的无匿名区域的位置隐私保护方法 
Abstract:
基于位置服务的广泛应用给人们的生活带来了极大的便利。但是用户在享受这些便利的服务的同时,个人的位置隐私也面临着严重的威胁。目前,典型的位置隐私保护技术是位置k匿名方法。该方法容易使中心服务器成为性能瓶颈和集中攻击点,也容易造成查询处理过程更为复杂。报告介绍了一种用户协作的无匿名区域的位置隐私保护方法。
 2011.04.08  会议地点:理工配楼一楼会议室
  特殊专题:软件和硬件在数据管理过程中的相互作用 [ppts]
Abstract:
该专题主要介绍硬件磁带、磁盘、Flash、SSD和存储集存储器,同时还分析了这些硬件和数据库管理系统之间的关系和相互作用。本专题包含7个报告。第一个详细叙述了从磁带到磁盘的技术路线,以及现在主流的固态硬盘技术。接下来的三篇文章主要介绍了NAND闪存芯片上的数据管理技术。接下来的两篇介绍除了闪存之外的非易失硬件对软件技术的影响。最后一篇阐述了当前的SSD的能源效能的测试。
 2011.04.02  会议地点:理工配楼一楼会议室
 (Cloud Computing Group) 云环境下的查询处理进程估计 
Abstract:
在云环境下进行查询处理进程估计面临很多的挑战性因素,包括:任务并行,执行速度不固定,任务出错等等。本次报告介绍了现有的一些方法如何解决这些挑战性问题,同时介绍了我们关于本问题的一些初步的想法。
 (Cloud Group) Cassandra和Hbase的系统测试报告 
Abstract:
对Cassandra和Hbase做了一系列的测试,对其测试结果进行了汇报 。

 2011.03.25  会议地点:理工配楼一楼会议室
 (Web Group) 手机应用程序项目报告 
Abstract:
随着苹果公司手机应用程序商店App Store的巨大成功,越来越多的手机制造商、运营商和互联网服务商也都推出了自己的应用程序商店。然而,大量应用程序的出现,给手机用户带来了巨大的麻烦,用户要想找到自己想要的手机应用程序变得越来越困难。因此,手机应用程序的搜索和推荐技术的研究显得非常重要,作者从项目背景、项目研究动机、相关解决方案等方面做了介绍,最后提出了相关问题与大家进行交流。
 (Web Group) Twitter更像什么,社交网络还是新的媒体 
Abstract:
Twitter是现在在世界上很流行的一种网络应用。那到底什么是Twitter?这次报告将会根据WWW2010上的一篇文章"What is Twitter, a Social Network or a News Media"来挖掘一些关于Twitter的高级特性。
 2011.03.11  会议地点:理工配楼一楼会议室
 (Web Group) Twitter中的主题权威识别与微博搜索分析 
Abstract:
本次报告介绍了WSDM会议上关于Twitter上主题权威发现和微博搜索技术的的三篇文章。主题权威发现的两篇文章中,TwitterRank使用的是一种基于图结构的类PageRank算法,而另一篇文章使用基于高斯混合模型的聚类方法来选择候选权威用户,并通过对候选用户的排序给出最终的权威用户集。此外,本次报告还介绍了一篇对微博搜索和Web搜索详细比较的测评文章。
 (Web Group) Twitter中的信息传播 
Abstract:
作为一个微博服务,Twitter的发展极为迅速。在此报告中,我们主要关注Twitter上的信息扩散和传播问题。这里我们介绍了WCID 2011上的两篇论文。第一篇主要研究了信息级联过程中如何处理数据确实的问题,从而更加准确的估算出传播模型的参数。第二篇工作主要研究了Twitter上的用户影响力评估。通过这两篇文章,我们了解了Twitter上信息扩散和传播方面的一些问题。

 2011.01.14  会议地点:理工配楼一楼会议室
 (Cloud Group) UDT网络协议介绍 
Abstract:
UDT 相比于传统的网络协议(如:TCP)有着良好的性能。当在某些延时很大的网络中,UDT的参数也需要进行相应的调优。
 (XML Group) XML数据库测试报告 
Abstract:
关于4种xml数据库测试的总结报告。
 (Cloud Group) 元数据管理 
Abstract:
近年来,为了满足大规模数据的存储,聚簇存储成为一个越来越流行的方式。伴随着聚簇存储的出现,如何访问聚簇文件系统的数据成为一个挑战性的问题。元数据管理的研究就是为了解决这个问题。本次报告重点介绍目前在元数据管理研究中已有的一些方法以及未来在TaijiDB上可做的元数据管理研究
 2011.01.07  会议地点:理工配楼一楼会议室
 (XML Group) XML关键词查询改写 
Abstract:
这次报告,我们主要讨论了在XML关键词查询中的查询改写问题。其中,我对已经存在的XML关键词查询改写方法进行了分类。另外,我提出了一种全新的自动化的方法将关键词查询改写为结构化查询,它考虑了XML数据的内容和结构。首先我们将查询关键词按照数据的内容拆分为指向结构的词和指向内容的词,并且根据schem和数据我们可以抽取出这些指向结构的词的关系图,它对应于一个带权的有向图。这个有向图的最优和前K个生成根树对应的是最优的和top-k结构化查询方法。
 (Cloud Group) 诺西实习报告 [ppt]
Abstract:
关于诺西实习的总结。主要报告实习参与的测试项目??针对传输协议UDT的性能测试。首先,传输协议UDT是一种面向高速广域网上的海量数据传输协议。然后,对于测试脚本的每个部分进行详细介绍。
 (Mobile Group) 移动对象的轨迹隐私保护研究 
Abstract:
现有的大多数轨迹隐私保护的工作都关注于轨迹k匿名,但是单一的轨迹k匿名并不能完全保护轨迹隐私??即使移动对象藏匿于组中,如果该组内没有足够多种类的隐私信息,攻击者还是可以 把敏感信息和移动对象联系起来。因此,我们致力于找到一种能提供更强的轨迹隐私保护的方法。

2010
 2010.12.24  会议地点:理工配楼一楼会议室
 (Mobile Group) 连续密度查询 
Abstract:
介绍了连续密度查询的相关工作,指出之前的算法导致的结果遗失问题。提出了一种新的基于TPR树的算法来解决上述问题。新的算法可以返回所有密集区域,并且得到更加精确地计算结果。
 (Mobile Group) 研究回顾、探讨与交流 
Abstract:
对博士期间的研究过程和经历进行了总结,提出了一些研究心得,经验和教训。
 2010.12.17  会议地点:理工配楼一楼会议室
 (Web Group) 博客意见检索 
Abstract:
随着Internet中博客、论坛端点的不断发展和内容的不断丰富,网络舆情逐渐发展成为舆情分析的重要关注点,而博客中的意见检索是研究界关注较多的方向。本次报告从博客意见检索的目标、框架、实现方法等方面综述了最近几年研究界关于博客意见检索的研究成果。
 (Web Group) 用户个人隐私保护问题研究 
Abstract:
互联网上存储了大量的信息。尤其随着Web2.0技术的出现,网络中个人信息的数量在急剧增加。恶意用户可以通过高度索引的搜索引擎来收集网络上的个人信息,从而获得个人的隐私信息。这是一种基于搜索引擎挖掘个人隐私的一种新型隐私泄露问题。在这个报告中,我们对一个已有的方法进行扩展,该方法由我们的一位已毕业研究生艾敬提出。我们新提出了一个基于二部图的聚类方法来解决上述问题。
 2010.12.10  会议地点:理工配楼一楼会议室
 (Flash Group) 一种基于闪存数据库的延长闪存使用寿命的新方法 
Abstract:
随着容量的增长和价格的下降,闪存开始走进企业及应用并展现出了替代传统磁盘的强大潜力。但是,闪存也存在“写前擦除”和“擦出次数有限”的顽疾,这导致了频繁的随机写和小的写很快就会将一个闪存的块磨损殆尽。在此背景下,我们分析了传统数据库中的空闲空间管理方法,并指出其和闪存的不适应性。此外我们也提出了一种新的方法来缓解这个问题,这种方法通过对空闲空间管理和缓冲区管理的调整减少了写I/O的次数,从而延长了闪存的使用寿命。
 (Flash Group) 一种专用于企业级SSD的基于操作的闪存转换层算法 
Abstract:
闪存转换层是闪存设备上非常重要的一个固件,对闪存设备的性能有很大的影响。当SSD直接应用于企业级环境时,出现了很多问题。因此为提高总体性能,需要重新设计闪存转换层。本文提出了一种新的基于读、写操作的闪存转换层算法。
 2010.12.03  会议地点:理工配楼一楼会议室
 (Web Group) 基于社会注释数据的结构化查询推荐 [ppt]
Abstract:
查询推荐已经被认为是一种重要的方式去帮忙用户进行搜索和提高搜索引擎的使用率。
 (Web Group) OpenScholar系统介绍 
Abstract:
OpenScholar是由Web组开发的自动生成学者主页的系统,它具有自动检索主页内容、动态更新维护等特点。

 2010.11.26  会议地点:理工配楼一楼会议室
 (Cloud Group) 云环境下的查询优化 
Abstract:
在云环境下,数据以Block块为单位进行备份存储,在查询时,可能会涉及到数据迁移的问题。如何尽快以尽可能小的代价完成查询是一个值得研究的问题。
 (Web Group) 基于唯一性约束及错误值的记录链接分析 [ppt]
Abstract:
本文主要讲述了基于唯一性约束及错误值的记录链接分析。作者采用K-部图对不同数据源的记录进行建模,然后在K-部图上进行聚类和匹配操作,来解决Duplicates和Conflicting Data问题。
 2010.11.19  会议地点:理工配楼一楼会议室
 (Web Group) 评估实体识别结果 [ppt]
Abstract:
实体识别是数据集成中一个非常重要的技术。它试图在海量数据记录中识别出代表相同实体的记录,在这个意义上来说,它和聚类或者说是划分相当类似。而这次报告主要关注于一种叫做GMD的实体识别结果的评估方法。
 (Cloud Group) 查询处理研究 
Abstract:
查询处理的研究工作无论是对于并行数据库还是云环境下的数据库来说都是一个很重要又很有难度的问题。此次报告中,我们简要介绍了集中式数据库和分布式数据库中的查询处理流程,然后介绍了大规模数据处理的研究现状,包括就MapReduce的一些争论以及join算法的实现。最后我们介绍了自己的工作和未来的工作。
 2010.11.14  会议地点:理工配楼一楼会议室
 (XML Group) 图数据上关键词检索的多样性问题 
Abstract:
关键字搜索是一种web上常用的信息检索机制。由于具有友好的用户查询接口,事实上,在查询结构化和半结构化数据时,关键字搜索同样是一种非常有效的检索机制。目前,在图数据上的查询处理研究问题已经引起了学术界越来越多的关注。在该报告中,我们集中讨论图上关键字检索的语义多样性问题。
 (Flash Group) SSD的企业级应用 [ppt]
Abstract:
SSD在企业中的应用越来越广泛,但这时就出现了一个问题,现在的平台是不是适合SSD?这篇文章对这个问题进行了解答。在报告中也对SSD RAID进行了介绍。
 2010.11.06  会议地点:理工配楼一楼会议室
 (Cloud Group) CIKM2001参会总结 
Abstract:
在这个报告中,我对CIKM2010的情况作了一个简单的总结和介绍,并结合自己参加会议的经历谈了一些自己的想法。
 (Cloud Group) RHP:一个提高cassandra中range query效率的数据分布方法 
Abstract:
在cassandra中,负载均衡和范围查询的效率之间是一个巨大的矛盾,如何在他们之间做折中,是一个关键问题。

 2010.10.30  会议地点:理工配楼一楼会议室
 (Mobile Group) 时空序列景点查询演示 [ppt]
Abstract:
从现实角度出发,考虑flicker上面的一些景点标记信息,如果想在一定限制的时间内,对这些景点进行遍历(游玩),那么方案肯定是有很多种的,那么如何进行遍历才是最节省空间和时间的呢?我们给出一个demo演示,给大家介绍下,我们提出的三种有效的方法。
 (Cloud Group) 对象存储调研报告 [ppt]
Abstract:
在存储业界,对象存储作为一种新的存储技术是一个学术研究和开发的课题。本篇调研报告从五方面描述了对象存储技术的关键点,分别是:为何引入对象存储的概念、它包括哪些要素、如何利用这项技术、在工业上和学术上它的发展状况以及我们在研究中如何利用它。
 (Mobile Group) Android开发介绍 [ppt]
Abstract:
Android是Google公司于2007年11月5日发布的一个基于Linux内核的手机操作系统。在过去的三年中,Android系统获得了巨大的市场份额,并且在持续增长中,开发者对它的热情居高不下。目前,Android软件商城已有超过十万个应用,是仅次于苹果软件商城的第二大软件商城。本次报告介绍了Android平台上软件开发的流程以及Android内部的运行机制。
 2010.10.23  会议地点:理工配楼一楼会议室
 (Mobile Group) 基于Flash的多版本数据存储 
Abstract:
由于Flash的异位更新特性和PostgreSQL的多版本存储设计,使得较多的更新操作和小的随机写操作发生,这些操作会严重影响数据库系统性能和Flash的寿命。基于闪存的多版本存储(FMVDS)主要从减少更新和小的随机写角度重新设计了多版本存储,进而减少擦除所带来的整个系统性能下降。在FMVDS中,事务状态表项增加一个时间戳,数据记录增加一个指向旧版本数据的指针,通过这两个新增加项实现了高并发和快速的恢复。
 (MSRA) 上下文感知搜索 
Abstract:
介绍MSRA关于上下文感知搜索的研究。

 2010.09.25  会议地点:理工配楼一楼会议室
 (Web Group) 基于演化规则的实体识别 [ppt]
Abstract:
实体识别主要用来辨别数据库中的不同记录是否代表现实当中的同一个实体。实际情况下,实体识别随着对数据、模式和应用的不断理解而逐步改进,而不是一次完成的。本文研究了在ER规则不断演化的过程中如何保持最新的ER结果。传统的ER方法在迭代的过程中是从最初的数据开始,这样对于大数据集来讲是行不通的。本文主要研究如何利用前面物化的ER结果来减少工作量。文章介绍了能够加速演化的算法属性,并提出了针对两种聚类ER模型的高效规则演化技术:基于匹配的聚类和基于距离的聚类。通过实际数据集的验证表明:物化的方法优于传统的方法。
 (Mobile Group) VLDB论文报告 
Abstract:
本次报告介绍两方面的内容,首先介绍了基于Prestige的Top-K相关空间Web对象检索,在该方法中提出了基于prestige相关性的概念,采用基于prestige的相关性和位置的相近性对检索到的top-k个结果进行排名。然后介绍了如何从GPS数据中挖掘重要的语义位置,使用一个双层图模拟位置之间以及位置与用户之间的关系,在此基础上,提出了一种新的排名模型,为每个语义位置分配其重要性的值。
 (Web Group) VLDB2010论文总结 
Abstract:
VLDB2010和云数据管理相关的论文可以分成四类:云数据管理系统,测试,查询优化和一些开放性问题。报告总结了论文的研究动机、关键技术以及对我们研究的启发。
 2010.09.18   会议地点:理工配楼 一楼会议室
 (Graduate) 初到微软新感受 
Abstract:
介绍个人初到MSRA的生活和感受。
 (Graduate) 闪存数据管理和云计算介绍
Abstract:
分享自己在云计算和闪存数据管理的新感受和发现。
   

 2010.06.19  会议地点:理工配楼 一楼会议室
 (Mobile Group) 轨迹数据隐私保护的研究现状 [ppt]
Abstract:
介绍了在四个应用场景中的轨迹数据隐私保护技术。对于在线应用,最关键的问题是要在保护轨迹数据隐私的同时 保证较高的服务质量;对于离线应用,最关键的问题是在保护轨迹数据隐私的情况下保证数据可用性。
 (XML Group) XML关键词查询改写 [ppt]
Abstract:
这次报告,我们主要讨论了在传统信息检索和新的XML关键词查询中的查询改写问题,其中,主要部分是关于XML关 键词查询改写中的任务和方法。另外,我们对现有的XML查询改写问题进行了分类总结,并提出了一种全新的查询改写方法。
 2010.06.12  会议地点:理工配楼一楼会议室
 (Web Group) Web上可信度的研究现状 
Abstract:
从web信息产生过程中所涉及的三个实体:信息本身,web网站和用户来介绍web信息可信度研究的相关技术。这里着重讨论了:同种实体内部的相互关系影响该实体的可信度;不同类别实体之间的可信度也会相互影响。
 (Web Group) Wikipedia信息质量及可信度研究 
Abstract:
本次报告介绍了Wikipedia中的信息质量和可信度问题并介绍了相关的研究题目。此外还对WWW、WICOW等会议中关于Wikipedia信息可信度的相关文章进行综述介绍。
 2010.06.05  会议地点:理工配楼一楼会议室
 (Cloud Group) 基于云数据管理的索引 
Abstract:
本次报告介绍了为什么要在云数据上建立索引,目前在云上建立索引的相关研究工作以及我们在云数据管理上索引研究的工作进展。
 (Cloud Computing Group) NoSQL综述 [ppt]
Abstract:
本次报告简要地介绍了NoSQL,介绍了NoSQL提出的原因,历史,定义,基本理论以及NoSQL数据库的简单分类。

 2010.05.29  会议地点:理工配楼一楼会议室
 (XML Group) 图上的关键词搜索 
Abstract:
在这个报告中,主要介绍了一些在图上的关键词搜索方法。关键词搜索为用户提供了一种简单而友好的从复杂数据结构中搜索信息的界面。我们重点介绍在图上的关键词搜索技术存在的挑战。一个是,什么结果是关键词搜索的查询结果;一个是,什么样的查询结果是好结果,即如何排序。第三个是,如何高效的完成关键词搜索。
 (XML Group) 三网融合 [ppt]
Abstract:
本次报告介绍了三网融合的概念,三网融合的发展,三网融合带来的好处以及目前国内外三网融合的现状。
 2010.05.22  会议地点:理工配楼一楼会议室
 (Web Group) 基于基本结构的图匹配算法 
Abstract:
过去图匹配技术是基于点的。这意味着每个点对应的候选集形成的搜索空间可能很大。减小搜索空间可以提高查询处理的效率。本报告提出提高图匹配算法的粒度,来减小搜索空间,最终达到提高查询处理效率的目的。我们通过统计实验和几个简单的实验证明了这一想法的有效性。
 (XML Group) 数据去重研究 
Abstract:
本次报告介绍了数据去重现有的几种方法:基于hash的方法,Delta方法等,主要介绍了他们的基本思想,以及小数据的数据去重问题.
 2010.05.08  会议地点:理工配楼一楼会议室
 (Web Group) 云数据库测试结果和分析 
Abstract:
本次报告介绍了云数据库系统的测试结果,并对结果进行了分析解释。
 (Cloud Computing group) 分布式数据库体系结构与设计 [ppt]
Abstract:
本次报告介绍了基于关系数据模型的分布式数据库系统的体系结构以及数据分块与重定位相关知识。

 2010.04.24  会议地点:理工配楼一楼会议室
周烜博士(澳大利亚CSIRO研究院) 数据库和信息检索用户界面的集成 
Abstract:
澳大得亚CSIRO研究院的周?博士介绍了将数据库和信息检索的用户界面集成以更好支持查询的相关工作。
 2010.04.17  会议地点:理工配楼一楼会议室
 (Flash Group) 告诉你一些关于闪存的新东西 
Abstract:
本次报告介绍了UCSD非易失性系统实验室的一些研究工作。他们针对闪存进行了大量的测试工作并根据测试结果设计了多种应用,其中包括一种称为Mango的FTL、一种针对闪存的数据编码方法以及一种面向数据中心应用的系统架构Gordon。
 (Mobile Group) 现有数据库管理系统在固态硬盘上的测试 
Abstract:
通过分析IOps可以分析SSD和HDD的物理特性。通过现有的数据库系统的性能对比来分析SSD和HDD的应用性能。然后提出一些想法:1、改变PG的版本信息存储,把版本信息和数据分开;2、改变MySQL的存储引擎;3、MySQL(BDB)上的弱一致性;4、那种数据适合放置在SSD上。
 2010.04.03  会议地点:理工配楼一楼会议室
 (Web Group) 网页抽取技术在舆情系统中的应用 
Abstract:
本次报告介绍了实验室开发的网络舆情监控系统中所使用的两种网页抽取技术,以及其它一些在系统开发中常使用的工具。
 (Mobile Group) Flex开发介绍 [ppt]
Abstract:
Flex是当前很流行的一种RIA开发技术。本次报告主要介绍了什么是Flex及Flex的历史,并且探讨了Flex的原理,优势,应用范围,以及同其他RIA技术的差异。
 (Web Group) 实验环境搭建和MapReduce框架 
Abstract:
本次报告包括对目前实验室的云数据管理实验平台的搭建进行介绍以及MapReduce框架的基本思想及其实现过程的介绍。
 (Flash Group) Source Insight 一种阅读源码的工具 [ppt]
Abstract:
本次报告介绍了一种面向工程的程序编辑和代码阅读器??Source Insight。Source Insight在用户使用时可以动态分析源代码并不断更新自身的符号信息数据库,从而可以自动地为用户提供有用的上下文信息。

 2010.03.27  会议地点:理工配楼一楼会议室
 (Web Group) 普适计算中基于时间段的乱序事件处理 
Abstract:
普适计算中复合事件处理有越来越多的现实应用.复合事件处理的一个关键因素就是从事件流中实时地抽取所需要的模式.然而,网络延迟或机器故障经常使事件产生乱序.并且,现有的工作都假设事件是没有间隔的点事件,而现实中的许多事件都是有时间间隔的.本文提出了一种基于时间段的乱序事件模型,并提出了一种混合方法进行处理,实验证明此方法的效率和可行性.
 (Cloud Group) ICDE2010-Keynote [ppt]
Abstract:
本次报告根据icde2010的keynote,对我们为什么要做云计算,该怎样去做,要做什么,进行了讨论。
 (Web Group) ICDE2010和SIGMOD2010会议概览 
Abstract:
本报告基于录用的论文情况,对于国际数据库会议ICDE2010和SIGMOD2010进行了总结,分析了目前的研究热点。
 2010.03.20  会议地点:理工配楼一楼会议室
 (Flash Group) RWConvertor: 固态硬盘随机写优化 
Abstract:
随着电子技术的发展,固态硬盘作为一种新的数据存储设备,具有省电、抗震和体积小等有点。此外,更吸引人的是其高速的随机读性能。这主要得益于它在读取数据时没有机械延迟。因此近年来固态硬盘被广泛应用在笔记本、台式机和数据服务器上。但是,低下的随机写性能已经成为其进一步广泛应用的性能瓶颈。固态硬盘随机写性能是比随机读和连续访问的速度慢两个数量级,因此以写为主的应用在固态硬盘上性能一般都比较差。在这篇文章中,我们首次提出了通过在随机写序列中插入未修改的数据来实现将随机写转换为连续写,进而提高写的性能。此外,我们还通过最优写序列来进一步提高写的性能。我们采用严格的数学方法来证明了我们的转换序列具有最优的代价,而且是在多项式时间之内获得该结果。当本方法应用在数据流上时,我们通过综合增益和粒度的带宽方法来选择最优写出数据项。
 2010.03.13  会议地点:理工配楼一楼会议室
 (XML Group) 走近物联网 
Abstract:
物联网作为下一代信息技术,引起了社会的广泛关注。它可以使得世界上的任何一个物体都可以通过网络连接起来。本次报告首先对物联网进行整体的介绍,然后介绍 了其体系结构和关键性技术,并给出了它的广泛应用。最后,提出了未来物联网的发展方向。
 (Mobile Group) 物联网相关研究报告 [ppt]
Abstract:
本次报告介绍了物联网的相关工作及发展趋势,主要介绍了华盛顿大学的微型网络项目及相关的物联网研究热点问题。
 2010.03.06  会议地点:理工配楼一楼会议室
 (Web Group) 开源云数据管理系统测试 
Abstract:
本次报告介绍了当前云数据管理系统的测试benchmark,描述了我们测试环境的配置以及部分测试结果,并对其进行了分析。
 (Web Group) 云数据库系统的系统结构设计与实现 
Abstract:
实验室的云数据库管理系统项目旨在研究新型的数据存储及数据库管理系统,使得它能够支持下一代“大数据”的存储与管理,并且应用到一个具体的领域里,如移动通信领域。这个报告,介绍了整个系统的设计与实现,以及目前我们所搭建的原型系统框架。

 2010.01.09  会议地点:理工配楼一楼会议室
 
(Invited Talk)
时间序列分析及多媒体数据库 
Abstract:
时间序列和交互式多媒体有着广泛的应用,例如在计算机游戏。在识别时间序列模式中,如何刻画时间序列模式是一个很重要的问题。报告提出了一种有效的翘曲距离测度及高效的高效的算法进行连续模式识别。对于交互式多媒体数据库,主要着重于其多媒体数据的索引、存储结构、定义有效实用的相似度函数以及高效的处理算法。
 (Flash Group) 闪存转换层算法简介 
Abstract:
本次报告介绍了几种闪存转换层算法,如BAST, FAST, LAST, 以及DFTL等,介绍了它们的基本思想及其优缺点。此外,还介绍了闪存芯片上的一些基本实验。

2009
 2009.12.26  会议地点:理工配楼一楼会议室
张瑞博士 (Invited Talk) 移动对象上的连续相交连接查询 
Abstract:
移动对象上的连续相交连接查询是一类计算代价非常高,对应用场景非常重要的一类查询,目前并没有专门的这方面的工作。我们通过改进一种基础算法和把已有的TP-Join方法扩展来处理这类查询。本次报告介绍了我们在这方面开展的工作。
陈晋川博士 (Invited Talk) 不确定数据管理 
Abstract:
陈晋川博士概述了不确定性数据管理研究的已有成果并介绍了一些常见处理数据不确定性的方法,提出了在不确定性数据管理的一些有价值的研究课题。
 2009.12.19  会议地点:理工配楼一楼会议室
 (Cloud Computing Group) cassandra和sigmod编程竞赛 [ppt]
Abstract:
casandra是一个高度可扩展的第二代数据库系统,综合了Dynamo的P2P数据分布处理技术以及BIGTABLE的基于列族的数据模型。sigmod编程竞赛的主要任务是在去年主存索引的基础上做一个分布式查询器。
 (Mobile Group) 锤子和钉子 
Abstract:
锤子--研究方法,钉子--研究问题,两者必备。报告首先抛出了三把“锤子”:签名、有序保留最小完全不冲突哈希函数和位置敏感哈希函数,然后引入了一枚新的“钉子”
 2009.12.12  会议地点:理工配楼一楼会议室
 (Web Group) 云数据管理系统调研 
Abstract:
随着计算机技术和通信技术的发展,企业和公司产生的数据量快速增长,云数据管理系统是有效存储和管理大规模数据的一种有效手段。本次报告介绍了部分云数据管理系统并对它们进行了分析比较。
 (Cloud Computing Group) Hive - 在mapredudce框架下的数据仓库解决方法 [ppt]
Abstract:
介绍了在hadoop上建立的一个支持管理和查询结构化数据的系统hive并介绍了其实现查询语言的原理。
 2009.12.05  会议地点:理工配楼一楼会议室
 (Web Group) 社会网络中的信任计算 
Abstract:
本次报告介绍了社会网络中可信度计算现有的几种方法:Advogato、Appleseed、TidalTrust等,介绍了他们的基本思想及其实现。
 (Web Group) 数据融合-集成中的数据冲突解决方案 
Abstract:
在本次报告中我们简要介绍了数据融合的相关知识,包括数据冲突类型、冲突处理策略、数据融合在集成程序中的角色以及目前数据融合的实现方案。我们还介绍了当前数据融合研究领域的挑战和开放问题并对本次报告做了简单总结。

 2009.11.28  会议地点:理工配楼一楼会议室
 (mobile Group) ACR:一种基于闪存的自适应的缓冲区置换策略 
Abstract:
本次报告介绍基于闪存的自适应的缓冲区管理算法ACR。ACR算法采用一种新的基于代价的策略,可以针对不同的存取模式进行自适应的调整。
 (Mobile Group) Flash上的数据库管理系统中的多版本并发控制研究 
Abstract:
Flash的异地更新,以及In-Page Logging的存储方式使得数据在Flash上存在多个版本。多版本并发控制需要串行化理论的支持,多版本并发控制协议包含有:MV2PL、MVTO、MVSGT、TW和ROMV,分别是多版本的两阶段锁、多版本的时间戳排序、多版本的序列化图、多版本的乐观协议和只读事务的多版本并发控制协议。通过现有的数据库系统的性能对比来分析几种并发控制算法的性能。最后提出未来在Flash上的数据库管理系统的并发控制研究。
 2009.11.21  会议地点:理工配楼一楼会议室
 (XML Group) 基于同义词规则的字符串近似搜索 
Abstract:
这个报告介绍了基于片段的字符串匹配方法,并给出了一个新的相似度计算函数。
 (XML Group) 有向无环图上可达性计算 
Abstract:
在实际中,可达性计算不仅在图数据库上是个核心操作,在其他领域的图查询中也是一个核心操作。因此,近些年来得到学术界的广泛关注。在这次报告中,介绍了我所提出的一种新的编码方法。该方法能够极大地提高可达性计算的效率,编码的压率很高,构建时间很短。
 (XML Group) 信息检索模型及相关反馈 
Abstract:
这次报告首先介绍了四种经典的信息检索模型,在此基础上,给出了改进检索结果的两种方法:全局方法和局部方法,重点对局部方法中的相关反馈技术进行了探讨。
 2009.11.14  会议地点:理工配楼一楼会议室
 (Web Group) 数据空间研究回顾 
Abstract:
对于我们在数据空间方面的研究工作进行了回顾,介绍了目前正在进行的一项研究工作。
 (Web Group) 数据空间研究进展报告 
Abstract:
介绍了在数据空间方面的研究和系统实现进展。
 (Web Group) 利用特征关联提高子图查询效率 
Abstract:
在图数据库的子图搜索这个问题上,过去的工作关注选择怎样的结构作为特征可以更好的提高过滤效率产生更少的候选图。目前来看这一思路遇到了瓶颈:虽然提出的特征越来越复杂,然而最后的候选集准确率依然很低。因此我们提出使用特征之间的关联来提高子图查询的效率的想法。
 2009.11.08  会议地点:理工配楼一楼会议室
 (Web Group) CIKM2009参会总结 
Abstract:
根据我们的参会经历和印象,对CIKM2009进行了简单总结,重点介绍了会议的三个主题报告。
 (Flash Group) CIKM2009 参会总结 [ppt]
Abstract:
CIKM是一个很高水平的国际会议,主要分为信息检索,知识管理和数据库三个方向。这次参会本人主要集中在poster方面。这个方面大家展示了很多关于如何提高搜索引擎的性能和效果的。
 (Web Group) CIKM2009参会总结 
Abstract:
在这个报告中,我介绍了CIKM2009上与Web数据管理和点击日志挖掘相关的3篇文章与1个Tutorial。此外,还介绍了一些参会感受。
 (Web Group) CIKM2009参会总结 
Abstract:
在这个报告中,我对CIKM2009的情况作了一个简单的总结和介绍,并结合自己参加会议的经历谈了一些自己的想法。

 2009.10.31  会议地点:理工配楼一楼会议室
 (Web Group) 云数据管理的一种高效多维索引 [ppt]
Abstract:
这是参加CIKM 2009的CloudDB Workshop的预报告,介绍了一种云数据管理背景下的高效多维索引机制。
 (Web Group) 基于上下文查询个人数据空间 [poster]
Abstract:
用户在撰写个人文档的时候,往往需要引用一些其它文档的内容(例如一些图片、数据、表格等)。用户访问个人文档时,有时需要重新访问这些被调用的相关文档。现有的工具不能很好的支持这种用户需求。基于此本文定义了一种新的基于上下文的个人数据关系(Context-based Relationship),并提出了有效地挖掘这种数据关联的方法,以及基于这种关联查询个人数据的方法。
 (Flash Group) CIKM2009预报告 [poster]
Abstract:
固态硬盘作为一种新型的电子存储设备,具有高速的随机读性能。所以固态硬盘被广泛地应用在笔记本、台式机和服务器中。固态硬盘也被认为在未来的数年中将会取代磁盘成为新的数据存储设备。但是差的随机写性能在实际中成为性能的瓶颈。在本文中,我们提出在随机序列中加入未修改的数据,这样可以将随机序列变化为连续序列。在这种情况下,数据的写入速度就会得到极大的提高。
 2009.10.24  会议地点:理工配楼一楼会议室
 (Web&Mobile Group) NDBC2009特邀报告总结 
Abstract:
肖湘晔博士对第26届中国数据库学术会议NDBC 2009的特邀报告作了简要的回顾和总结,重点介绍了包括董欣博士、孟卫一教授、王海迅博士和陈雷博士的主题报告的内容。
 (Web Group) SKG2009参会报告 
Abstract:
对SKG2009进行了简单介绍,重点介绍了这次会议的两个主题报告。
 (Mobile Group) 新的研究热点:带有地理信息的查询 [ppt]
Abstract:
在查询中能发现用户明确的或潜在的地理信息能提高用户查询的满意度。这些年来,关于带有地理信息的查询已经成为研究热点。目前有几种处理方法,第一类是基于训练数据的,这类方法需要查询日志等大量数据来处理;另一类是将空间位置和文本相似性结合进行查询,但这类方法只能处理本地的地理信息。目前,最大的挑战是如何发现用户隐含的地理信息。
 (Web Group) 轨迹模式挖掘 
Abstract:
随着移动设备和基于位置服务的普及,导致了用户移动历史数据的海量增长。这就为我们分析用户的移动行为提供了机遇。目前,用户运动的轨迹模式挖掘成为很热的一个研究问题。本次报告主要介绍了目前在这个研究问题上的一些代表性的研究工作,并总结指出了其中的一些缺点和不足。
 2009.10.11  会议地点:理工配楼一楼会议室
 (Web Group) C-Rank -- 一种Deep Web数据记录可信度评估方法 
Abstract:
如何识别和评价Web上的数据信息的可信度已经变得越来越重要。为了解决这个问题,本次报告提出了一种为Deep Web数据记录计算可信度的有效方法C-Rank,该方法为每一条记录构造一个S-R可信度网络。
 (Mobile Group) 基于位置服务中的连续查询隐私保护研究 
Abstract:
近年来,伴随着移动计算技术和无限设备的蓬勃发展,位置服务中的隐私保护研究受到了学术界的广泛关注,提出了很多匿名算法以保护移动用户的隐私信息。但是现有方法均针对snapshot查询,不能适用于连续查询。如果将现有的静态匿名算法直接应用于连续查询,将会产生隐私泄露、匿名服务器工作代价大等问题。针对这些问题,提出了δp-隐私模型和δq-质量模型来均衡隐私保护与服务质量的矛盾,并基于此提出了一个贪心匿名算法。该算法不仅适用于snapshot查询,也适用于连续查询。最后,实验结果证明了算法的有效性。
 (XML Group) 基于代数的Transform查询优化策略 
Abstract:
XQuery/Update中定义了一种特殊的查询?Transform查询。Transform查询类似于关系数据库中的假设查询,可以表示成假设查询的一般形式:“Q when {U}”,即查询Q的查询结果是假设数据库执行了更新操作{U}以后的结果,而更新操作U实际不修改数据库的状态。Transform查询需要拷贝XML数据库中的结点,并对拷贝的结点执行更新操作,所以不影响数据库的状态。但该操作通常拷贝和更新了大量与查询结果无关的结点,因此如何减少拷贝与更新操作的代价是Transform查询处理优化的关键。提出了基于OrientXA的Transform查询优化方法,并在Native XML数据库系统OrientX 3.0里实现和验证了该方法。
 (Mobile Group) HF-Tree--一种闪存数据库的高更新性能索引结构 
Abstract:
由于闪存高昂的写操作代价,传统的基于磁盘的索引结构如果直接应用在闪存上的话会导致极差的更新性能。周大在本次报告中提出了一种新颖的索引结构HF-tree,通过组提交、更新合并,以及多级延迟的方式来提高更新性能。
 (Mobile Group) Sub-Join -- 一种闪存数据库的查询优化算法 
Abstract:
和磁盘(HDD)相比,固态硬盘具有高速的随机读取速度、低功耗、体积小等特点,因而被认为将取代磁盘成为新一代的数据存储设备。但是闪存数据库的查询性能的提高却远小于固态硬盘相比于磁盘IO 性能的提高。其原因在于现有的数据库是基于磁盘而设计的,使得现有的数据库不能充分发挥固态硬盘的高速性能。因此文章提出一种名为子连接(Sub-Join)的连接算法。子连接算法首先将数据表的连接列和主键投影为新的子表,然后对子表进行接连操作,最后根据子表的连接结果再从原始数据表中回取查询结果。通过和开源数据库Oracle Berkeley DB 的比较实验,结果表明子连接算法比原有的算法性能提高40%-100%,充分说明它的优越性。

 2009.09.28  会议地点:理工配楼一楼会议室
 (AT&T Research) 不确定性数据集成 
Abstract:
来自AT&T的Data Management Department的董欣博士拜访WAMDM实验室并做了题为《不确定性数据集成》的特邀报告,介绍了她和她的研究团队在不确定性数据集成方面做的重点工作。
 2009.09.19  会议地点:理工配楼一楼会议室
 (Web&Mobile Group) Co-Location模式的高效发现方法 
Abstract:
肖湘晔博士介绍了她在攻读博士学位期间的一些重点工作,包括Co-Location模式的高效发现和移动设备上的Web浏览技术,并对未来的研究工作提出了一些展望。
 (XML Group) 移动环境中关键词搜索关键技术研究 
Abstract:
陆嘉恒博士的“移动环境中关键词搜索关键技术研究”课题获得了国家自然科学基金资助,在本次报告中他对该课题的研究内容、研究方向等做了详细的介绍。

 2009.07.25  会议地点:理工配楼一楼会议室
 (XML Group) OrientX4.0 - 支持关键字搜索 
Abstract:
随着XML技术的发展,越来越多的用户使用XML数据。传统的方法是使用XQuery来进行查询,但是这需要用户学习XQuery查询语言,并且还需要用户了解XML文档的结构和内容。这对一般用户来说是一个巨大的挑战,但是关键字搜索能解决上述问题。为了让用户能够更好、更方便地使用XML数据,所以我们将在OrientX4.0中提供关键字搜索。
 (XML Group) OrientX4.0系统开发报告 [ppt]
Abstract:
XML 关键字搜索技术的实现
 2009.07.18  会议地点:理工配楼一楼会议室
 (Mobile Group) 路网中的不确定kNN查询 
Abstract:
路网上的移动对象查询,尤其是k近邻查询(k Nearest Neighbor Query,即查找距离用户最近的k个对象)一直是非常重要,且引起广泛关注的问题。本次报告将针对路网上的诸多不确定性因素,讨论在道路网络中不确定性的表示以及如何针对移动用户的不确定新进行k近邻查询。
 (Mobile Group) 隐私保护展示程序开发报告 
Abstract:
为显示隐私保护算法,体现隐私保护技术在863普适计算项目中的研究内容,设计开发隐私保护展示程序。本报告主要介绍该展示程序的特点、功能、开发计划与进展等。
 (Mobile Group) 基于时间段的乱序事件流的查询处理 
Abstract:
复合事件处理在实际应用中越来越重要,其中,复合事件处理的一个关键方面就是从事件流中实时地抽取以便于决策。然而网络延迟或机器故障经常会引起事件的乱序。并且,现有的很多工作都没有考虑事件的持续性,而时间段的考虑对现实应用和事件间的关系是很重要的。因此,本文针对时间段和乱序事件提出了可行的解决方法。
 2009.07.11  会议地点:理工配楼一楼会议室
 (Flash Group) Flash组系统开发报告 [ppt]
Abstract:
对已有的开源数据库系统进行改造以开发出针对flash存储的DBMS是一种可取的开发方式,但是选择哪个开源DBMS进行改造却是一个需要谨慎处理的问题。在经过一份分析后,我们认为包含了Berkeley DB作为其存储引擎的MySQL是最佳选择。
 2009.07.04  会议地点:理工配楼一楼会议室
 (Web Group) SIGMOD2009会议概览 [ppt]
Abstract:
根据会议情况分析了目前一些热点的研究问题,并介绍了两篇会议论文。
 (Mobile Group) 闪存研究报告 [ppt]
Abstract:
闪存数据库研究在国际上变得越来越热。我们非常高兴看到在sigmod2009和VLDB2009上有一些关于索引,查询处理和事物处理方面的文章。这个报告将简单介绍这些文章的基本问题和解决方法。
 (XML Group) XML编码及查询优化 [ppt]
Abstract:
由于缺乏好的估计方法和代价模型,带有许多XPath步和连接操作的复杂XQuery查询表达式的查询优化受到限制。此外,编码是XML数据库系统的核心操作,设计一个支持动态更新的编码方法已经成为研究的热点问题。这次报告介绍了sigmod09中一个新编码方法DDE和一种新的实时查询优化方法ROX。

 2009.06.27  会议地点:理工配楼一楼会议室
 (Mobile Group) 闪存数据库上的日志存储问题 [ppt]
Abstract:
近年来,闪存存储器的技术迅速发展,越来越多的数据存放在闪存之上,因此,如何管理闪存数据,如何使传统的数据库技术更好的适应基于闪存的数据库成了一个重要的研究课题。而随着研究的不断深入,越来越多的学者认为,对于闪存数据库的事务性能的改进是一个非常有意义的工作。 在本次报告中,我们探讨了数据库的日志在不同闪存设备上存储时所表现出来的不同特点,并进一步讨论了在日志存储之上的恢复技术和将来所要做的工作。
 (Web Group) 基于位置的数据库选择 
Abstract:
本次报告主要是给大家介绍一下基于移动的web数据库选择的研究动机以及这个问题的定义;与传统的数据库选择相比,它考虑的因素有什么不同。然后介绍一下传统的数据库选择中的几篇相关工作。最后提出一个初步解决方案来跟大家共同探讨。
 (Web Group) 结构化数据的snippet生成 
Abstract:
随着移动过设备使用的越发频繁,在移动设备上的查询结果显示显得越发重要。在结构化查询中,一个结果记录往往包含很多的数据项,但是移动设备相对于传统显示设备来说较小的显示屏幕无法适应如此多的数据项,因此,我们需要根据用户的查询、移动设备的特点等方面来确定记录的哪些数据项返回给用户,即snippet抽取过程,从而减少每条查询结果的内容长度,提高显示的效率。
 2009.06.20  会议地点:理工配楼一楼会议室
 (XML Group) XML 关键字搜索引擎 
Abstract:
XML已经成为数据交换的事实上的标准,对XML数据的查询成为一个非常重要的问题。使用W3C推荐的标准查询语言XQuery和Xpath我们能够很容易查询到自己想要的数据,但是这需要用户熟悉XQuery和XPath语言,并且他们还要了解XML的结构和内容才能写出正确的查询。这对普通用户来说是一个很大的挑战,这就促使了对XML关键字搜索的研究,它不需要用户掌握XML查询语言,也不需要用户了解XML文档内容,这样就使得用户查询变得非常容易。OrientX3.5的下一个版本(4.0版)的主要特征就是支持关键字搜索功能,在报告中郭青松分析比较了现有的XML关键搜索引擎的各自特点和不足,然后总结出了他们的共同特征并在此基础上定义了OrientX4.0版的主要特征。王伟主要就OrientX4.0版的关键字搜索中的关键技术,SLCA的计算原理和算法、以及查询结果排序的模型进行了探讨。
 2009.06.13  会议地点:理工配楼一楼会议室
 (XML) 图结构的XML数据查询处理研究 
Abstract:
当把XML数据模型定义为图模型时,就会出现许多新的研究课题。尤其在查询图结构的XML文档时出现许多挑战性问题。因为以前的XML文档的查询处理技术都是针对树结构的XML数据,这些方法不能直接的应用到图结构的XML数据查询。
 (Mobile Group) Flash上的MVCC [ppt]
Abstract:
Flash具有异位更新的特性,使得数据在硬件上存在多个版本.鉴于此考虑,数据库管理系统的事务处理子系统采用MVCC,可能会使数据库管理系统具有更好的性能.我们首先介绍了MVCC的一些基本原理,比如MVSR和MVCR.然后介绍了几个MVCC协议,比如MVTO和MV2PL.解析BDB和PG中事务子系统,然后更深入的了解事务处理的过程。
 2009.06.06  会议地点:理工配楼一楼会议室
 (Mobile Group) 位置,位置,位置 
Abstract:
此次报告主要是与大家一起研究讨论Christian S. Jensen在MDM09上的Keynote。
 (Web Group) C-Query: 基于上下文的个人数据空间查询策略 
Abstract:
用户在编辑个人文档的时候,经常需要参考其他文档(邮件、图片、网页等),而且经常需要重新访问这些被引用的文档。由于在这些文档之间没有建立关联关系,使得这种访问往往效率较低。本文提出了一种自动挖掘这种基于用户行为的引用关系的方法。从而支持用户基于这种关系有效地查询个人数据信息。

 2009.05.23  会议地点:理工配楼一楼会议室
 (XML Group) OrientX系统开发报告 [ppt]
Abstract:
OrientX3.5 的主要特征和实现方法
 2009.05.16  会议地点:理工配楼一楼会议室
 (Mobile Group) 固态硬盘随机写优化 
Abstract:
对于固态硬盘来说,相对于连续/随机读、连续写,随机写的IO性能非常差。本文提出一种新颖方法,可以避免固态硬盘低下的随机写性能。
 (Mobile Group) 缓冲区管理策略总结 [ppt]
Abstract:
本报告分别介绍了基于磁盘和基于闪存的几个经典的缓冲区管理算法。这包括磁盘上的LRU, LFU, FBR等缓冲区算法以及CFLRU, FAB, BPLRU等基于闪存的缓冲区算法。

 2009.04.25  会议地点:理工配楼一楼会议室
 (Web Group) 云计算上的索引框架研究 [ppt]
Abstract:
云计算系统的出现使得软件服务商部署大规模分布式系统变得容易起来。云计算系统会在用户和软件厂商之间提供一个简单统一的接口,使得软件厂商能够专注于软件本身。但是,现有的云计算系统对于索引并没有很好地支持。该文提出了一种云计算上的索引框架,能够减少云计算系统内部的数据传输开销。
 (Web Group) 云计算平台上的数据管理——局限与挑战 [ppt]
Abstract:
分析了适合移植到云计算平台上的数据管理应用,并且讨论了这种移植目前仍然面临的挑战。
 2009.04.18  会议地点:理工配楼一楼会议室
 (XML Group) MCN: 一种新的XML关键字查询语义 [ppt]
Abstract:
该报告主要介绍一种新的XML关键字查询语义,相应的文章发表于DASFAA2009
 (Web Group) 互斥查询的选择性估计 [ppt]
Abstract:
报告了关于互斥查询中的选择性估计的研究结果,论文发表在DASFFA2009上。
 2009.04.11  会议地点:理工配楼一楼会议室
 (Web Group) ICDE2009特约报告总结 [ppt]
Abstract:
对ICDE2009的三个特约报告做了简单总结.
 (mobile Group) ICDE参会总结 
Abstract:
ICDE是一个非常重要的数据管理的国际大会。在这个会上,有很多与闪存数据库相关的研究工作。从这些工作看来,事务处理已经成为这个领域的一个研究热点。
 (Flash Group) 介绍几个ICDE2009中的Demo [ppt]
Abstract:
WEST(网络实体搜索技术)是一个不同于传统搜索引擎的Pepole Search系统,它的返回结果不是简单的返回和查询人名相关的所有网页,而是返回一个个的聚类,每个聚类里面的页面只和一个不同于其它聚类里面的人物实体相关。Fa是一个用来解决SLO violations的一个全新的自动诊断系统。UQLIPS则是一个基于Web的集成平台,它可以进行在线相似视频的检测以及检索。
 2009.04.04  会议地点:理工配楼一楼会议室
 (Mobile Group) 连续查询的隐私保护技术 
Abstract:
近年来,位置隐私保护技术受到了广泛关注。但是现在的匿名算法都是针对snapshot的查询类型。这个报告讨论了我们一些针对连续查询隐私保护的想法。
 (Mobile Group) 普适计算中的复合事件检测 
Abstract:
普适计算环境中传感器设备的大规模使用产生了数量巨大的、错综复杂的原子事件,而现实世界中的许多应用却更注重复合事件的检测,例如:健康护理,监督设施管理,环境/安全监控等。因此如何从这些底层的原子事件中抽取人们感兴趣的、有用的复合事件就变得越来越重要。目前,在复合事件检测方面存在大量的研究工作,他们的研究内容各有侧重。有的强调时间因素,特别是对时间段的考虑的重要性;有的研究了分布式数据源中的复合事件检测;近期又有人提出了不确定性数据上的复合事件检测工作。由于复合事件检测的日益重要,本文分析了复合事件检测研究中存在的挑战性问题,从事件类型、时间因素和数据的精确程度三个方面归纳总结了复合事件检测的现有研究工作,并指出了未来的研究方向。同时,本文还提出了一个事件模型和复合事件检测的框架结构。

 2009.03.28  会议地点:理工配楼一楼会议室
 (Web Group) Deep Web集成:查询Deep Web中的结构化数据 [ppt]
Abstract:
介绍了Deep Web的相关背景知识,Deep Web数据集成的关键技术、国内外相关的研究小组、元搜索引擎与元查询之间的区别与联系,以及未来我们关注的研究点。
 (Web Group) 数据库选择 
Abstract:
数据库选择是一个很重要的研究问题。该报告总结介绍了数据库选择之前的一些相关研究工作及目前我们主要研究的问题。
 2008.03.21  会议地点:理工配楼一楼会议室
 (Web Group) CoreSpace:一个基于用户行为的个人数据空间框架 
Abstract:
提出了一种新的数据空间框架:核心数据空间,通过刻画用户与具体的数据对象之间的关系建立附和用户行为规律的数据视图,基于此为用户提供更有效的查询方法。
 (Web Group) 一种有效的个人任务挖掘方法 
Abstract:
提出并阐述了一种基于个人数据访问行为的个人任务挖掘方法。
 2009.03.14  会议地点:理工配楼一楼会议室
 (Cloud Computing) 基于Hadoop的Map/Reduce框架研究报告 [ppt]
Abstract:
Map/Reduce框架是Hadoop的核心算法。 它是一个用来解决基于海量数据问题的简单但是功能强大的算法。在这篇报告中,我会先介绍一下hadoop和Map/Reduce的概念,然后对Map/Reduce框架的具体流程做详细的介绍。
 (Web Group) HBase的基础介绍 [ppt]
Abstract:
HBase是Hadoop的子项目,为Hadoop提供分布式数据存储。HBase是一个基于列操作的数据表,它的三层文件结构为分布式数据存储提供可行方案,它的三层体系结构解决了分布式数据的分配及定位问题。基于和MySQL的比较,我们对HBase的性能有了更直观的理解。
 (Web Group) C-DBLP开发进展及规划展望 
Abstract:
自C-DBLP对外发布以来,开发小组根据用户的反馈和研究工作的需要新加入了一些功能,并对一些研究性问题如重名区分、关系挖掘进行了研究,本次报告介绍了开发取得的进展和解决研究性问题的初步思路,并对未来的工作进行了规划。
 2009.03.07  会议地点:理工配楼一楼会议室
 (Web Group) 基于字典的近似查询匹配技术研究 
Abstract:
介绍了用于近似查询的ISH方法并分析了它的优缺点,提出一种新的索引结构及相应算法,实验证明新方法的效率显著优于ISH。
 (XML Group) 字符串相似度 
Abstract:
介绍了当前计算字符串相似度的方法,包括编辑距离和基于片段的方法。

 2009.02.28  会议地点:理工配楼一楼会议室
 (Web Group) Faceted Search [ppt]
Abstract:
对faceted search进行一个比较全面的介绍,包括概念、与navigational search和direct search的区别,同时也对faceted search的用户界面当前研究现状进行介绍。
 (Web Group) Facet层次结构的自动构建 
Abstract:
facet的层次结构是facet search系统中数据的主要组织形式,它们被用于支持系统基于facet的导航式浏览过程和对搜索结果的优化。facet层次结构的构建是在facet search研究领域中最重要的研究课题之一。由于目前的系统中facet的层次结构大都是手工建立的,我们迫切需要有一种自动构造facet层次结构的方法。本次报告介绍了W. Dakka和P. G. Ipeirotis在自动构建facet层次结构上的研究进展和成果。

 2009.01.11  会议地点:理工配楼一楼会议室
 (XML Group) XML数据管理技术研究 [ppt]
Abstract:
该报告主要介绍XML数据管理技术的主要研究点,并用简单的例子对相应的研究点进行了介绍
 (XML Group) 图数据库系统的相关研究问题 
Abstract:
这次报告主要介绍了关于图数据库系统的一些研究热点,包括索引建立,包含查询处理以及可达性计算三方面研究。