WAMDM实验室研讨会
2012-01-08 设计闪存转换层提高ssd的性能和寿命 by 王江涛
Abstract: 闪存转换层是添加在闪存芯片上执行地址映射,垃圾回收和磨损平衡功能的一个软件层,地址映射用于完成逻辑地址到物理地址的转换,对上层应用隐藏了闪存写前擦除的特性。磨损平衡策略可以提高擦除的均衡性,提高闪存的寿命。
2012-01-08 SSD的性能测试 by 高雨
Abstract: 从以前读的论文中我们知道SSD的一些特点,但是我们并没有真正做过测试。因此,我们做了一些测试实验。我们在6块SSD上做测试并且收集IOps,MBps和平均延时的数据。对实验结果分析后,我们得到了SSD的一些共性特点,并且也发现了SSD一些不同和奇怪的结果。
2012-01-08 TextDigger:还原文本主题 by 邓云
Abstract: 报告介绍了一种关键词抽取的新方法。这种方法是基于图的,而且能够克服词汇壁垒的问题。
|
2012
|
2012.01.08 会议地点:信息楼一楼会议室
|
|
(FlashGroup)
|
设计闪存转换层提高ssd的性能和寿命 [pptx]
Abstract: 闪存转换层是添加在闪存芯片上执行地址映射,垃圾回收和磨损平衡功能的一个软件层,地址映射用于完成逻辑地址到物理地址的转换,对上层应用隐藏了闪存写前擦除的特性。磨损平衡策略可以提高擦除的均衡性,提高闪存的寿命。
|
|
(Flash Group)
|
SSD的性能测试
Abstract: 从以前读的论文中我们知道SSD的一些特点,但是我们并没有真正做过测试。因此,我们做了一些测试实验。我们在6块SSD上做测试并且收集IOps,MBps和平均延时的数据。对实验结果分析后,我们得到了SSD的一些共性特点,并且也发现了SSD一些不同和奇怪的结果。
|
|
(Web Group)
|
TextDigger:还原文本主题
Abstract: 报告介绍了一种关键词抽取的新方法。这种方法是基于图的,而且能够克服词汇壁垒的问题。
|
2011
|
2011.12.31 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
差异隐私的度序列可图化查询优化算法
Abstract: 针对社会网络和图数据的度序列隐私保护已提出很多种算法。然而,这些算法都是针对特殊的攻击背景而不能为用户提供严格的隐私保护。为此,提出了一个新的研究问题:采用差异隐私策略保护度序列。差异隐私策略既可以提供严格的隐私保护,又能响应用户的度序列查询。然而,由于该隐私策略采用噪音扰动真实度序列值,查询结果具有很大的误差,可用性较低。通过研究隐私和可用性之间的关系,提出了一种可图化推理约束策略。在此基础上又给出了一种高效的查询优化算法GQODS。
|
|
(Web Group)
|
差异性隐私下的数据挖掘
Abstract: 差异性隐私是一种新的并且强大的隐私保护要求,如果一个算法满足差异性隐私,那么它就能够保证不论攻击者有什么样的背景知识都不能获得任何个人信息。在这里介绍了两篇在差异性隐私上做数据挖掘的论文。
|
|
2011.12.24 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
海量物联网数据的索引
Abstract: 由于物联网数据的海量性、频繁更新等特点,导致传统的数据库管理技术无法满足扩展性和频繁更新的要求,我们试图在云环境下实现物联网数据的高效管理。报告主要分析了物联网数据的特点,现有云数据管理系统及相应索引方案的局限性,并在此基础上提出了一种在云环境下支持物联网数据频繁更新和高效多维范围查询的索引方案。
|
|
(Cloud Group)
|
Hadoop in SIGMOD 2011 [ppt]
Abstract: 介绍下SIGMOD2011上部分Hadoop相关文章的情况,希望借此来使大家对Hadoop的一些最新研究动态有所了解。
|
|
2011.12.17 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
MapReduce上的在线聚集
Abstract: 在线聚集(OLA)在1997年被首次提出,随着云计算的不断发展,这个问题又一次引起了人们的关注。在本次报告中,我们讨论了在云环境下实现在线聚集所面临的挑战性问题,并结合已有的研究工作讨论了初步的实现框架。
|
|
(Cloud Group)
|
MapReduce的介绍和应用
Abstract: Mapreduce是在阿帕奇基金会的hadoop项目中。这是一个编程框架,mapreduce支持并行性,这个并行性是用户透明的,目前,针对大数据的处理,越来越多的应用选择mapreduce框架来解决。
|
|
2011.12.10 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
移动社交网络中的位置隐私保护
Abstract: 随着社交网络的流行和智能手机的发展,移动社交网络越来越受到人们的关注。但是,位置信息的引入也为隐私保护带来了新的挑战。本报告分析了移动社交网络中的位置隐私,并提出了可能的解决办法。
|
|
(Mobile Group)
|
Feel Free to Check-in: 地理社交网络中防止隐秘位置推理攻击的隐私保护方法
Abstract: 随着地理社交网络/移动社交网络的发展,位置隐私问题成为移动社交网络用户最关注的问题。在报告中,我们分析了移动社交网络的特点以及隐私位置推理攻击的攻击模型,给出了针对隐秘位置推理攻击的隐私保护方法。
|
|
2011.12.3 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
加密云数据上的隐私保护的空间关键字查询技术
Abstract: 随着云计算的发展,越来越多的公司企业为了减少运行和维护的代价,将自己的数据外包到云上,让云来管理和存储数据,同时为查询用户提供服务。我们在享受云带来的便利的同时,也需要解决它带来的隐私泄露问题,如何保护云上数据隐私和查询隐私非常重要。我们的这个工作的目的就是用加密的算法来保护两者的隐私,同时设计一个配套的空间关键字查询的技术,使得云在加密空间上也可以正确地进行查询处理。
|
|
(Mobile Group)
|
虚拟走向现实-地理社交网络探析
Abstract: 地理社交网络是一种新型的社交网络,为社会网络加入了位置维,使得它具有额外的社会动态性,它为虚拟世界和物理世界搭建起一座桥梁。本次报告包括三个方面的内容,首先,从整体上对地理社交网络进行介绍,接下来分析了在该领域的已有研究工作,最后指出了下一步的挑战性工作。
|
|
2011.11.26 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
新版OrientX XML数据库系统
Abstract: 近几年国内外对非结构化数据的研究都十分关注,国外大部分都是些商用的xml数据库,大概有百多家公司都在从事非结构化数据库的研发。我们也可以从中看出XML数据库研发的重大意义。OrientX是由WAMDM实验室自主研发的,是中国Native XMLDB的代表。。。
|
|
(XML Group)
|
编码技术在XML数据库中应用
Abstract: 当考虑到ID/IDF关系时,XML数据不能再用树模型来表示,这时需要用图模型来表示。这使得在进行查询处理时,判断节点间的祖先后代关系更加复杂。为了解决这一难题,我们引入了编码技术。本次报告主要介绍适合图模式XML数据的编码技术。
|
|
(XML Group)
|
XML数据库测试 [pptx]
Abstract: 使用大约1000个用例来对XML数据库进行测试,通过分析测试的结果来有效的评估各个数据库的性能。
|
|
2011.11.19 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
微博中的事件发现
Abstract: 事件是指发生在特定时间和地点的事情,微博帖子的实时分布式特性为事件发现提供了保证,同时也为事件发现提出了挑战。此次报告介绍了在微博中进行事件发现所面临的挑战、相关工作以及一些改进思路。
|
|
(Web Group)
|
主题检测与跟踪-回顾与挑战
Abstract: 主题检测与跟踪研究的目标是从流数据(如新闻、广播)中发现和关联具有相关主题的材料。本次报告中我们介绍了主题检测和跟踪的五大任务和相关研究方向,并对各任务(尤其是新事件检测和主题跟踪任务)介绍了部分有代表性的研究工作。报告最后提出了在主题检测和跟踪中未解决的问题和挑战。
|
|
2011.11.12 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
讲一些使用日志结构的键值数据库 [pptx]
Abstract: 日志结构这个概念最早是在1988年由John K. Ousterhout和Fred Douglis设计的日记结构文件系统中出现的。现在,一些使用日志结构的键值数据库逐渐出现,其中包括Riak、RethinkDB以及LevelDB。这些键值数据库继承了日志结构的主要思想,同时又采用了不同的实现方式,在很多工业级的应用中发挥了举足轻重的作用。
|
|
(Flash Group)
|
闪存以及固态硬盘
Abstract: 闪存凭借其优良的特性,已经在移动和嵌入式领域得到了广泛的运用。本次报告主要介绍闪存和SSD的相关知识,主要包括闪存的分类、性能、局限性以及发展趋势,SSD的架构以及接口类型;此外,还会介绍近期对我们购买的SSD的一些测试结果。
|
|
(Flash Group)
|
列存储的优化以及列存储对闪存的适应
Abstract: 在列存储上,通常有三种主要的优化措施,他们分别是:压缩,块循环以及推迟物化。其中压缩扮演最重要的角色,它能使列存储的性能提高一个数量级。列存储上的一些特性使得它在闪存上能发挥出更好的性能,但闪存又有它自身的一些特性,所以列存储必须做一些改变来适应闪存。
|
|
2011.10.29 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
物联网与云计算 [ppt]
Abstract: 自2008年IBM提出"智慧地球"以来,物联网开始越来越多的受到关注。物联网的架构基本分为三层:由RFID、传感网等组成感知层;Internet、Wifi、3G等网络,组成物联网的网络层;此外,针对各类社会中的应用需求是其应用层。而云计算作为物联网产业链中的关键中间技术,将是物联网发展的重要基石。
|
|
(Cloud Group)
|
Linux使用技巧简介
Abstract: 主要讲解了一些linux的常用命令和软件,以及使用linux测试的技巧和经验。
|
|
2011.10.21 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
社会网络中的个性化隐私保护 [pptx]
Abstract: 目前,针对社会网络隐私问题已提出许多保护策略,而这些策略都是假设攻击者拥有相同的背景知识。然而,在实际应用中不同的用户有不同的隐私需求。所以在拥有相同背景知识的前提下,不能满足个性化隐私需求,进而不能在隐私和可用性之间进行较好的平衡。基于此需求,本文提出一种框架来满足用户的个性化隐私设置需求。
|
|
2011.10.14 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
支持范围查询的闪存存储结构
Abstract: 由于闪存具有和磁盘完全不一样的特性,主要是随机写性能比较差,所以大部分都采用异位更新的方式。现有的基于闪存的存储模型主要有行列混合存储、IPL存储模型和追加存储模型。虽然行列混合存储可以很好的支持查询,但是行列混合存储的更新性能没有被考虑。IPL存储模型和追加存储模型虽然具有较好的更新模式,但是没有考虑到OLTP中一中很重要的应用,就是范围查询。本文主要目标是,尽量不降低更新性能提高查询性能,尤其是范围查询。针对此,我们提出了块页式两级存储管理和内存级B+-tree索引结构。
|
|
2011.09.24 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
云数据管理中的索引技术 [ppt]
Abstract: 云数据管理系统因其高可扩展性、高可用性得到越来越多的重视,然而,目前仅支持Rowkey上的点查询和范围查询,对非Rowkey上的查询和多维查询无法提供有效的支持。本报告主要对目前云数据管理中的索引技术进行了调研,分析了各自的优缺点,以及未来的研究方向。
|
|
(Web Group)
|
大数据简介 [ppt]
Abstract: 近来,许多企业和研究领域可以关注大数据的发展。此次报告从大数据的定义、框架、应用和相应的挑战入手进行介绍。由于大数据不同于海量数据和大规模数据,需要设计和开发新的计算模型、算法和存储构建。报告中主要介绍了大数据的随即采样模型、数据流模型和更略图模型等计算模型。
|
|
2011.06.24 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
社会网络中个人隐私分值计算和可信预测
Abstract: 近来,社会网络中的隐私和可信问题受到越来越多的关注。此次报告主要涉及社会网络中个人隐私风险计算和个人之间彼此信任的预测问题。隐私风险计算主要讲解了极大似然和EM参数估计方法,而可信预测主要讲解了社会心理学中的平衡理论和地位理论。
|
|
2011.06.17 会议地点:信息楼一楼会议室
|
|
(mobile Group)
|
地理社交网络的基于tag的空间协同搜索
Abstract: 随着移动定位技术和social network的不断发展,geo-social network 逐渐流行。基于该场景,提出一种基于tag的空间协同搜索,帮助位于不同位置的有不同需求的用户找到满足他们大多数需求的活动场所。为了有效的回答该查询,提出了两种解决方案。实验结果验证了提出算法的有效性。
|
|
(Mobile Group)
|
基于停留点的轨迹隐私保护技术
Abstract: 轨迹上的停留点往往包含较多的敏感信息,因此,从停留点出发保护轨迹隐私更加合理、高效。我们提出了一种基于停留点保护的轨迹隐私保护方法,可以有效的降低信息扭曲度。
|
|
2011.06.10 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
关于Flickr上的论文和应用研究
Abstract: 最近几年关于web2.0的研究的论文渐增,像Facebook、Twitter、Flickr这些Web2.0时代的代表,不仅给我们带来了很好的应用,同时也给我们带来了一个很好的研究平台。在Flickr上我们可以免费获得大量的tag、title、picture等信息,这给我们的研究带来了很大的方便。基于Flickr的研究目前主要有基于Flickr的距离计算、旅游推荐、基于Flickr进行预测、图像文件检索这四个方向。
|
|
(XML Group)
|
GILX:图结构XML上的压缩区间编码方法
Abstract: 当引入ID/IDREF关系后,XML文档不再用树模型来表示,而只能用图模型来表示。由此给XML数据管理带来许多新的问题。在图结构的XML文档上,可达性查询是一种很关键的查询方式。在这个报告中,我们介绍了一种压缩的区域编码方法来支持高效的可达性查询。
|
|
2011.06.03 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
在基于信任打分的网络中找出节点的偏见和威望值
Abstract: 在基于信任打分的网络上一种新的计算节点权重的方法。
|
|
2011.05.27 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
利用MapReduce作Join查询优化问题研究 [pptx]
Abstract: MapReduce作为一个并行的编程框架,能够让我们很轻易地采用廉价机器并行处理大规模数据集,遗憾地是,同一个MapReduce job并不能够很好地处理异构数据源,例如join查询。
|
|
(Mobile Group)
|
云计算环境下隐私保护的查询处理 [pptx]
Abstract: 随着云计算的发展,云上DaaS服务也成为一种趋势。但是,这种服务导致了两类隐私的泄露,即数据隐私和查询隐私。ICDE 2011和DASFAA 2011上的两篇文章提出了两种不同的云上隐私保护框架。一个是基于隐私同态加密算法的框架。即,使用加密算法隐私同态的特征,让客户端引导查询处理过程,从而达到保护查询隐私和数据隐私的目的。另一个框架是基于秘密分享模式的。即在数据外包之前,使用秘密分享公式将数据划分成n份,从而达到隐私保护的效果。
|
|
2011.05.20 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
知识库上的语法规则优化和数据清洗
Abstract: 自然语言是非常复杂的,因此为了建立准确的知识库,我们需要做语法规则的优化和抽取结果的数据清洗。
|
|
(Flash Group)
|
SSD上的查询与优化 [ppt]
Abstract: SSD上关于查询处理与优化的一个survey。
|
|
2011.05.13 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
在追加存储中考虑事务
Abstract: 目前闪存数据库的研究主要是针对闪存的随机写性能比较差,提出了一系列的闪存存储方案??行列混合存储、基于日志的存储、追加存储三种方案,但是各自有各自的优势,各自有各自的缺点。以前提到的追加存储都是应用到Key-Value系统中,如果把追加存储应用到闪存数据库管理系统中就会存在很多问题, 比如说索引、事务处理等等。其中Rollback和恢复是事务处理中必不可少的部分,针对原有的方法进行针对追加存储方案的改进,使得恢复更快,性能更优。
|
|
(Web Group)
|
微博链接的语义分析
Abstract: 本次报告介绍了WSDM2011上的关于Twitter的link语义分析的一篇论文“Topical Semantics of Twitter Links”,同时也介绍了我们组对sina微博数据分析的一些结果。
|
|
2011.05.06 会议地点:信息楼一楼会议室
|
|
DASFAA 参会者
|
特殊专题:DASFAA参会报告
Abstract: 曹老师、范玉雷、梁智超、綦晓颖就这次DASFAA会议做了参会报告。
|
|
2011.04.22 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
Redis--key value内存数据库介绍
Abstract: Redis是一个key-value内存数据库,由于其对数据的存储和操作都是在内存中,所以有着很高的性能。但是由于内存的容量相对较小和易失性,Redis又提供了虚拟内存管理和数据持久化功能。主要介绍了Redis的数据流程和对虚拟内存管理的一些改进想法。
|
|
(Flash Group)
|
闪存数据库日志技术
Abstract: 闪存作为一种新型的存储设备,将取代磁盘成为新一代的数据库二级存储设备。但是,直接使用传统的日志方法在闪存数据库中难以充分利用闪存的优越性。我们分析了闪存数据库中日志设计的问题,提出了一些新的解决方案。一种是对闪存中天然存在的数据的历史版本来进行管理和利用的日志及恢复方法HV-Logging;一种是使用链表结构取代原有的顺序结构进行日志记录的LB-Logging。
|
|
2011.04.15 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
Online模式下的聚集操作 [ppt]
Abstract: 在传统的数据库系统中,聚集操作通常是批处理的:在提交一个查询后,系统在相当长的时间内处理很大的数据量,最后给出最终的结果。在Online Aggregation中,作者提出的一种新的操作界面,在这个界面中,用户既能观察他们的聚集查询结果,同时也能随时停止查询的进行。
|
|
(Mobile Group)
|
一种用户协作的无匿名区域的位置隐私保护方法
Abstract: 基于位置服务的广泛应用给人们的生活带来了极大的便利。但是用户在享受这些便利的服务的同时,个人的位置隐私也面临着严重的威胁。目前,典型的位置隐私保护技术是位置k匿名方法。该方法容易使中心服务器成为性能瓶颈和集中攻击点,也容易造成查询处理过程更为复杂。报告介绍了一种用户协作的无匿名区域的位置隐私保护方法。
|
|
2011.04.08 会议地点:信息楼一楼会议室
|
|
|
特殊专题:软件和硬件在数据管理过程中的相互作用 [ppts]
Abstract: 该专题主要介绍硬件磁带、磁盘、Flash、SSD和存储集存储器,同时还分析了这些硬件和数据库管理系统之间的关系和相互作用。本专题包含7个报告。第一个详细叙述了从磁带到磁盘的技术路线,以及现在主流的固态硬盘技术。接下来的三篇文章主要介绍了NAND闪存芯片上的数据管理技术。接下来的两篇介绍除了闪存之外的非易失硬件对软件技术的影响。最后一篇阐述了当前的SSD的能源效能的测试。
|
|
2011.04.02 会议地点:信息楼一楼会议室
|
|
(Cloud Computing Group)
|
云环境下的查询处理进程估计
Abstract: 在云环境下进行查询处理进程估计面临很多的挑战性因素,包括:任务并行,执行速度不固定,任务出错等等。本次报告介绍了现有的一些方法如何解决这些挑战性问题,同时介绍了我们关于本问题的一些初步的想法。
|
|
(Cloud Group)
|
Cassandra和Hbase的系统测试报告
Abstract:
对Cassandra和Hbase做了一系列的测试,对其测试结果进行了汇报
。 |
|
2011.03.25 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
手机应用程序项目报告
Abstract: 随着苹果公司手机应用程序商店App Store的巨大成功,越来越多的手机制造商、运营商和互联网服务商也都推出了自己的应用程序商店。然而,大量应用程序的出现,给手机用户带来了巨大的麻烦,用户要想找到自己想要的手机应用程序变得越来越困难。因此,手机应用程序的搜索和推荐技术的研究显得非常重要,作者从项目背景、项目研究动机、相关解决方案等方面做了介绍,最后提出了相关问题与大家进行交流。
|
|
(Web Group)
|
Twitter更像什么,社交网络还是新的媒体
Abstract: Twitter是现在在世界上很流行的一种网络应用。那到底什么是Twitter?这次报告将会根据WWW2010上的一篇文章"What is Twitter, a Social Network or a News Media"来挖掘一些关于Twitter的高级特性。
|
|
2011.03.11 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
Twitter中的主题权威识别与微博搜索分析
Abstract: 本次报告介绍了WSDM会议上关于Twitter上主题权威发现和微博搜索技术的的三篇文章。主题权威发现的两篇文章中,TwitterRank使用的是一种基于图结构的类PageRank算法,而另一篇文章使用基于高斯混合模型的聚类方法来选择候选权威用户,并通过对候选用户的排序给出最终的权威用户集。此外,本次报告还介绍了一篇对微博搜索和Web搜索详细比较的测评文章。
|
|
(Web Group)
|
Twitter中的信息传播
Abstract: 作为一个微博服务,Twitter的发展极为迅速。在此报告中,我们主要关注Twitter上的信息扩散和传播问题。这里我们介绍了WCID 2011上的两篇论文。第一篇主要研究了信息级联过程中如何处理数据确实的问题,从而更加准确的估算出传播模型的参数。第二篇工作主要研究了Twitter上的用户影响力评估。通过这两篇文章,我们了解了Twitter上信息扩散和传播方面的一些问题。
|
|
2011.01.14 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
UDT网络协议介绍
Abstract: UDT 相比于传统的网络协议(如:TCP)有着良好的性能。当在某些延时很大的网络中,UDT的参数也需要进行相应的调优。
|
|
(XML Group)
|
XML数据库测试报告
Abstract: 关于4种xml数据库测试的总结报告。
|
|
(Cloud Group)
|
元数据管理
Abstract: 近年来,为了满足大规模数据的存储,聚簇存储成为一个越来越流行的方式。伴随着聚簇存储的出现,如何访问聚簇文件系统的数据成为一个挑战性的问题。元数据管理的研究就是为了解决这个问题。本次报告重点介绍目前在元数据管理研究中已有的一些方法以及未来在TaijiDB上可做的元数据管理研究
|
|
2011.01.07 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
XML关键词查询改写
Abstract: 这次报告,我们主要讨论了在XML关键词查询中的查询改写问题。其中,我对已经存在的XML关键词查询改写方法进行了分类。另外,我提出了一种全新的自动化的方法将关键词查询改写为结构化查询,它考虑了XML数据的内容和结构。首先我们将查询关键词按照数据的内容拆分为指向结构的词和指向内容的词,并且根据schem和数据我们可以抽取出这些指向结构的词的关系图,它对应于一个带权的有向图。这个有向图的最优和前K个生成根树对应的是最优的和top-k结构化查询方法。
|
|
(Cloud Group)
|
诺西实习报告 [ppt]
Abstract: 关于诺西实习的总结。主要报告实习参与的测试项目??针对传输协议UDT的性能测试。首先,传输协议UDT是一种面向高速广域网上的海量数据传输协议。然后,对于测试脚本的每个部分进行详细介绍。
|
|
(Mobile Group)
|
移动对象的轨迹隐私保护研究
Abstract: 现有的大多数轨迹隐私保护的工作都关注于轨迹k匿名,但是单一的轨迹k匿名并不能完全保护轨迹隐私??即使移动对象藏匿于组中,如果该组内没有足够多种类的隐私信息,攻击者还是可以 把敏感信息和移动对象联系起来。因此,我们致力于找到一种能提供更强的轨迹隐私保护的方法。
|
2010
|
2010.12.24 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
连续密度查询
Abstract: 介绍了连续密度查询的相关工作,指出之前的算法导致的结果遗失问题。提出了一种新的基于TPR树的算法来解决上述问题。新的算法可以返回所有密集区域,并且得到更加精确地计算结果。
|
|
(Mobile Group)
|
研究回顾、探讨与交流
Abstract: 对博士期间的研究过程和经历进行了总结,提出了一些研究心得,经验和教训。
|
|
2010.12.17 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
博客意见检索
Abstract: 随着Internet中博客、论坛端点的不断发展和内容的不断丰富,网络舆情逐渐发展成为舆情分析的重要关注点,而博客中的意见检索是研究界关注较多的方向。本次报告从博客意见检索的目标、框架、实现方法等方面综述了最近几年研究界关于博客意见检索的研究成果。
|
|
(Web Group)
|
用户个人隐私保护问题研究
Abstract: 互联网上存储了大量的信息。尤其随着Web2.0技术的出现,网络中个人信息的数量在急剧增加。恶意用户可以通过高度索引的搜索引擎来收集网络上的个人信息,从而获得个人的隐私信息。这是一种基于搜索引擎挖掘个人隐私的一种新型隐私泄露问题。在这个报告中,我们对一个已有的方法进行扩展,该方法由我们的一位已毕业研究生艾敬提出。我们新提出了一个基于二部图的聚类方法来解决上述问题。
|
|
2010.12.10 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
一种基于闪存数据库的延长闪存使用寿命的新方法
Abstract: 随着容量的增长和价格的下降,闪存开始走进企业及应用并展现出了替代传统磁盘的强大潜力。但是,闪存也存在“写前擦除”和“擦出次数有限”的顽疾,这导致了频繁的随机写和小的写很快就会将一个闪存的块磨损殆尽。在此背景下,我们分析了传统数据库中的空闲空间管理方法,并指出其和闪存的不适应性。此外我们也提出了一种新的方法来缓解这个问题,这种方法通过对空闲空间管理和缓冲区管理的调整减少了写I/O的次数,从而延长了闪存的使用寿命。
|
|
(Flash Group)
|
一种专用于企业级SSD的基于操作的闪存转换层算法
Abstract: 闪存转换层是闪存设备上非常重要的一个固件,对闪存设备的性能有很大的影响。当SSD直接应用于企业级环境时,出现了很多问题。因此为提高总体性能,需要重新设计闪存转换层。本文提出了一种新的基于读、写操作的闪存转换层算法。
|
|
2010.12.03 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
基于社会注释数据的结构化查询推荐 [ppt]
Abstract: 查询推荐已经被认为是一种重要的方式去帮忙用户进行搜索和提高搜索引擎的使用率。
|
|
(Web Group)
|
OpenScholar系统介绍
Abstract: OpenScholar是由Web组开发的自动生成学者主页的系统,它具有自动检索主页内容、动态更新维护等特点。
|
|
2010.11.26 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
云环境下的查询优化
Abstract: 在云环境下,数据以Block块为单位进行备份存储,在查询时,可能会涉及到数据迁移的问题。如何尽快以尽可能小的代价完成查询是一个值得研究的问题。
|
|
(Web Group)
|
基于唯一性约束及错误值的记录链接分析 [ppt]
Abstract: 本文主要讲述了基于唯一性约束及错误值的记录链接分析。作者采用K-部图对不同数据源的记录进行建模,然后在K-部图上进行聚类和匹配操作,来解决Duplicates和Conflicting Data问题。
|
|
2010.11.19 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
评估实体识别结果 [ppt]
Abstract: 实体识别是数据集成中一个非常重要的技术。它试图在海量数据记录中识别出代表相同实体的记录,在这个意义上来说,它和聚类或者说是划分相当类似。而这次报告主要关注于一种叫做GMD的实体识别结果的评估方法。
|
|
(Cloud Group)
|
查询处理研究
Abstract: 查询处理的研究工作无论是对于并行数据库还是云环境下的数据库来说都是一个很重要又很有难度的问题。此次报告中,我们简要介绍了集中式数据库和分布式数据库中的查询处理流程,然后介绍了大规模数据处理的研究现状,包括就MapReduce的一些争论以及join算法的实现。最后我们介绍了自己的工作和未来的工作。
|
|
2010.11.14 会议地点:信息楼一楼会议室 |
|
(XML Group)
|
图数据上关键词检索的多样性问题
Abstract: 关键字搜索是一种web上常用的信息检索机制。由于具有友好的用户查询接口,事实上,在查询结构化和半结构化数据时,关键字搜索同样是一种非常有效的检索机制。目前,在图数据上的查询处理研究问题已经引起了学术界越来越多的关注。在该报告中,我们集中讨论图上关键字检索的语义多样性问题。
|
|
(Flash Group)
|
SSD的企业级应用 [ppt]
Abstract: SSD在企业中的应用越来越广泛,但这时就出现了一个问题,现在的平台是不是适合SSD?这篇文章对这个问题进行了解答。在报告中也对SSD RAID进行了介绍。
|
|
2010.11.06 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
CIKM2001参会总结
Abstract: 在这个报告中,我对CIKM2010的情况作了一个简单的总结和介绍,并结合自己参加会议的经历谈了一些自己的想法。
|
|
(Cloud Group)
|
RHP:一个提高cassandra中range query效率的数据分布方法
Abstract: 在cassandra中,负载均衡和范围查询的效率之间是一个巨大的矛盾,如何在他们之间做折中,是一个关键问题。
|
|
2010.10.30 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
时空序列景点查询演示 [ppt]
Abstract: 从现实角度出发,考虑flicker上面的一些景点标记信息,如果想在一定限制的时间内,对这些景点进行遍历(游玩),那么方案肯定是有很多种的,那么如何进行遍历才是最节省空间和时间的呢?我们给出一个demo演示,给大家介绍下,我们提出的三种有效的方法。
|
|
(Cloud Group)
|
对象存储调研报告 [ppt]
Abstract: 在存储业界,对象存储作为一种新的存储技术是一个学术研究和开发的课题。本篇调研报告从五方面描述了对象存储技术的关键点,分别是:为何引入对象存储的概念、它包括哪些要素、如何利用这项技术、在工业上和学术上它的发展状况以及我们在研究中如何利用它。
|
|
(Mobile Group)
|
Android开发介绍 [ppt]
Abstract: Android是Google公司于2007年11月5日发布的一个基于Linux内核的手机操作系统。在过去的三年中,Android系统获得了巨大的市场份额,并且在持续增长中,开发者对它的热情居高不下。目前,Android软件商城已有超过十万个应用,是仅次于苹果软件商城的第二大软件商城。本次报告介绍了Android平台上软件开发的流程以及Android内部的运行机制。
|
|
2010.10.23 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
基于Flash的多版本数据存储
Abstract: 由于Flash的异位更新特性和PostgreSQL的多版本存储设计,使得较多的更新操作和小的随机写操作发生,这些操作会严重影响数据库系统性能和Flash的寿命。基于闪存的多版本存储(FMVDS)主要从减少更新和小的随机写角度重新设计了多版本存储,进而减少擦除所带来的整个系统性能下降。在FMVDS中,事务状态表项增加一个时间戳,数据记录增加一个指向旧版本数据的指针,通过这两个新增加项实现了高并发和快速的恢复。
|
|
(MSRA)
|
上下文感知搜索
Abstract: 介绍MSRA关于上下文感知搜索的研究。
|
|
2010.09.25 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
基于演化规则的实体识别 [ppt]
Abstract: 实体识别主要用来辨别数据库中的不同记录是否代表现实当中的同一个实体。实际情况下,实体识别随着对数据、模式和应用的不断理解而逐步改进,而不是一次完成的。本文研究了在ER规则不断演化的过程中如何保持最新的ER结果。传统的ER方法在迭代的过程中是从最初的数据开始,这样对于大数据集来讲是行不通的。本文主要研究如何利用前面物化的ER结果来减少工作量。文章介绍了能够加速演化的算法属性,并提出了针对两种聚类ER模型的高效规则演化技术:基于匹配的聚类和基于距离的聚类。通过实际数据集的验证表明:物化的方法优于传统的方法。
|
|
(Mobile Group)
|
VLDB论文报告
Abstract: 本次报告介绍两方面的内容,首先介绍了基于Prestige的Top-K相关空间Web对象检索,在该方法中提出了基于prestige相关性的概念,采用基于prestige的相关性和位置的相近性对检索到的top-k个结果进行排名。然后介绍了如何从GPS数据中挖掘重要的语义位置,使用一个双层图模拟位置之间以及位置与用户之间的关系,在此基础上,提出了一种新的排名模型,为每个语义位置分配其重要性的值。
|
|
(Web Group)
|
VLDB2010论文总结
Abstract: VLDB2010和云数据管理相关的论文可以分成四类:云数据管理系统,测试,查询优化和一些开放性问题。报告总结了论文的研究动机、关键技术以及对我们研究的启发。
|
|
2010.09.18 会议地点:信息楼
一楼会议室 |
|
(Graduate) |
初到微软新感受
Abstract:
介绍个人初到MSRA的生活和感受。 |
|
(Graduate) |
闪存数据管理和云计算介绍
Abstract:
分享自己在云计算和闪存数据管理的新感受和发现。 |
| |
|
|
2010.06.19 会议地点:信息楼
一楼会议室
|
|
(Mobile Group)
|
轨迹数据隐私保护的研究现状 [ppt]
Abstract: 介绍了在四个应用场景中的轨迹数据隐私保护技术。对于在线应用,最关键的问题是要在保护轨迹数据隐私的同时
保证较高的服务质量;对于离线应用,最关键的问题是在保护轨迹数据隐私的情况下保证数据可用性。
|
|
(XML Group)
|
XML关键词查询改写 [ppt]
Abstract: 这次报告,我们主要讨论了在传统信息检索和新的XML关键词查询中的查询改写问题,其中,主要部分是关于XML关
键词查询改写中的任务和方法。另外,我们对现有的XML查询改写问题进行了分类总结,并提出了一种全新的查询改写方法。
|
|
2010.06.12 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
Web上可信度的研究现状
Abstract: 从web信息产生过程中所涉及的三个实体:信息本身,web网站和用户来介绍web信息可信度研究的相关技术。这里着重讨论了:同种实体内部的相互关系影响该实体的可信度;不同类别实体之间的可信度也会相互影响。
|
|
(Web Group)
|
Wikipedia信息质量及可信度研究
Abstract: 本次报告介绍了Wikipedia中的信息质量和可信度问题并介绍了相关的研究题目。此外还对WWW、WICOW等会议中关于Wikipedia信息可信度的相关文章进行综述介绍。
|
|
2010.06.05 会议地点:信息楼一楼会议室
|
|
(Cloud Group)
|
基于云数据管理的索引
Abstract: 本次报告介绍了为什么要在云数据上建立索引,目前在云上建立索引的相关研究工作以及我们在云数据管理上索引研究的工作进展。
|
|
(Cloud Computing Group)
|
NoSQL综述 [ppt]
Abstract: 本次报告简要地介绍了NoSQL,介绍了NoSQL提出的原因,历史,定义,基本理论以及NoSQL数据库的简单分类。
|
|
2010.05.29 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
图上的关键词搜索
Abstract: 在这个报告中,主要介绍了一些在图上的关键词搜索方法。关键词搜索为用户提供了一种简单而友好的从复杂数据结构中搜索信息的界面。我们重点介绍在图上的关键词搜索技术存在的挑战。一个是,什么结果是关键词搜索的查询结果;一个是,什么样的查询结果是好结果,即如何排序。第三个是,如何高效的完成关键词搜索。
|
|
(XML Group)
|
三网融合 [ppt]
Abstract: 本次报告介绍了三网融合的概念,三网融合的发展,三网融合带来的好处以及目前国内外三网融合的现状。
|
|
2010.05.22 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
基于基本结构的图匹配算法
Abstract: 过去图匹配技术是基于点的。这意味着每个点对应的候选集形成的搜索空间可能很大。减小搜索空间可以提高查询处理的效率。本报告提出提高图匹配算法的粒度,来减小搜索空间,最终达到提高查询处理效率的目的。我们通过统计实验和几个简单的实验证明了这一想法的有效性。
|
|
(XML Group)
|
数据去重研究
Abstract: 本次报告介绍了数据去重现有的几种方法:基于hash的方法,Delta方法等,主要介绍了他们的基本思想,以及小数据的数据去重问题.
|
|
2010.05.08 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
云数据库测试结果和分析
Abstract: 本次报告介绍了云数据库系统的测试结果,并对结果进行了分析解释。
|
|
(Cloud Computing group)
|
分布式数据库体系结构与设计 [ppt]
Abstract: 本次报告介绍了基于关系数据模型的分布式数据库系统的体系结构以及数据分块与重定位相关知识。
|
|
2010.04.24 会议地点:信息楼一楼会议室
|
|
周烜博士(澳大利亚CSIRO研究院)
|
数据库和信息检索用户界面的集成
Abstract: 澳大得亚CSIRO研究院的周?博士介绍了将数据库和信息检索的用户界面集成以更好支持查询的相关工作。
|
|
2010.04.17 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
告诉你一些关于闪存的新东西
Abstract: 本次报告介绍了UCSD非易失性系统实验室的一些研究工作。他们针对闪存进行了大量的测试工作并根据测试结果设计了多种应用,其中包括一种称为Mango的FTL、一种针对闪存的数据编码方法以及一种面向数据中心应用的系统架构Gordon。
|
|
(Mobile Group)
|
现有数据库管理系统在固态硬盘上的测试
Abstract: 通过分析IOps可以分析SSD和HDD的物理特性。通过现有的数据库系统的性能对比来分析SSD和HDD的应用性能。然后提出一些想法:1、改变PG的版本信息存储,把版本信息和数据分开;2、改变MySQL的存储引擎;3、MySQL(BDB)上的弱一致性;4、那种数据适合放置在SSD上。
|
|
2010.04.03 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
网页抽取技术在舆情系统中的应用
Abstract: 本次报告介绍了实验室开发的网络舆情监控系统中所使用的两种网页抽取技术,以及其它一些在系统开发中常使用的工具。
|
|
(Mobile Group)
|
Flex开发介绍 [ppt]
Abstract: Flex是当前很流行的一种RIA开发技术。本次报告主要介绍了什么是Flex及Flex的历史,并且探讨了Flex的原理,优势,应用范围,以及同其他RIA技术的差异。
|
|
(Web Group)
|
实验环境搭建和MapReduce框架
Abstract: 本次报告包括对目前实验室的云数据管理实验平台的搭建进行介绍以及MapReduce框架的基本思想及其实现过程的介绍。
|
|
(Flash Group)
|
Source Insight 一种阅读源码的工具 [ppt]
Abstract: 本次报告介绍了一种面向工程的程序编辑和代码阅读器??Source Insight。Source Insight在用户使用时可以动态分析源代码并不断更新自身的符号信息数据库,从而可以自动地为用户提供有用的上下文信息。
|
|
2010.03.27 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
普适计算中基于时间段的乱序事件处理
Abstract: 普适计算中复合事件处理有越来越多的现实应用.复合事件处理的一个关键因素就是从事件流中实时地抽取所需要的模式.然而,网络延迟或机器故障经常使事件产生乱序.并且,现有的工作都假设事件是没有间隔的点事件,而现实中的许多事件都是有时间间隔的.本文提出了一种基于时间段的乱序事件模型,并提出了一种混合方法进行处理,实验证明此方法的效率和可行性.
|
|
(Cloud Group)
|
ICDE2010-Keynote [ppt]
Abstract: 本次报告根据icde2010的keynote,对我们为什么要做云计算,该怎样去做,要做什么,进行了讨论。
|
|
(Web Group)
|
ICDE2010和SIGMOD2010会议概览
Abstract: 本报告基于录用的论文情况,对于国际数据库会议ICDE2010和SIGMOD2010进行了总结,分析了目前的研究热点。
|
|
2010.03.20 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
RWConvertor: 固态硬盘随机写优化
Abstract: 随着电子技术的发展,固态硬盘作为一种新的数据存储设备,具有省电、抗震和体积小等有点。此外,更吸引人的是其高速的随机读性能。这主要得益于它在读取数据时没有机械延迟。因此近年来固态硬盘被广泛应用在笔记本、台式机和数据服务器上。但是,低下的随机写性能已经成为其进一步广泛应用的性能瓶颈。固态硬盘随机写性能是比随机读和连续访问的速度慢两个数量级,因此以写为主的应用在固态硬盘上性能一般都比较差。在这篇文章中,我们首次提出了通过在随机写序列中插入未修改的数据来实现将随机写转换为连续写,进而提高写的性能。此外,我们还通过最优写序列来进一步提高写的性能。我们采用严格的数学方法来证明了我们的转换序列具有最优的代价,而且是在多项式时间之内获得该结果。当本方法应用在数据流上时,我们通过综合增益和粒度的带宽方法来选择最优写出数据项。
|
|
2010.03.13 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
走近物联网
Abstract: 物联网作为下一代信息技术,引起了社会的广泛关注。它可以使得世界上的任何一个物体都可以通过网络连接起来。本次报告首先对物联网进行整体的介绍,然后介绍
了其体系结构和关键性技术,并给出了它的广泛应用。最后,提出了未来物联网的发展方向。
|
|
(Mobile Group)
|
物联网相关研究报告 [ppt]
Abstract: 本次报告介绍了物联网的相关工作及发展趋势,主要介绍了华盛顿大学的微型网络项目及相关的物联网研究热点问题。
|
|
2010.03.06 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
开源云数据管理系统测试
Abstract: 本次报告介绍了当前云数据管理系统的测试benchmark,描述了我们测试环境的配置以及部分测试结果,并对其进行了分析。
|
|
(Web Group)
|
云数据库系统的系统结构设计与实现
Abstract: 实验室的云数据库管理系统项目旨在研究新型的数据存储及数据库管理系统,使得它能够支持下一代“大数据”的存储与管理,并且应用到一个具体的领域里,如移动通信领域。这个报告,介绍了整个系统的设计与实现,以及目前我们所搭建的原型系统框架。
|
|
2010.01.09 会议地点:信息楼一楼会议室
|
(Invited Talk)
|
时间序列分析及多媒体数据库
Abstract: 时间序列和交互式多媒体有着广泛的应用,例如在计算机游戏。在识别时间序列模式中,如何刻画时间序列模式是一个很重要的问题。报告提出了一种有效的翘曲距离测度及高效的高效的算法进行连续模式识别。对于交互式多媒体数据库,主要着重于其多媒体数据的索引、存储结构、定义有效实用的相似度函数以及高效的处理算法。
|
|
(Flash Group)
|
闪存转换层算法简介
Abstract: 本次报告介绍了几种闪存转换层算法,如BAST, FAST, LAST, 以及DFTL等,介绍了它们的基本思想及其优缺点。此外,还介绍了闪存芯片上的一些基本实验。
|
2009
|
2009.12.26 会议地点:信息楼一楼会议室
|
|
张瑞博士 (Invited Talk)
|
移动对象上的连续相交连接查询
Abstract: 移动对象上的连续相交连接查询是一类计算代价非常高,对应用场景非常重要的一类查询,目前并没有专门的这方面的工作。我们通过改进一种基础算法和把已有的TP-Join方法扩展来处理这类查询。本次报告介绍了我们在这方面开展的工作。
|
|
陈晋川博士 (Invited Talk)
|
不确定数据管理
Abstract: 陈晋川博士概述了不确定性数据管理研究的已有成果并介绍了一些常见处理数据不确定性的方法,提出了在不确定性数据管理的一些有价值的研究课题。
|
|
2009.12.19 会议地点:信息楼一楼会议室
|
|
(Cloud Computing Group)
|
cassandra和sigmod编程竞赛 [ppt]
Abstract: casandra是一个高度可扩展的第二代数据库系统,综合了Dynamo的P2P数据分布处理技术以及BIGTABLE的基于列族的数据模型。sigmod编程竞赛的主要任务是在去年主存索引的基础上做一个分布式查询器。
|
|
(Mobile Group)
|
锤子和钉子
Abstract: 锤子--研究方法,钉子--研究问题,两者必备。报告首先抛出了三把“锤子”:签名、有序保留最小完全不冲突哈希函数和位置敏感哈希函数,然后引入了一枚新的“钉子”
|
|
2009.12.12 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
云数据管理系统调研
Abstract: 随着计算机技术和通信技术的发展,企业和公司产生的数据量快速增长,云数据管理系统是有效存储和管理大规模数据的一种有效手段。本次报告介绍了部分云数据管理系统并对它们进行了分析比较。
|
|
(Cloud Computing Group)
|
Hive - 在mapredudce框架下的数据仓库解决方法 [ppt]
Abstract: 介绍了在hadoop上建立的一个支持管理和查询结构化数据的系统hive并介绍了其实现查询语言的原理。
|
|
2009.12.05 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
社会网络中的信任计算
Abstract: 本次报告介绍了社会网络中可信度计算现有的几种方法:Advogato、Appleseed、TidalTrust等,介绍了他们的基本思想及其实现。
|
|
(Web Group)
|
数据融合-集成中的数据冲突解决方案
Abstract: 在本次报告中我们简要介绍了数据融合的相关知识,包括数据冲突类型、冲突处理策略、数据融合在集成程序中的角色以及目前数据融合的实现方案。我们还介绍了当前数据融合研究领域的挑战和开放问题并对本次报告做了简单总结。
|
|
2009.11.28 会议地点:信息楼一楼会议室
|
|
(mobile Group)
|
ACR:一种基于闪存的自适应的缓冲区置换策略
Abstract: 本次报告介绍基于闪存的自适应的缓冲区管理算法ACR。ACR算法采用一种新的基于代价的策略,可以针对不同的存取模式进行自适应的调整。
|
|
(Mobile Group)
|
Flash上的数据库管理系统中的多版本并发控制研究
Abstract: Flash的异地更新,以及In-Page Logging的存储方式使得数据在Flash上存在多个版本。多版本并发控制需要串行化理论的支持,多版本并发控制协议包含有:MV2PL、MVTO、MVSGT、TW和ROMV,分别是多版本的两阶段锁、多版本的时间戳排序、多版本的序列化图、多版本的乐观协议和只读事务的多版本并发控制协议。通过现有的数据库系统的性能对比来分析几种并发控制算法的性能。最后提出未来在Flash上的数据库管理系统的并发控制研究。
|
|
2009.11.21 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
基于同义词规则的字符串近似搜索
Abstract: 这个报告介绍了基于片段的字符串匹配方法,并给出了一个新的相似度计算函数。
|
|
(XML Group)
|
有向无环图上可达性计算
Abstract: 在实际中,可达性计算不仅在图数据库上是个核心操作,在其他领域的图查询中也是一个核心操作。因此,近些年来得到学术界的广泛关注。在这次报告中,介绍了我所提出的一种新的编码方法。该方法能够极大地提高可达性计算的效率,编码的压率很高,构建时间很短。
|
|
(XML Group)
|
信息检索模型及相关反馈
Abstract: 这次报告首先介绍了四种经典的信息检索模型,在此基础上,给出了改进检索结果的两种方法:全局方法和局部方法,重点对局部方法中的相关反馈技术进行了探讨。
|
|
2009.11.14 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
数据空间研究回顾
Abstract: 对于我们在数据空间方面的研究工作进行了回顾,介绍了目前正在进行的一项研究工作。
|
|
(Web Group)
|
数据空间研究进展报告
Abstract: 介绍了在数据空间方面的研究和系统实现进展。
|
|
(Web Group)
|
利用特征关联提高子图查询效率
Abstract: 在图数据库的子图搜索这个问题上,过去的工作关注选择怎样的结构作为特征可以更好的提高过滤效率产生更少的候选图。目前来看这一思路遇到了瓶颈:虽然提出的特征越来越复杂,然而最后的候选集准确率依然很低。因此我们提出使用特征之间的关联来提高子图查询的效率的想法。
|
|
2009.11.08 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
CIKM2009参会总结
Abstract: 根据我们的参会经历和印象,对CIKM2009进行了简单总结,重点介绍了会议的三个主题报告。
|
|
(Flash Group)
|
CIKM2009 参会总结 [ppt]
Abstract: CIKM是一个很高水平的国际会议,主要分为信息检索,知识管理和数据库三个方向。这次参会本人主要集中在poster方面。这个方面大家展示了很多关于如何提高搜索引擎的性能和效果的。
|
|
(Web Group)
|
CIKM2009参会总结
Abstract: 在这个报告中,我介绍了CIKM2009上与Web数据管理和点击日志挖掘相关的3篇文章与1个Tutorial。此外,还介绍了一些参会感受。
|
|
(Web Group)
|
CIKM2009参会总结
Abstract: 在这个报告中,我对CIKM2009的情况作了一个简单的总结和介绍,并结合自己参加会议的经历谈了一些自己的想法。
|
|
2009.10.31 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
云数据管理的一种高效多维索引 [ppt]
Abstract: 这是参加CIKM 2009的CloudDB Workshop的预报告,介绍了一种云数据管理背景下的高效多维索引机制。
|
|
(Web Group)
|
基于上下文查询个人数据空间 [poster]
Abstract: 用户在撰写个人文档的时候,往往需要引用一些其它文档的内容(例如一些图片、数据、表格等)。用户访问个人文档时,有时需要重新访问这些被调用的相关文档。现有的工具不能很好的支持这种用户需求。基于此本文定义了一种新的基于上下文的个人数据关系(Context-based Relationship),并提出了有效地挖掘这种数据关联的方法,以及基于这种关联查询个人数据的方法。
|
|
(Flash Group)
|
CIKM2009预报告 [poster]
Abstract: 固态硬盘作为一种新型的电子存储设备,具有高速的随机读性能。所以固态硬盘被广泛地应用在笔记本、台式机和服务器中。固态硬盘也被认为在未来的数年中将会取代磁盘成为新的数据存储设备。但是差的随机写性能在实际中成为性能的瓶颈。在本文中,我们提出在随机序列中加入未修改的数据,这样可以将随机序列变化为连续序列。在这种情况下,数据的写入速度就会得到极大的提高。
|
|
2009.10.24 会议地点:信息楼一楼会议室
|
|
(Web&Mobile Group)
|
NDBC2009特邀报告总结
Abstract: 肖湘晔博士对第26届中国数据库学术会议NDBC 2009的特邀报告作了简要的回顾和总结,重点介绍了包括董欣博士、孟卫一教授、王海迅博士和陈雷博士的主题报告的内容。
|
|
(Web Group)
|
SKG2009参会报告
Abstract: 对SKG2009进行了简单介绍,重点介绍了这次会议的两个主题报告。
|
|
(Mobile Group)
|
新的研究热点:带有地理信息的查询 [ppt]
Abstract: 在查询中能发现用户明确的或潜在的地理信息能提高用户查询的满意度。这些年来,关于带有地理信息的查询已经成为研究热点。目前有几种处理方法,第一类是基于训练数据的,这类方法需要查询日志等大量数据来处理;另一类是将空间位置和文本相似性结合进行查询,但这类方法只能处理本地的地理信息。目前,最大的挑战是如何发现用户隐含的地理信息。
|
|
(Web Group)
|
轨迹模式挖掘
Abstract: 随着移动设备和基于位置服务的普及,导致了用户移动历史数据的海量增长。这就为我们分析用户的移动行为提供了机遇。目前,用户运动的轨迹模式挖掘成为很热的一个研究问题。本次报告主要介绍了目前在这个研究问题上的一些代表性的研究工作,并总结指出了其中的一些缺点和不足。
|
|
2009.10.11 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
C-Rank -- 一种Deep Web数据记录可信度评估方法
Abstract: 如何识别和评价Web上的数据信息的可信度已经变得越来越重要。为了解决这个问题,本次报告提出了一种为Deep Web数据记录计算可信度的有效方法C-Rank,该方法为每一条记录构造一个S-R可信度网络。
|
|
(Mobile Group)
|
基于位置服务中的连续查询隐私保护研究
Abstract: 近年来,伴随着移动计算技术和无限设备的蓬勃发展,位置服务中的隐私保护研究受到了学术界的广泛关注,提出了很多匿名算法以保护移动用户的隐私信息。但是现有方法均针对snapshot查询,不能适用于连续查询。如果将现有的静态匿名算法直接应用于连续查询,将会产生隐私泄露、匿名服务器工作代价大等问题。针对这些问题,提出了δp-隐私模型和δq-质量模型来均衡隐私保护与服务质量的矛盾,并基于此提出了一个贪心匿名算法。该算法不仅适用于snapshot查询,也适用于连续查询。最后,实验结果证明了算法的有效性。
|
|
(XML Group)
|
基于代数的Transform查询优化策略
Abstract: XQuery/Update中定义了一种特殊的查询?Transform查询。Transform查询类似于关系数据库中的假设查询,可以表示成假设查询的一般形式:“Q when {U}”,即查询Q的查询结果是假设数据库执行了更新操作{U}以后的结果,而更新操作U实际不修改数据库的状态。Transform查询需要拷贝XML数据库中的结点,并对拷贝的结点执行更新操作,所以不影响数据库的状态。但该操作通常拷贝和更新了大量与查询结果无关的结点,因此如何减少拷贝与更新操作的代价是Transform查询处理优化的关键。提出了基于OrientXA的Transform查询优化方法,并在Native XML数据库系统OrientX 3.0里实现和验证了该方法。
|
|
(Mobile Group)
|
HF-Tree--一种闪存数据库的高更新性能索引结构
Abstract: 由于闪存高昂的写操作代价,传统的基于磁盘的索引结构如果直接应用在闪存上的话会导致极差的更新性能。周大在本次报告中提出了一种新颖的索引结构HF-tree,通过组提交、更新合并,以及多级延迟的方式来提高更新性能。
|
|
(Mobile Group)
|
Sub-Join -- 一种闪存数据库的查询优化算法
Abstract: 和磁盘(HDD)相比,固态硬盘具有高速的随机读取速度、低功耗、体积小等特点,因而被认为将取代磁盘成为新一代的数据存储设备。但是闪存数据库的查询性能的提高却远小于固态硬盘相比于磁盘IO 性能的提高。其原因在于现有的数据库是基于磁盘而设计的,使得现有的数据库不能充分发挥固态硬盘的高速性能。因此文章提出一种名为子连接(Sub-Join)的连接算法。子连接算法首先将数据表的连接列和主键投影为新的子表,然后对子表进行接连操作,最后根据子表的连接结果再从原始数据表中回取查询结果。通过和开源数据库Oracle Berkeley DB 的比较实验,结果表明子连接算法比原有的算法性能提高40%-100%,充分说明它的优越性。
|
|
2009.09.28 会议地点:信息楼一楼会议室
|
|
(AT&T Research)
|
不确定性数据集成
Abstract: 来自AT&T的Data Management Department的董欣博士拜访WAMDM实验室并做了题为《不确定性数据集成》的特邀报告,介绍了她和她的研究团队在不确定性数据集成方面做的重点工作。
|
|
2009.09.19 会议地点:信息楼一楼会议室
|
|
(Web&Mobile Group)
|
Co-Location模式的高效发现方法
Abstract: 肖湘晔博士介绍了她在攻读博士学位期间的一些重点工作,包括Co-Location模式的高效发现和移动设备上的Web浏览技术,并对未来的研究工作提出了一些展望。
|
|
(XML Group)
|
移动环境中关键词搜索关键技术研究
Abstract: 陆嘉恒博士的“移动环境中关键词搜索关键技术研究”课题获得了国家自然科学基金资助,在本次报告中他对该课题的研究内容、研究方向等做了详细的介绍。
|
|
2009.07.25 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
OrientX4.0 - 支持关键字搜索
Abstract: 随着XML技术的发展,越来越多的用户使用XML数据。传统的方法是使用XQuery来进行查询,但是这需要用户学习XQuery查询语言,并且还需要用户了解XML文档的结构和内容。这对一般用户来说是一个巨大的挑战,但是关键字搜索能解决上述问题。为了让用户能够更好、更方便地使用XML数据,所以我们将在OrientX4.0中提供关键字搜索。
|
|
(XML Group)
|
OrientX4.0系统开发报告 [ppt]
Abstract: XML 关键字搜索技术的实现
|
|
2009.07.18 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
路网中的不确定kNN查询
Abstract: 路网上的移动对象查询,尤其是k近邻查询(k Nearest Neighbor Query,即查找距离用户最近的k个对象)一直是非常重要,且引起广泛关注的问题。本次报告将针对路网上的诸多不确定性因素,讨论在道路网络中不确定性的表示以及如何针对移动用户的不确定新进行k近邻查询。
|
|
(Mobile Group)
|
隐私保护展示程序开发报告
Abstract: 为显示隐私保护算法,体现隐私保护技术在863普适计算项目中的研究内容,设计开发隐私保护展示程序。本报告主要介绍该展示程序的特点、功能、开发计划与进展等。
|
|
(Mobile Group)
|
基于时间段的乱序事件流的查询处理
Abstract: 复合事件处理在实际应用中越来越重要,其中,复合事件处理的一个关键方面就是从事件流中实时地抽取以便于决策。然而网络延迟或机器故障经常会引起事件的乱序。并且,现有的很多工作都没有考虑事件的持续性,而时间段的考虑对现实应用和事件间的关系是很重要的。因此,本文针对时间段和乱序事件提出了可行的解决方法。
|
|
2009.07.11 会议地点:信息楼一楼会议室
|
|
(Flash Group)
|
Flash组系统开发报告 [ppt]
Abstract: 对已有的开源数据库系统进行改造以开发出针对flash存储的DBMS是一种可取的开发方式,但是选择哪个开源DBMS进行改造却是一个需要谨慎处理的问题。在经过一份分析后,我们认为包含了Berkeley DB作为其存储引擎的MySQL是最佳选择。
|
|
2009.07.04 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
SIGMOD2009会议概览 [ppt]
Abstract: 根据会议情况分析了目前一些热点的研究问题,并介绍了两篇会议论文。
|
|
(Mobile Group)
|
闪存研究报告 [ppt]
Abstract: 闪存数据库研究在国际上变得越来越热。我们非常高兴看到在sigmod2009和VLDB2009上有一些关于索引,查询处理和事物处理方面的文章。这个报告将简单介绍这些文章的基本问题和解决方法。
|
|
(XML Group)
|
XML编码及查询优化 [ppt]
Abstract: 由于缺乏好的估计方法和代价模型,带有许多XPath步和连接操作的复杂XQuery查询表达式的查询优化受到限制。此外,编码是XML数据库系统的核心操作,设计一个支持动态更新的编码方法已经成为研究的热点问题。这次报告介绍了sigmod09中一个新编码方法DDE和一种新的实时查询优化方法ROX。
|
|
2009.06.27 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
闪存数据库上的日志存储问题 [ppt]
Abstract: 近年来,闪存存储器的技术迅速发展,越来越多的数据存放在闪存之上,因此,如何管理闪存数据,如何使传统的数据库技术更好的适应基于闪存的数据库成了一个重要的研究课题。而随着研究的不断深入,越来越多的学者认为,对于闪存数据库的事务性能的改进是一个非常有意义的工作。 在本次报告中,我们探讨了数据库的日志在不同闪存设备上存储时所表现出来的不同特点,并进一步讨论了在日志存储之上的恢复技术和将来所要做的工作。
|
|
(Web Group)
|
基于位置的数据库选择
Abstract: 本次报告主要是给大家介绍一下基于移动的web数据库选择的研究动机以及这个问题的定义;与传统的数据库选择相比,它考虑的因素有什么不同。然后介绍一下传统的数据库选择中的几篇相关工作。最后提出一个初步解决方案来跟大家共同探讨。
|
|
(Web Group)
|
结构化数据的snippet生成
Abstract: 随着移动过设备使用的越发频繁,在移动设备上的查询结果显示显得越发重要。在结构化查询中,一个结果记录往往包含很多的数据项,但是移动设备相对于传统显示设备来说较小的显示屏幕无法适应如此多的数据项,因此,我们需要根据用户的查询、移动设备的特点等方面来确定记录的哪些数据项返回给用户,即snippet抽取过程,从而减少每条查询结果的内容长度,提高显示的效率。
|
|
2009.06.20 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
XML 关键字搜索引擎
Abstract: XML已经成为数据交换的事实上的标准,对XML数据的查询成为一个非常重要的问题。使用W3C推荐的标准查询语言XQuery和Xpath我们能够很容易查询到自己想要的数据,但是这需要用户熟悉XQuery和XPath语言,并且他们还要了解XML的结构和内容才能写出正确的查询。这对普通用户来说是一个很大的挑战,这就促使了对XML关键字搜索的研究,它不需要用户掌握XML查询语言,也不需要用户了解XML文档内容,这样就使得用户查询变得非常容易。OrientX3.5的下一个版本(4.0版)的主要特征就是支持关键字搜索功能,在报告中郭青松分析比较了现有的XML关键搜索引擎的各自特点和不足,然后总结出了他们的共同特征并在此基础上定义了OrientX4.0版的主要特征。王伟主要就OrientX4.0版的关键字搜索中的关键技术,SLCA的计算原理和算法、以及查询结果排序的模型进行了探讨。
|
|
2009.06.13 会议地点:信息楼一楼会议室
|
|
(XML)
|
图结构的XML数据查询处理研究
Abstract: 当把XML数据模型定义为图模型时,就会出现许多新的研究课题。尤其在查询图结构的XML文档时出现许多挑战性问题。因为以前的XML文档的查询处理技术都是针对树结构的XML数据,这些方法不能直接的应用到图结构的XML数据查询。
|
|
(Mobile Group)
|
Flash上的MVCC [ppt]
Abstract: Flash具有异位更新的特性,使得数据在硬件上存在多个版本.鉴于此考虑,数据库管理系统的事务处理子系统采用MVCC,可能会使数据库管理系统具有更好的性能.我们首先介绍了MVCC的一些基本原理,比如MVSR和MVCR.然后介绍了几个MVCC协议,比如MVTO和MV2PL.解析BDB和PG中事务子系统,然后更深入的了解事务处理的过程。
|
|
2009.06.06 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
位置,位置,位置
Abstract: 此次报告主要是与大家一起研究讨论Christian S. Jensen在MDM09上的Keynote。
|
|
(Web Group)
|
C-Query: 基于上下文的个人数据空间查询策略
Abstract: 用户在编辑个人文档的时候,经常需要参考其他文档(邮件、图片、网页等),而且经常需要重新访问这些被引用的文档。由于在这些文档之间没有建立关联关系,使得这种访问往往效率较低。本文提出了一种自动挖掘这种基于用户行为的引用关系的方法。从而支持用户基于这种关系有效地查询个人数据信息。
|
|
2009.05.23 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
OrientX系统开发报告 [ppt]
Abstract: OrientX3.5 的主要特征和实现方法
|
|
2009.05.16 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
固态硬盘随机写优化
Abstract: 对于固态硬盘来说,相对于连续/随机读、连续写,随机写的IO性能非常差。本文提出一种新颖方法,可以避免固态硬盘低下的随机写性能。
|
|
(Mobile Group)
|
缓冲区管理策略总结 [ppt]
Abstract: 本报告分别介绍了基于磁盘和基于闪存的几个经典的缓冲区管理算法。这包括磁盘上的LRU, LFU, FBR等缓冲区算法以及CFLRU, FAB, BPLRU等基于闪存的缓冲区算法。
|
|
2009.04.25 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
云计算上的索引框架研究 [ppt]
Abstract: 云计算系统的出现使得软件服务商部署大规模分布式系统变得容易起来。云计算系统会在用户和软件厂商之间提供一个简单统一的接口,使得软件厂商能够专注于软件本身。但是,现有的云计算系统对于索引并没有很好地支持。该文提出了一种云计算上的索引框架,能够减少云计算系统内部的数据传输开销。
|
|
(Web Group)
|
云计算平台上的数据管理——局限与挑战 [ppt]
Abstract: 分析了适合移植到云计算平台上的数据管理应用,并且讨论了这种移植目前仍然面临的挑战。
|
|
2009.04.18 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
MCN: 一种新的XML关键字查询语义 [ppt]
Abstract: 该报告主要介绍一种新的XML关键字查询语义,相应的文章发表于DASFAA2009
|
|
(Web Group)
|
互斥查询的选择性估计 [ppt]
Abstract: 报告了关于互斥查询中的选择性估计的研究结果,论文发表在DASFFA2009上。
|
|
2009.04.11 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
ICDE2009特约报告总结 [ppt]
Abstract: 对ICDE2009的三个特约报告做了简单总结.
|
|
(mobile Group)
|
ICDE参会总结
Abstract: ICDE是一个非常重要的数据管理的国际大会。在这个会上,有很多与闪存数据库相关的研究工作。从这些工作看来,事务处理已经成为这个领域的一个研究热点。
|
|
(Flash Group)
|
介绍几个ICDE2009中的Demo [ppt]
Abstract: WEST(网络实体搜索技术)是一个不同于传统搜索引擎的Pepole Search系统,它的返回结果不是简单的返回和查询人名相关的所有网页,而是返回一个个的聚类,每个聚类里面的页面只和一个不同于其它聚类里面的人物实体相关。Fa是一个用来解决SLO violations的一个全新的自动诊断系统。UQLIPS则是一个基于Web的集成平台,它可以进行在线相似视频的检测以及检索。
|
|
2009.04.04 会议地点:信息楼一楼会议室
|
|
(Mobile Group)
|
连续查询的隐私保护技术
Abstract: 近年来,位置隐私保护技术受到了广泛关注。但是现在的匿名算法都是针对snapshot的查询类型。这个报告讨论了我们一些针对连续查询隐私保护的想法。
|
|
(Mobile Group)
|
普适计算中的复合事件检测
Abstract: 普适计算环境中传感器设备的大规模使用产生了数量巨大的、错综复杂的原子事件,而现实世界中的许多应用却更注重复合事件的检测,例如:健康护理,监督设施管理,环境/安全监控等。因此如何从这些底层的原子事件中抽取人们感兴趣的、有用的复合事件就变得越来越重要。目前,在复合事件检测方面存在大量的研究工作,他们的研究内容各有侧重。有的强调时间因素,特别是对时间段的考虑的重要性;有的研究了分布式数据源中的复合事件检测;近期又有人提出了不确定性数据上的复合事件检测工作。由于复合事件检测的日益重要,本文分析了复合事件检测研究中存在的挑战性问题,从事件类型、时间因素和数据的精确程度三个方面归纳总结了复合事件检测的现有研究工作,并指出了未来的研究方向。同时,本文还提出了一个事件模型和复合事件检测的框架结构。
|
|
2009.03.28 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
Deep Web集成:查询Deep Web中的结构化数据 [ppt]
Abstract: 介绍了Deep Web的相关背景知识,Deep Web数据集成的关键技术、国内外相关的研究小组、元搜索引擎与元查询之间的区别与联系,以及未来我们关注的研究点。
|
|
(Web Group)
|
数据库选择
Abstract: 数据库选择是一个很重要的研究问题。该报告总结介绍了数据库选择之前的一些相关研究工作及目前我们主要研究的问题。
|
|
2008.03.21 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
CoreSpace:一个基于用户行为的个人数据空间框架
Abstract: 提出了一种新的数据空间框架:核心数据空间,通过刻画用户与具体的数据对象之间的关系建立附和用户行为规律的数据视图,基于此为用户提供更有效的查询方法。
|
|
(Web Group)
|
一种有效的个人任务挖掘方法
Abstract: 提出并阐述了一种基于个人数据访问行为的个人任务挖掘方法。
|
|
2009.03.14 会议地点:信息楼一楼会议室
|
|
(Cloud Computing)
|
基于Hadoop的Map/Reduce框架研究报告 [ppt]
Abstract: Map/Reduce框架是Hadoop的核心算法。 它是一个用来解决基于海量数据问题的简单但是功能强大的算法。在这篇报告中,我会先介绍一下hadoop和Map/Reduce的概念,然后对Map/Reduce框架的具体流程做详细的介绍。
|
|
(Web Group)
|
HBase的基础介绍 [ppt]
Abstract: HBase是Hadoop的子项目,为Hadoop提供分布式数据存储。HBase是一个基于列操作的数据表,它的三层文件结构为分布式数据存储提供可行方案,它的三层体系结构解决了分布式数据的分配及定位问题。基于和MySQL的比较,我们对HBase的性能有了更直观的理解。
|
|
(Web Group)
|
C-DBLP开发进展及规划展望
Abstract: 自C-DBLP对外发布以来,开发小组根据用户的反馈和研究工作的需要新加入了一些功能,并对一些研究性问题如重名区分、关系挖掘进行了研究,本次报告介绍了开发取得的进展和解决研究性问题的初步思路,并对未来的工作进行了规划。
|
|
2009.03.07 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
基于字典的近似查询匹配技术研究
Abstract: 介绍了用于近似查询的ISH方法并分析了它的优缺点,提出一种新的索引结构及相应算法,实验证明新方法的效率显著优于ISH。
|
|
(XML Group)
|
字符串相似度
Abstract: 介绍了当前计算字符串相似度的方法,包括编辑距离和基于片段的方法。
|
|
2009.02.28 会议地点:信息楼一楼会议室
|
|
(Web Group)
|
Faceted Search [ppt]
Abstract: 对faceted search进行一个比较全面的介绍,包括概念、与navigational search和direct search的区别,同时也对faceted search的用户界面当前研究现状进行介绍。
|
|
(Web Group)
|
Facet层次结构的自动构建
Abstract: facet的层次结构是facet search系统中数据的主要组织形式,它们被用于支持系统基于facet的导航式浏览过程和对搜索结果的优化。facet层次结构的构建是在facet search研究领域中最重要的研究课题之一。由于目前的系统中facet的层次结构大都是手工建立的,我们迫切需要有一种自动构造facet层次结构的方法。本次报告介绍了W. Dakka和P. G. Ipeirotis在自动构建facet层次结构上的研究进展和成果。
|
|
2009.01.11 会议地点:信息楼一楼会议室
|
|
(XML Group)
|
XML数据管理技术研究 [ppt]
Abstract: 该报告主要介绍XML数据管理技术的主要研究点,并用简单的例子对相应的研究点进行了介绍
|
|
(XML Group)
|
图数据库系统的相关研究问题
Abstract: 这次报告主要介绍了关于图数据库系统的一些研究热点,包括索引建立,包含查询处理以及可达性计算三方面研究。
|
|
2008年及更早以前的研讨会
|