::Special Issues::
CRAD Special Issue on Science Big Data Management, 2017 Vol. 54 (2)

科学数据是科研活动的输入、输出和资产,是科研人员对其所研究的客观对象相关现象的描述。以大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等为代表的新一代观测与实验装置源源不断产生巨量科学数据,将科学研究推入一个前所未有的大数据时代。这将改变人类几个世纪以来主要研究和理解相对简单、未耦合或弱耦合系统这一局面,大大增强我们详细表征和描述复杂性能力,以及分析高度耦合复杂系统动态行为的能力。可见,科学大数据管理与分析能力及水平,成为了未来在分秒必争的重大科学发现中能否胜出的关键。来自于天文学、生命科学、高能物理等应用领域的迫切需求,也正在挑战着当今所有数据管理系统的极限,成为当下科学界和数据管理领域需携手攻坚的难题。2017年《计算机研究与发展》以科学大数据为专题,结合科学大数据的特点和典型应用需求,重点关注科学大数据管理理论与方法、关键技术与系统,以及各应用领域的最新进展等。本期专题经过公开征稿,总计收到40篇论文投稿,最终收录了5篇论文,内容涉及科学大数据管理基本理论与关键技术,天文大数据、高能物理大数据、遥感大数据等领域大数据管理需求与实践,科学数据众包服务等主题。这些文章为相关领域的研究者探讨科学大数据理论基础及应用、讨论最新的突破性进展、交流新的学术思想和新方法,以及展望未来的发展趋势,提供了很好的交流机会。



黎建辉,沈志宏,孟小峰. 科学大数据管理:概念、技术与系统[链接]

杨晨,翁祖建,孟小峰,任玮,忻日辉,王春凯,都志辉,万萌,魏建彦. 天文大数据挑战与实时处理技术[链接]

程耀东,张潇,王培建,查礼,侯迪,齐勇,马灿. 高能物理大数据挑战与海量事例特征索引技术研究[链接]

李国庆,黄震春. 遥感大数据的基础设施:集成、管理与按需服务[链接]

赵江华,穆舒婷,王学志,林青慧,张兮,周园春. 科学数据众包处理研究[链接]

JOS Special Issue on Data Open and Privacy Management, 2016, Vol.27(8)

随着大数据时代的到来,数据通过开放共享将产生更大的价值,不但可以提高社会运行效率,更能激发巨大的商业价值。然而,数据开放无法避开伴随而来的更加严峻的隐私问题。随着未来数据开放程度的加深,在单一开放数据中不敏感的信息在多个行业同时开放数据后可能变成敏感信息。为了反映当前隐私保护的研究现状及最新研究成果,展示数据开放与隐私管理面临的理论和技术上的新挑战,揭示数据开放与隐私管理的研究热点及研究方向,《软件学报》和孟小峰教授、林东岱研究员两位特约编辑共同策划和组织了数据开放与隐私管理专题。



彭长根,丁红发,朱义杰,田有亮,符祖峰.隐私保护的信息熵模型及其度量方法.[链接]

王璐,孟小峰,郭胜娜.时空数据发布中的隐式隐私保护.[链接]

刘向宇,李佳佳,安云哲,周大海,夏秀峰.一种保持结点可达性的高效社会网络图匿名算法. [链接]

CRAD Special Issue on Data Fusion and Knowledge Fusion, 2016 Vol. 53 (2)

随着互联网的快速普及与发展,互联网数据以惊人的速度在全世界范围内呈现出指数级增长的态势。而数据作为客观世界在信息世界中的抽象表达,其必然带有普遍的关联性。如何从海量的异构数据中挖掘实体及其语义关联和属性,并进行知识的融合,进而构建大规模的知识图谱,为语义搜索、深度问答、文本理解等应用提供有力支撑,已成为数据管理、数据挖掘和信息抽取等领域的一个重要研究方向。相比于传统的数据集成,在面向大规模的数据和知识融合过程中,融合算法的效率、多源数据的数据质量评估和基于语义的数据和知识融合等都给现有的数据集成和知识融合技术带来了巨大的挑战。2016年《计算机研究与发展》数据融合和知识融合专题侧重大规模数据和知识的抽取、融合及应用等诸多方面,涉及到数据管理、信息抽取和知识工程等多个交叉学科领域,研究主题包括数据与知识抽取技术、歧义性消除、数据与知识融合技术、数据与知识建模、关联知识库的应用等。本期专题经过公开征文收到43篇投稿,并最终收录了7篇论文,内容涉及实体抽取、实体链接、数据融合与溯源、短文本理解、数据查询、知识表示等主题,为相关领域的研究者探讨面向大数据的数据融合和知识融合的基础理论研究及其应用、讨论该领域内最新的突破性进展、交流新的学术思想和新方法以及展望未来的发展趋势提供了很好的沟通和交流机会。



孟小峰,杜治娟. 大数据融合研究:问题与挑战.[链接]

刘知远,孙茂松,林衍凯,谢若冰. 知识表示学习研究进展.[链接]

王仲远,程健鹏,王海勋,文继荣. 短文本理解研究. [链接]

刘峤,钟云,李杨,刘瑶,秦志光.基于图的中文集成实体链接算法. [链接]

甘丽新,万常选,刘德喜,钟青,江腾蛟. 基于句法语义特征的中文实体关系抽取. [链接]

付雪峰,漆桂林,张勇. 基于图的不一致容忍语义下的查询应答方法. [链接]

薛见新,申德荣,寇月,聂铁铮,于戈. 面向数据融合的半环溯源计算方法. [链接]

CRAD Special Issue on Big Data Management, 2015 Vol. 52 (2)

当下大数据的产生主要源于人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于如何帮助人们解释复杂的社会行为和结构,以及提高人们生产制造的能力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下3方面的内涵,即:大数据的“深度”、大数据的“广度”、以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”。而数据的“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面。大数据的“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”等。面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”、“深度”、“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。



孟小峰,张啸剑. 大数据隐私管理.[链接]

李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍.分布式大数据函数依赖发现.[链接]

余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞.Web大数据环境下的不一致跨源数据发现. [链接]

张晓航,李国良,冯建华.大数据群体计算中用户主题感知的任务分配. [链接]

崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述. [链接]

陈世敏.大数据分析与高速数据更新. [链接]

吴章玲,金培权,岳丽华,孟小峰.基于PCM的大数据存储与管理研究综述. [链接]

骆歆远,陈刚,伍赛.基于GPU加速的超精简型编码数据库系统. [链接]

丁有伟,秦小麟,刘亮,王涛春.一种异构集群中能量高效的大数据处理算法.[链接]

于静,刘燕兵,张宇,刘梦雅,谭建龙,郭莉.大规模图数据匹配技术综述[链接]

蓝梦微,李翠平,王绍卿,赵衎衎,林志侠,邹本友,陈红.符号社会网络中正负关系预测算法研究综述.[链接]

刘冶,朱蔚恒,潘炎,印鉴.基于低秩和稀疏矩阵分解的多源融合链接预测算法[链接]

朱湘,贾焰,聂原平,曲铭.基于微博的事件传播分析[链接]

JOS Special Issue on Big Data, 2014, Vol.25(4)

随着信息技术的不断发展,以及云计算、物联网、社交网络等新兴技术和服务的不断涌现和广泛应用,数据种类日益增多,数据规模急剧增长,大数据时代悄然来临。 为了实现对大数据的高效存储管理和快速分析,云计算、内存计算、流计算等新兴技术不断涌现;同时,为了实现对不同类型数据的有效管理,产生了文档数据库、图数据库、列存储、键值数据库等不同的数据管理方法;同时,自然科学、社会科学等不同学科的研究人员开始探讨本领域在大数据场景下所面临的挑战和机遇,并逐步尝试利用大数据思维将不同学科进行交叉、不同领域的数据进行集成管理和分析,以期得到新的重大发现。为了反映大数据在不同学科和领域的研究现状及最新研究成果,展示大数据面临的理论和技术上的新挑战,揭示大数据的研究热点及研究方向,《软件学报》和孟小峰、高宏等共同策划和组织了“大数据专题”。



何进荣,丁立新,李照奎,胡庆辉.基于边界判别投影的数据降维.[链接]

郭迟,刘经南,方媛,罗梦,崔竞松.位置大数据的价值提取与协同挖掘方法.[链接]

宋杰,郭朝鹏,王智,张一川,于戈,Jean-Marc PIERSON.大数据分析的分布式MOLAP技术. [链接]

朱阅岸,张延松,周烜,王珊.一个基于三元组存储的列式OLAP查询执行引擎. [链接]

李鸣鹏,高宏,邹兆年.基于图压缩的k可达查询处理. [链接]

崔颖安,李雪,王志晓,张德运.社会化媒体大数据多阶段整群抽样方法. [链接]

付艳艳,张敏,冯登国,陈开渠.基于节点分割的社交网络属性隐私保护. [链接]

慈祥,马友忠,孟小峰.一种云环境下的大数据Top-K查询方法. [链接]

王璐,孟小峰.位置大数据隐私保护研究综述. [链接]

CRAD Special Issue on Social Computing, 2013 Vol. 50 (2)

社会计算是计算机科学、计算物理学、管理学、经济学、传播学、社会学等多学科的交叉研究科学.社会计算针对社会需求收集、整理和分析有关的大数据,以便对社会现象进行规划、监控、解释和预测,为人类解决复杂性社会问题提供理论指导.社会计算始于20世纪50年代哈佛大学的社会关系研究,此后在计算机和互联网技术迅猛发展的推动之下,逐渐形成了社会科学与自然科学跨学科研究领域,出现了社会网络分析、计算社会科学、社会控制论等交叉学科.近年来,随着 Web2.0的蓬勃发展和大数据的涌现,在线社会网络分析和社会媒体挖掘引起了学术界广泛关注.目前随着研究的深入和应用的扩展,社会计算不断面临理论和技术层面上新的挑战,例如学科间统一的理论指导问题、跨学科的协作与训练问题、大数据问题等



孟小峰, 李勇, 祝建华. 社会计算:大数据时代的机遇与挑战.[链接]

王莉, 程苏琦, 沈华伟, 程学旗. 线社会网络共演化的结构推断与预测.[链接]

杨海陆,张健沛,杨静. 基于结构冗余性校准的在线式社会网络压缩. [链接]

朱牧孟凡荣周勇.基于链接密度聚类的重叠社区发现算法. [链接]

郭迟, 方媛, 刘经南, 万怡. 位置服务中的社会感知计算方法研究. [链接]

冯翔,马美怡,施尹,虞慧群.基于社会群体搜索算法的机器人路径规划. [链接]

万常选江腾蛟钟敏娟边海容. 基于词性标注和依存句法的Web金融信息情感计算. [链接]

李素科,蒋严冰. 基于情感特征聚类的半监督情感分类. [链接]

刘箴金炜黄鹏柴艳杰.人群拥挤事件中的一种情绪感染仿真模型研究. [链接]

云健刘向东刘勇奎. 文化认同及文化版图演化现象的社会计算模型. [链接]

JCST Special Issue on Cloud Data Management, 2013 Vol. 28 (6)

Cloud computing and big data have become increasingly popular and are changing our way of thinking about the world by providing new insights and creating new forms of value. The research of cloud data management is to address the challenges in managing large collections of data in the cloud computing environment, and identifying information of value to business, science, government, and society. The huge volumes of data in cloud computing environments pose major infrastructure challenges, including data storage at Petabyte scale, massively parallel query execution, facilities for analytical processing, online query processing, resource optimization, data privacy and security. [more] http://jcst.ict.ac.cn:8080/jcst/EN/abstract/abstract9657.shtml Ticiana L. Coelho da Silva, Mario A. Nascimento, José Antônio F. de Macêdo, Flávio R. C. Sousa, and Javam C. Machado.Non-Intrusive Elastic Query Processing in the Cloud



Peng Xiao, Zhi-Gang Hu, and Yan-Ping Zhang. An Energy-Aware Heuristic Scheduling for Data-Intensive Workflows in Virtualized Datacenters.[链接]

Ming-Dong Zhu, De-Rong Shen, Yue Kou, Tie-Zheng Nie, and Ge Yu. A Framework for Supporting Tree-Like Indexes on the Chord Overlay.[链接]

Ying-Jie Shi, Xiao-Feng Meng, Fusheng Wang, and Yan-Tao Gan. HEDC++:An Extended Histogram Estimator for Data in the Cloud. [链接]

Yu-Xiang Wang, Jun-Zhou Luo, Ai-Bo Song, and Fang Dong. Partition-Based Online Aggregation with Shared Sampling in the Cloud. [链接]

Yin-Jin Fu, Nong Xiao, Xiang-Ke Liao, and Fang Liu. Application-Aware Client-Side Data Reduction and Encryption of Personal Data in Cloud Backup Services. [链接]


JCST Special Issue on Trends Changing Data Management, 2010 Vol. 25 (3) (3)

Information explosion and advances in computing hardware have brought forth a new generation of applications on the Internet and on mobile devices that are poised to transform the way we work and play. One of the biggest challenges for the database community is to better support the ubiquity of big data in the Internet age. This calls for new data management solutions that traditional DBMSs cannot provide. The JCST {Special Section on Trends Changing Data Management} aims at bringing together researchers in data management to discuss the state of the database research and its impacts on practice. The special section has received enthusiastic responses. The topics of submitted papers ranged from flash memory databases to cloud databases. After careful review, we have accepted 13 papers, each of which has high technical quality and collectively cover a wide range of topics that reflect new trends in data management.


Bin Wang, Xiao-Chun Yang, Guo-Ren Wang and Ge Yu. Outlier Detection over Sliding Windows for Probabilistic Data Streams.[链接]

Hui Wang. Privacy-Preserving Data Sharing in Cloud Computing.[链接]

Yu-Ling Hsueh, Roger Zimmermann, and Wei-Shinn Ku. Efficient Location Updates for Continuous Queries over Moving Objects[链接]

Jin Huang, Feng Zhao, Jian Chen, Jian Pei, and Jian Yin. Towards Progressive and Load Balancing Distributed Computation: A Case Study on Skyline Analysis[链接]

Li-Jun Chang, Jeffrey Xu Yu, and Lu Qin. Context-Sensitive Document Ranking. [链接]

Charu C. Aggarwal, Chen Chen, and Jiawei Han. The Inverse Classification Problem [链接]

Ai-Hua Wu, Zi-Jing Tan, and Wei Wang. Annotation Based Query Answer over Inconsistent Database. [链接]

Zu-Jie Ren, Ke Chen, Li-Dan Shou, Gang Chen, Yi-Jun Bei, and Xiao-Yan Li. HAPS: Supporting Effective and Efficient Full-Text P2P Search with Peer Dynamics [链接]

Xin Wang, Lin-Peng Huang, Yi Zhang, Xiao-Hui Xu, and Jun-Qing Chen. A Solution of Data Inconsistencies in Data Integration --- Designed for Pervasive Computing Environment. [链接]

Sai Tung On, Haibo Hu, Yu Li, and Jianliang Xu. Flash-Optimized B+-Tree. [链接]

Ying-Yuan Xiao, and Yue-Guo Chen. Efficient Distributed Skyline Queries for Mobile Applications. [链接]

Yong-Quan Dong, Qing-Zhong Li, Yan-Hui Ding, and Zhao-Hui Peng. A Query Interface Matching Approach Based on Extended Evidence Theory for Deep Web. [链接]

Hong Zhu, Ge Fu, Yu-Cai Feng, and Kevin Lü. Dynamic Damage Recovery for Web Databases. [链接]

Ling-Qiang Ran and Xiang-Xu Meng. Geometry Texture Synthesis Based on Laplacian Texture Image. [链接]

JOS Special Issue on Data Integration of Deep Web, 2008, Vol.19(2)

随着World Wide Web的飞速发展,出现了越来越多的可以在线访问的数据库,我们把这些数据库称作Web数据库。据统计,目前Web数据库的数量已经超过了45万个,在此基础上构成了Deep Web。Deep Web 蕴含了大量有用的信息,其价值远远超过了仅由网页构成的 Surface Web。但由于对 Web 数据库的访问只能通过其提供的查询接口,因此很难被一般的搜索引擎获取到。由于 Deep Web 的大规模性、动态性以及异质性等特点,通过手工方式远远不能在效果和效率上满足用户对信息获取的需要。为了帮助人们快速、准确地利用 Deep Web中的海 量信息,研究者们已经在Deep Web数据集成方面展开了研究。为了推动 Deep Web 数据集成在国内的进展,本专刊关注于当前国内在该研究领域最新的基础性、前瞻性、战略性的重大理论问题和关键技术的问题,目的在于为大家展示当前该领域的研究状况和最新的研究成果,为该领域的研究者们提供一个相互学习交流、借鉴指导的机会。



宋 杰,王大玲,鲍玉斌,申德荣.基于页面Block的Web档案采集和存储.[链接]

马 军,宋 玲,韩晓晖,闫 泼.基于网页上下文的Deep Web数据库分类.[链接]

徐和祥,王鑫印,王述云,胡运发.基于知识的Deep Web集成环境变化处理的研究. [链接]

王 辉,刘艳威,左万利.使用分类器自动发现特定领域的深度网入口. [链接]

袁 柳,李战怀,陈世亮.基于本体的Deep Web数据标注.[链接]

凌妍妍,孟小峰,刘 伟.基于属性相关度的Web数据库大小估算方法. [链接]

杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法. [链接]

寇 月,申德荣,李 冬,聂铁铮.一种基于语义及统计分析的Deep Web实体识别机制. [链接]

刘 伟,孟小峰,凌妍妍.一种基于图模型的Web数据库采样方法. [链接]