科学大数据管理系统说明

大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使得全球科技创新已进入一个前所未有的科学大数据时代。科学大数据管理与分析水平,是能否在未来分秒必争的重大科学发现中胜出的关键。其中,超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性。这些最新天文成果发现的背后建立在海量天文数据的近乎实时产生、管理与分析的基础上,因此给目前的数据管理系统带来了新的挑战。与此同时,为了有效应对实时大规模多源数据采集带来的新型问题与挑战,亟需发展科学大数据管理的基础框架、技术和分析方法。

项目题目

国家重点研发计划云计算和大数据《科学大数据管理系统(面向特定领域的大数据管理系统)》课题二超大规模关系型数据管理关键技术及系统


项目说明

随着各种最新观测技术的出现,天文领域迎来了信息爆炸的时代,而该时代的第一波浪潮就是天文大数据的管理。进入21世纪,天文学已经进入了一个信息丰富的大数据时代,天文数据正在以TB量级甚至PB量级的速度快速增长。面对大型天文设备采集能力的增强,其背后的数据库系统主要面临3个主要挑战:多源数据的快速采集和汇聚,(2)实时瞬变源分析和发现,(3)对瞬变源或疑似瞬变源的近期历史数据低延迟查询响应。综上所述,天文数据库系统不仅面临着长期存储的问题,还面临着实时分析挑战,需要一个整体架构统一和平衡两者,以发挥数据库系统的最优性能。

本课题基于天文观测背景,设计一个超大规模关系型数据管理系统对天文领域多个数据中心千亿乃至万亿行天文星表数据进行管理。课题将科学数据管理系统细分实时部分和离线部分,实时部分侧重于异常天文数据的监控、分析和管理,离线部分侧重于大规模短时标天文数据的持久化存储,并构建摘要数据模型优化查询任务,通过流水线处理机制加速超大规模数据分析与系统性调优。主要核心技术包括:(1) 千亿行级关系数据的高效组织与持久化存储机制、(2) 基于摘要数据、优化调度的高效分布式查询方法、(3) 海量天文数据的自动化流水线式分析处理与异常发现。


项目工作

· 千亿行级关系数据的高效组织与持久化存储机制

大型天文设备能够采集的数据量庞大,如存储GWAC望远镜10年产生的数据需要7PB空间。因此,本课题结合天文领域关系型数据的主要特点,主要研究千亿级超大规模关系数据分片划分方法,设计出高可靠性、易扩展分布方案。此外,为了尽量缩短查询延迟,课题研究超大规模短时标天文数据长期存储下的时空索引方法,设计低内存消耗的索引存储方案。假设数据价值随时间而衰减,课题针对不同时期的数据,设计不同索引策略加速大规模数据索引过程和控制索引的数据粒度。

· 基于摘要数据、优化调度的高效分布式查询方法

对科学家而言,大多数分析类查询的延迟必须足够低才能满足交互式查询的需求。课题结合天文领域的数据特点,通过对大规模原始短时标天文数据典型访问模式的抽象建模与分析,研究典型摘要数据的快速生成方法及基于摘要数据的快速分布式查询方法。为了保证数据的可用性和查询的实时响应能力,课题对于分布式的查询,通过设计优化的副本放置与调度方案,可以实现负载均衡,大幅度提高数据的访问速度和查询效率。

· 海量天文数据的自动化流水线式分析处理与异常发现

天文设备的设计目的主要是用于实时观察异常天文现象,因此课题设计可以对天文大数据进行自动化处理的流水线系统,并从模型、算法、数据划分等多个角度对整个流水线进行性能优化。课题主要研究可以实时识别异常天文现象的方法,实现对异常天文现象低延迟预警的系统框架。此外课题研究大规模短时标异常天文数据的快速分布式缓存方法,以实现大规模天文数据的低延迟写操作和低内存消耗。针对实时交互式查询需求,课题研究大规模短时标的异常天文数据在缓存中的时空索引机制。


Maintained by WAMDM Administrator() Copyright © 2007-2017 WAMDM, All rights reserved