内存计算说明

随着互联网、社交媒体、物联网、云计算技术的发展,全球的数据量急剧增加,新兴的信息技术和应用模式大量涌现,人类社会开始迈进大数据时代。然而,蕴含在大数据中的信息和知识具有价值密度低、分布不规律、信息隐藏深和价值发现困难等特征。随着数据量越来越大,数据种类越来越多,价值密度越来越低,如何实现快速的大数据处理成为一个亟待解决问题。近年来,内存技术(尤其是非易失内存)的快速发展,使得我们已经有可能将大数据完全(或者绝大部分)存储在内存快速访问,避免高延迟的硬盘访问,也就是所谓的内存计算。如何在内存计算的框架下平衡计算、存储和通信是需要重点解决的问题。

项目题目

国家自然科学基金重点项目面向大数据内存计算的计算机体系结构

项目说明

在大数据内存计算的框架下,一方面很大研究从软件方面给与的很多的研究,并形成了大量可用于生产环境的系统,如SparkFlink等。然而,从体系结构层次直接支持大数据内存计算模式的研究鲜有。项目认为计算、存储和通信三者有非常复杂的干涉。将大数据的存储从硬件提升到内存,将会对计算和通信带来非常复杂、微妙的影响。若仅优化存储,不对计算和通信根据存储层次的变化进行针对性的优化,大数据处理的总体速度是无法得到显著提升的。具体来说,大数据内存计算面临如下三大挑战:(1)单节点存储容量小,(2)计算实时性要求高,(3)通信频度高。综上所述,大数据内存计算存在上述等问题,往往会阻碍内存计算性能的充分发挥。

本课题基于内存计算模式,重新设计大数据硬件计算平台。以数据为驱动动态地重塑内存计算的计算结构、存储结构和通信结构。具体地说,在计算上,我们拟提出可重塑加速器架构来加速大数据内存计算的共性应用(例如机器学习、数据挖掘和数据库等),面对各种不同类型的数据都能显著缩短计算的延迟。在存储上,我们拟提出一种异质存储统一访问架构,面对不同类型的数据能有针对性地放置到不同的存储介质上又能统一地访问。在通信上,我们拟提出键值对(key-value pair)通信理论,为互联路由和互联拓扑的动态调节提供支撑。辅以专门的系统编程和平台管理方法,数据驱动的可塑体系结构能有效应对内存计算单节点存储容量小、计算实时性高、通信频繁的特点,因而能充分发挥内存计算的性能优势。

项目工作和海报

· 可重塑加速器架构

大数据内存计算存在的单节点存储容量小、计算实时性高、通信频繁等问题,往往会阻碍内存计算性能的充分发挥。这些问题的解决需要计算机体系结构的创新。鉴于大数据的多样性,我们不可能针对每类不同数据(应用、场景)一一定制硬件体系结构。我们需要提出一种硬件可塑性理论,基于此理论研发少数几个加速核,从而可以令其不再与特定的数据相关,兼具高效性和扩展性。本项目拟探索一种新型的数据驱动的可塑内存计算架构,根据数据的计算模式和放置方式,重塑计算机体系结构与系统软件,数量级地提升大数据内存计算性能和执行效率。

· 大数据异质存储统一访问架构

本项目拟针对大数据内存计算中多种存储介质同时存在的特点,探索异质存储间如何根据实现不同类型数据的一体化访问,包括基于新型存储的大数据高效能异质存储架构、基于新型存储架构的大数据文件系统、基于新型存储架构的大数据管理系统等核心问题,最终构建一个高效能的新型大数据存储系统以及高性能、高扩展的大数据管理系统。PCM是存储级内存中具备大规模应用前景的新兴存储介质,因此在本项目研究中我们也将以PCM为构建大数据内存计算存储架构的重要部分。

· 基于键值对的内存计算通信

在这方面,我们希望能够构建一套数据驱动的内存计算平台内多节点通信方法。该方法以键值对通信为出发点,整合内存计算中计算、内存、IO等不同资源协作完成计算和通信任务,为数据驱动的互联路由和互联拓扑的动态调节提供支撑。内存数据计算的通信优化理论难点在于如何抽象统一不同模式间的通信方式。数据计算的应用模式可以分为批处理计算、迭代计算、流式计算、图计算等。现有的体系结构研究针对不同的应用模式分别进行设计,没有有效地把握住数据计算通信的异同和关系,找出通信的本质问题。基于键值对通信模型,可以表达不同应用模式的计算、存储的关系,分析和重塑数据通信过程中的网络路由和拓扑结构优化通信效率。系统设计者和应用开发者可以按照该通信模式进行通信系统的设计、优化和性能分析。


Maintained by WAMDM Administrator() Copyright © 2007-2017 WAMDM, All rights reserved | 京公网安备110402430004号 | 京ICP备05066828号-1