l SMAT: 稀疏矩阵向量乘法的输入自适应的自动调优器
当前多数高性能领域的应用性能都与稀疏线性系统密切相关。稀疏线性系统中最重要的核心之一是稀疏矩阵向量乘法操作(SpMV)。但以SpMV为基本的代数求解器和应用仍然具有低性能和低生产率的问题。低性能主要体现在现有的稀疏代数求解器不能根据输入矩阵的不同特征有针对性地采用相应优化方法。低生产率体现在目前SpMV的优化库中提供多种不同的算法(存储格式)接口给用户,决定哪种算法适合需要用户对比性能来决定,这给上层应用带来了障碍。
基于以上两个问题,我们提出了SpMV自动调优器(SMAT)来生成应用感知和体系结构感知的SpMV程序。SMAT的架构如图所示。我们采用离线和在线相结合的方法。根据应用和体系结构特征,在离线部分SMAT采用机器学习方法进行对大规模稀疏矩阵集的优化程序库和特征数据库进行训练,从而生成以矩阵特征为参数的学习模型和适合于给定体系结构的优化程序集。SMAT相对Intel的MKL库,SMAT取得了3.2和3.8倍的平均加速比。同时SMAT在331个测试矩阵上的准确率高达92%。该工作成果在编译与编程领域顶级会议PLDI上发表。
l 消息式内存和一体化存储
随着多核技术和云计算应用的发展,内存系统的容量和带宽成为制约系统整体性能的重要因素。我们针对高通量计算机系统中内存访问并发度高、访问粒度小、访问特征比较随机的特点,提出了一种新型的基于异步的请求和应答消息的新型访存协议。
消息式内存的体系结构如上图所示,通过采用消息式的内存交互接口,并在内存控制器、缓冲调度器引入处理逻辑,消息式内存可以灵活的支持各种内存体系上的创新技术,从而提高处理器内存通道的利用率,改进内存系统容量的可扩展性,并使处理器可适应各种新型存储器件。
在消息式内存接口的基础上我们提出了内外存统一的一体化存储体系结构,首次将内存、外存采用统一的访问方式进行管理,具有以下特征1)CPU采用统一的物理访问接口。2)采用统一的、基于单一地址空间的软件访问接口。3)支持多种异构介质的统一管理。4)数据在临近层次间一次性流动。
我们分别设计了消息式内存和一体化存储的FPGA原型验证系统系统,已发表多篇论文并申请了相关的专利群,包括专利30多项,其中5项以上已申请PCT专利或美国、欧盟专利。其中主专利转让给华为公司后获总裁奖。
l 软件可编程体系结构PARD
传统服务器架构无法同时满足资源利用率与服务质量,已对云计算等新兴应用场景带来了负面影响。例如,2013年谷歌在线数据中心利用率只有30%,但不考虑服务质量的离线批处理数据中心则能达到75%的利用率。为了解决数据中心环境下资源利用率与应用服务质量之间的矛盾,本课题基于一种全新的计算机体系结构视角——计算机可以看做是网络,提出了一种新计算机体系结构PARD(Programmable Architecture for Resource-on-Demand),将网络流量工程技术与QoS技术应用到计算机体系结构上,从而在硬件上支持资源容量隔离与性能隔离,使数据中心能在保障关键应用服务质量的前提下提高资源利用率。
PARD阶段性研究成果已在体系结构领域顶级会议ASPLOS上发表,并得到评审的高度评价,认为PARD是在体系结构支持QoS研究方向上走出了很好的第一步(a good first shot)。项目负责人包云岗副研究员收到邀请参加由UC Berkeley的David Patterson教授、EPFL的EcoCloud中心主任Babak Falsafi教授等组织在德国举行的为期一周的关于数据中心架构(Rack-scale Computing)的高端论坛Dagstuhl Seminar。PARD也得到华为的大力支持,计算所与华为联合申请了包括多个高价值专利的专利群,并将进一步合作开展PARD原型服务器的研制。
l 数据管理技术 关系型数据仓库的外存存储结构研究:我们提出利用固态硬盘支持数据仓库系统中的在线数据更新,针对固态硬盘的特点,设计了一种MaSM算法,在减少固态硬盘写操作的同时,尽量降低内存的占用,实验证明MaSM算法在保证在线数据更新速度的同时,对于同时进行的TPC-H查询操作的影响小于1%,该成果发表于期刊ACM Transactions on Database Systems’15。 关系型数据内存存储结构研究:未来计算机系统的主存预期将采用新兴的非易失存储(NVM) 技术作为现有DRAM技术的替代或补充,非易失主存和内存数据处理相结合带来了新的机遇和新的挑战。当出现掉电等瞬时故障时,系统可能通过毫秒级别的重启而恢复,从而极大地提高系统的可用性。
研究成果