您当前的位置:首页 > 研究成果 > 科研项目 >
创新群体第三期研究进展情况
时间:2017-02-22 03:47:00      点击 :次      来源:      收藏

1. 研究进展总体情况
本年度是创新群体延续的第一年,在创新群体项目的资助下,各项进展顺利,共发表论文49篇,其中SCI期刊论文14篇,EI期刊和国际会议论文40篇,申请专利24项,出版中文专著1部,做特邀报告3人次;团队在体系结构基础研究领域的活跃度处于国际前列,研究成果在国际上产生了重要影响力。下面我们将具体介绍本项目五个方向进展情况。

2. 各方向研究进展情况
(1)高效能计算机体系结构以及设计方法
为把握“人机物”三元融合的发展趋势和机遇,从2012年启动“海云计算系统”研究工作,其目标是针对万物互联所产生的并发度提升10倍、能效提升100倍需求,研究创新的处理器芯片与服务器系统。相比通用处理器,面向智能应用的可重塑处理器能效比提高两个数量级,突破了智能计算芯片体系结构设计的“功耗墙”问题,成为目前智能芯片设计主流架构之一,多次获得国际顶级学术会议最佳论文,开辟了计算机体系架构可编程定制硬件的新方向。通过数据通路软硬件全栈优化处理技术,海云服务器在运行家电物联网服务时,平均单节点支持的并发度相比传统商用服务器提升10倍,实现了服务器整机层次上效能比的大幅提升,高效支撑百亿级海量终端并发服务的快速响应。

对树状结构数据的存储和查询处理进行了深入的研究,研发了一个树状结构数据管理系统Steed (System for tree structured data)。针对简单路径进行了优化,考虑了外存存储、内存数据结构、列组装算法的优化。与现有的类似系统PostgreSQL/JSON, MongoDB, Hive+Parquet相对比,Steed对于数据分析类操作普遍有10—1000倍的性能提升。成果被CCF A类会议SIGMOD 2017录用。对Density Peaks (DP)算法进行并行化的研究,提出并实现了一种基于MapReduce平台的LSH-DDP算法。在EC2云平台上的实验验证了LSH-DDP比基础的并行化方法快1.7-70倍,比前期最佳方案EDDPC提高2倍性能。与K-means聚类相比,LSH-DDP具有相似的性能,从而使DP算法的计算代价问题得到了很好的解决。成果发表在CCF A类期刊IEEE TKDE 2016上。

针对大数据的并行处理系统进行了深入的分析与综述。从数据存储和数据处理两个角度对已有的大量大数据系统进行梳理和分类,对经典的MapReduce和数据库系统进行了对比分析,总结了目前主流的大数据测试集,最后提出了未来的主流研究方向。论文发表在Proceedings of the IEEE上。提出了一种基于空间填充曲线的MPI_Alltoall集合通信算法。该算法具有缓存无关特性。相关工作已被PPoPP’17录用为Poster。面向众核架构提出了一种SpMV解决方案。通过为SpMV定制片段归约或片段Scan算法,来隐藏SpMV的计算时间,从而实现一个高效的SpMV算法。在计算精度方面,同时支持单精度及双精度。相关工作已发表在CCF B类期刊TACO上。

(2)高并行度、低能耗的众核处理器体系结构
本年度,本创新群体项目研究的多个方面都取得了重大突破,包括:机器学习加速器指令集、处理器性能评估和建模、片上网络等方向。我们提出了深度学习处理器指令集Cambricon(参见会议论文“Cambricon: An Instruction Set Architecture for Neural Networks”)被计算机体系结构领域顶级国际会议ISCA2016所接收,其评分排名所有近300篇投稿的第一名。在国际上提出了首个深度学习处理器指令集。Cambricon指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。指令集是计算机软硬件生态体系的核心。Intel和ARM正是通过其指令集控制了PC和嵌入式生态体系。该研究在深度学习处理器指令集上的开创性进展,为我国占据智能产业生态的领导性地位提供了技术支撑。此外,在国际权威杂志Communications of the ACM和IEEE MICRO发表了对深度学习处理器的全面综述,在分布式系统的IEEE TRANS 期刊中发表了关于并行处理器片上网络设计的创新结构。

针对大数据以及机器学习领域的典型算法进行了体系结构加速支持研究,主要研究进展包括:选取了大数据应用中的基本字符操作算法进行分析和热点评估,针对常用字符操作进行了加速方法及结构的设计,提出了一种基于cacheline的面向字符操作的加速方法—TCC(Text Cache Computing),该方法适应于具有地址连续性的基本操作。基于TCC方法我们还设计实现了两种加速部件,一是加速字符串操作的部件—TCSU(Text-Cache-based String Unit)。二是加速字符连续比较的部件TCCU—(Text-Cache-based Char Unit)。相关研究工作发表在第18届IEEE International Conference on High Performance Computing and Communications (HPCC)学术年会上,基于相关研究工作还申请了11项发明专利。

(3)片上并行系统的测试与高可靠设计方法
在集成电路和容错计算方向,本年度共发表论文17篇,其中SCI期刊论文6篇,EI期刊和国际会议论文11篇,申请专利5项。取得的主要创新性成果包括:1)提出了一种面向深度学习的加速器芯片自动综合工具Deepburning,为应用自动生成支持任意参数的卷积神经网络硬件加速器电路,有效缓解了深度学习硬件加速器设计周期长、目标算法更新快带来的设计难题。2016年基于该工具参加IEEE Rebooting组织的DAC低功耗图像识别竞赛(LPIRC)获得全部两项冠军。2)提出了一种模型检验的状态覆盖率评估方法,一方面纠正了以往近似计算方法中的漏算(覆盖率低估),达到准确计算覆盖率,另一方面将以往方法仅能处理ACTL公式扩展到能够处理所有CTL公式,有效提高了状态覆盖率评估的处理能力。3)提出了一种面向近阈值计算处理器的任务映射与电压调制技术,利用在线的程序特性监测对现成的故障容忍能力进行排序,同时结合离线的软件测试方法得到不同处理器核的故障分布,然后通过程序与处理器核心的匹配映射,找到最可靠的线程映射方法,提升可靠性的同时最小化多核处理器运行功耗。4)提出了一种基于核性能等效的处理器性能优化方法CoreRank,通过一些典型的微指令流(snippet)来测试处理器核的“健康”状况,能够有效的隐藏处理器核的性能降级。5)提出了面向物理不可克隆函数(PUF)硬件安全模块的攻、防、检方法,包括基于复合启发式算法的PUF安全性评估方法,证实了若干新型PUF未达预期安全性;基于随机数发生器的外围防护电路设计,能有效提高PUF的安全等级;基于统计分析的PUF故障诊断方法,能精准定位故障。

(4)高性能计算机的并行编程和优化
在性能优化方面:首先,针对数据中心混合负载的场景,我们采用了回归分析的方法来预测多核芯片上的核间性能干扰模型。我们的方法不仅能够获得不超过1%的预测误差,而且能够在体系结构的特征层面解释应用程序在混合运行时所表现出的竞争性和敏感性。该研究成果为数据中心混合负载应用的性能优化解决了一个关键性问题。 其次,针对图计算自身特征对性能及优化措施的显著影响,我们将编译优化思想用于图算法优化,提出一种冗余计算消除的介度中心算法,消除公共DAG子图带来的冗余,从而大幅度提高算法效率。实验结果显示,该算法比目前最快的介度中心算法快4.6倍。在软件正确性和安全性保障方面:为权衡缺陷定位的效率与精度,我们提出最小调试边界(简称MDFS)的概念,并以该概念为基础,设计了围绕符号替换的自动缺陷定位方法(简称MDFS方法)。实验表明,该方法相对于经典的基于状态替换以及基于变异的缺陷定位技术,能够更精确、高效地定位Linux应用程序(如:Grep)中的真实缺陷。在软件安全方面,我们提出了代码持续随机化技术,即通过持续地变换代码布局,阻止攻击者获取目标程序的有效代码。实验表明该系统不仅开销非常低(低于9%)而且还能够有效阻止Nginx内存泄露攻击。

3.研究初步成果与影响力
在国际上提出了首个深度学习处理器指令集Cambricon(参见会议论文“Cambricon: An Instruction Set Architecture for Neural Networks”),该论文被计算机体系结构领域顶级国际会议ISCA2016接收,其评分排名所有近300篇投稿的第一名。

与华为公司继续开展第三期深入合作,实现了支持NoHype与QoS的统一可编程体系结构;协助华为海思部门探索验证Set-sampling标签技术和令牌桶带宽限制机制等前沿技术,实现对工业界的技术辐射和影响;设计实现数据中心QoS管理软件框架DRAL,对接知名开源项目Openstack,实现向开源社区推进技术辐射,同时向国际DMTF组织推进支持QoS的云计算软件栈标准。项目最终向华为申请通过6项专利,其中2项被评为高价值专利成果。