当前位置 >>  首页 >> 研究成果 >> 科研项目

2014年代表性研究工作进展

撰稿: 摄影: 发布时间:2014年12月26日
高通量服务器的硬件方面,在芯片、内存、存储、系统集成等一些关键领域,实现单点技术突破,具体包括:(1)提出计算和通信融合的扁平式系统架构,通过对数据中心资源的动态组合,利用定制通信协议,现成高效的虚拟资源池,满足不同应用的需求。(2)成功设计、完成了世界上第一款自主研发的基于ARMv8架构的四路同时多线程处理器芯片。该芯片能够运行linux操作系统和应用程序。基于该处理器,项目组还开发了配套的系统软件,包括千核万线程模拟器、BIOS、Linux操作系统和C函数库,形成了一套完整的软件开发平台。(3)设计与验证定制通信协议,支持动态可定义的多种路由机制、多种数据传输方式,传输延迟仅为PCIe3的83%、InfiniBand(Mellanox FDR)的36%、10GE(NetEffect NE020)的3.5%,能达到与IB/Ethernet相同的大包传输带宽以及数倍提升的小包传输带宽。(4)成功研制消息式内存原型系统,在同一处理器平台下(ARM Cortex A9)的总线利用率大幅提升,其中细粒度随机访问提高2.7倍,顺序访问提高1.5~3.4倍。(5)设计与实现一体化存储原型系统,能同时支持DRAM、Flash以及SATA,并能实现3.8GB/s的读写带宽(4MB)以及500,000的8KB随机IOPS,并且容量支持1TB Flash以及16TB磁盘。(6)设计与实现分布式Key-Value存储系统,比LevelDB吞吐量提高1.5-2倍,比RocksDB性能提高2-3倍。(7)设计出第一个真正意义的Scale-free数据中心网络,采用物理拓扑与逻辑拓扑分离设计方案,物理拓扑采用2D mesh拓扑,逻辑拓扑采用SDN可配置的Random Jellyfish拓扑,可使初始构造成本具有数量级优势。

高通量服务器的软件方面,在数据中心操作系统、大数据处理的编程环境、芯片内异构多核的编程环境、芯片内编译支撑环境等关键领域,实现单电技术的突破,具体包括:(1)开发RainForest操作系统,采用No Hypervisor架构,避免Hypervisor带来的开销,挖掘众核平台的潜能,针对内存计算应用,较Xen提升2.5倍,对于服务类应用,Tail-latency受干扰程度度小于2%(Xen 大于10%)。(2)设计开发了面向异构平台的编程环境Hadoop+,能够无缝的利用CPU、GPU等不同类型的计算资源,并根据CPU和GPU的处理速度划分数据通路资源,Hadoop+在数据挖掘领域比Hadoop平均快10倍以上。(3)基于Hadoop+实现了面向图算法和大数据查询两个领域的领域编程环境,图算法方面关注近似算法的设计和编程支撑,大数据查询领域关注跨查询的任务生成优化。在图算法方面比GraphLab快20倍以上,在大数据查询领域比Hive快2倍以上。(4)设计开发了面向异构平台的编程环境OpenCL+,已经能够支持X86多核、nVIDIA GPU、Intel MIC、Tilera、DPU等多核芯片。(5)设计开发了面向ARMv8处理器芯片的编译器,在iPad上针对典型的高通量应用benchmark,该编译器比Apple的商用编译器性能高10%以上。

高端计算体系结构方向,传统的指令集(ISA)抽象体系结构接口无法传递更多应用信息到底层硬件(如安全级别、QoS需求等),导致硬件无法区分不同安全级别或不同QoS需求的应用,从而在硬件层次出现应用间相互干扰。传统抽象接口的不足已对云计算、互联网等新兴应用场景带来了负面影响。例如,2013年Google最新数据表明包含在线应用的数据中心CPU利用率依然只有30%左右,但不考虑QoS、只运行离线批处理作业的数据中心则能达到75%的CPU利用率。我们通过分析数据中心环境下资源利用率与应用服务质量之间的矛盾及其原因,提出一种新计算机体系结构PARD(Programmable Architecture for Resource-on-Demand)。PARD核心思想是将计算机看作是小型网络,将软件定义网络SDN思想应用到计算机体系结构,在计算机硬件资源管理机制中引入网络QoS技术,提供新的接口运行应用将高层语义信息传递到底层硬件,从而在硬件上支持资源容量隔离与性能隔离,使数据中心能在保障关键应用服务质量的前提下提高资源利用率。PARD工作已被计算机系统领域顶级会议ASPLOS 2015录用,被认为“在此极其重要与困难的方向上迈出了第一步”。PARD项目负责人包云岗副研究员因此受邀参加由UC Berkeley的David Patterson教授以及EPFL的BabakFalsafi教授等组织的面向数据中心的2015年度国际顶级论坛Dagstuhl Seminar(该论坛只有受邀才能参加,在全世界只邀请领域内约40位专家)。

处理器体系结构方向方面,主要进行多核/众核处理器架构与微结构研究与设计。面向媒体大数据应用的高通量众核处理器DPU-m成功流片。该芯片采用TSMC 40nm工艺,芯片面积54 mm2,处理器主频800MHz,含有220个处理部件,单芯片功耗不超过3W。基于DPU-m众核处理器研制的高通量媒体大数据处理加速卡,在视频数据编解码处理器方面,单卡性能与现今视频数据处理领域的主流服务器Intel的Sandy Bridge 4核相比,性能可达其的5倍以上,而功耗仅为其20%,整体性能功耗比提升20倍以上。SimICT模拟框架是目前国内第一个支持千核万线程规模模拟的模拟平台,其模拟速度远高于学术界主流的GEM5模拟器。SimICT具有灵活、快速、可扩展的特点,在灵活性方面,支持标准的模块化设计,方便模块的复用,在速度方面,SimICT支持快速的自动并行化,在可扩展方面,SimICT支持千核万线程规模,并可通过标准接口集成现有的模型。目前,SimICT模拟平台在航天的多个核心部门得到应用,包括我国自主研发的航天操作系统在内的众多软件在模拟平台上得到充分验证。此外,SimICT模拟平台也广泛应用到了华为的实际产品研发中。

编译与编程方向的研究聚焦在计算机体系结构的核心问题——面向存储层次的性能优化上,在片内缓存、片间通信、片外存储等方面取得了一系列突破,突出的研究成果有:提出新的内存系统“垂直”管理优化的方法,实现了“应用与体系结构特征”敏感的内存管理机制,有利于提高多核异构系统的性能;受制造工艺的影响存储带宽已成为制约系统性能发挥的核心瓶颈,我们提出了基于带宽的调度策略,既兼顾吞吐率又提升了系统的公平性。相关研究成果发表在ISCA、ASE、DATE等学术会议,以及TPDS、TACO等国际知名期刊上。

在VLSI与容错方面,围绕VLSI 测试验证、可靠性设计、容错和可重塑体系结构等开展深入研究,取得的突出进展如下:1)在VLSI测试验证方面,提出了基于马尔科夫链分析的功能测试生成方法,为时序电路状态机的激励生成提供了一个新思路;2)在可靠性设计方面,针对多核处理器的热效应问题,提出一种功耗容量估算模型和功耗分配方法,在满足热效应约束的前提下显著优化了程序性能。3)在容错体系结构方面,提出了在芯片低功耗态下的存储器容错和互连容错技术,显著降低了系统的功耗;4)在可重塑体系结构方面,基于应用分类的异构体系结构设计方法,完成了一款基于OpenCV的视觉函数芯片FPGA原型。相关研究成果发表在DAC、ICCAD、DATE等国际知名会议,以及IEEE Trans. on VLSI Systems等国际知名期刊上。

在非传统体系结构方面,理论上通过硬件对神经网络结构的适配,提出了世界上学习速度最快的深度学习芯片。在32位运算下,达到1000GOPS/W的性能功耗比。支持任意规模多种神经网络算法。以1/10的功耗达到同期的主流CPU(Xeon E5-4620)的100倍性能,以1/100的功耗达到同期的主流GPU(K20M)同样的性能。2014年完成了该结构处理器的版图设计,采用65 nm工艺,包含不少于4个可塑加速核。在神经网络应用(CNN、DNN、MLP)上RTL仿真和网表仿真的峰值运算能力达到1TOPS/W;搭建了基于FPGA的可重塑处理器验证平台,能运行MLP、CNN、DNN类型神经网络算法。并将完成功能测试片流片,采用65nm工艺,功耗不超过20W,目前进入物理设计阶段,预计6月前流片。相应研究处于国际领先水平,获得顶级会议ASPLOS'14和MICRO'14年度最佳论文。


序号 成果名称 完成人 刊物、出版社或授权单位名称 年、卷、期、页或专利号 类型 类别 研究
方向
1 DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning(Best Paper) Tianshi Chen, Zidong Du, Ninghui Sun, Jia Wang, Chengyong Wu, Yunji Chen, and Olivier Temam Proceedings of 19th International Conference on Architectural Support for Programming Languages and Operating Systems  (ASPLOS'14) 269-284, 2014 论文 独立
完成
非传统体系结构方向
3 DaDianNao: A Machine-Learning Supercomputer
(Best Paper)
Yunji Chen, Tao Luo, Shaoli Liu, Shijin Zhang, Liqiang He, Jia Wang, Ling Li, Tianshi Chen, Zhiwei Xu, Ninghui Sun, and Olivier Temam Proceedings of 47th IEEE/ACM International Symposium on Microarchitecture (MICRO'14) 609-622, 2014 论文 独立 完成 微体系结构
方向
2 ArchRanker: A Ranking Approach to Design Space Exploration Tianshi Chen, Qi Guo, Ke Tang, Olivier Temam, Zhiwei Xu, Zhi-Hua Zhou, andyunji Chen The 41st International Symposium on Computer Architecture (ISCA'14) 255-267,2014 论文 独立 完成 非传统体系结构方向
4 An8-Core MIPS-Compatible Processor in 32/28 nm Bulk CMOS Weiwu Hu, Liang Yang, Baoxia Fan, Huandong Wang, Yunji Chen IEEE Journal of Solid-State Circuits(JSSC) Vol.49,No.1,Jan.2014 pp.41-49 论文 独立 完成 微体系结构
方向
5 Thermal-Sustainable Power Budgeting for Dynamic Threading Xing Hu, Yi Xu, Jun Ma, Guoqing Chen,  Yu Hu and Yuan Xie Design Automation Conference (DAC 2014) June,2014 论文 第一完成人(非独立完成) VLSI与容错
方向
6 Test-Quality Optimization for Variable n-Detections of Transition Faults Dawen Xu, Huawei Li,AmiraliGhofrani,K.-T. Cheng,Yinhe Han, Xiaowei Li IEEE Transactions on Very Large Scale Integration Systems (TVLSI) Vol.22, No.8, pp.1738-1749, 2014 论文 第一完成人(非独立完成) VLSI与容错
方向
7 BPM/BPM+: Software-based Dynamic Memory Partitioning Mechanisms for Mitigating DRAM Bank-/Channel-level Interferences in Multicore Systems Lei Liu, Zehan Cui, Yong Li, YungangBao, Mingyu Chen, Chengyong Wu ACM Transactions on Architecture and Code Optimization  (ACM TACO) Vol.11,2014 论文 独立 完成 编译和编程
方向
8 Performance Portability Across Heterogeneous SoCs Using a Generalized Library-Based Approach Shuangde Fang, Zidong Du, Yuntan Fang, Yuanjie Huang, Yang Chen, LievenEeckhout, Olivier Temam, Huawei Li, Yunji Chen, and Chengyong Wu ACM Transactions on Architecture and Code Optimization(ACM TACO) 11(2): 1544-35662014 论文 第一完成人(非独立完成) 编译和编程
方向
9 HMTT: A Hybrid Hardware/Software Tracing System for Bridging theDRAM Access Trace’s Semantic Gap Yongbing Huang, Licheng Chen, Zehan Cui, Yuan Ruan, YungangBao, Mingyu Chen, and Ninghui Sun ACM Transactions on Architecture and Code Optimization(ACM TACO) Vol.11 (1) Feb. 2014,Article No.7 论文 第一完成人(非独立完成) 高端计算体系结构
方向
10 A high-performance and cost-efficient interconnection network for high-desity servers WentaoBao, Binzhang Fu, Mingyu Chen, Lixin Zhang Journal of Computer Science and Technology(JCST) Vol. 29 (2):281- 292 论文 独立 完成 高端计算体系结构
方向
附件下载: