对树状结构数据的存储和查询处理进行了深入的研究,研发了一个树状结构数据管理系统Steed (System for tree structured data)。针对简单路径进行了优化,考虑了外存存储、内存数据结构、列组装算法的优化。与现有的类似系统PostgreSQL/JSON, MongoDB, Hive+Parquet相对比,Steed对于数据分析类操作普遍有10—1000倍的性能提升。成果被CCF A类会议SIGMOD 2017录用。对Density Peaks (DP)算法进行并行化的研究,提出并实现了一种基于MapReduce平台的LSH-DDP算法。在EC2云平台上的实验验证了LSH-DDP比基础的并行化方法快1.7-70倍,比前期最佳方案EDDPC提高2倍性能。与K-means聚类相比,LSH-DDP具有相似的性能,从而使DP算法的计算代价问题得到了很好的解决。成果发表在CCF A类期刊IEEE TKDE 2016上。
针对大数据的并行处理系统进行了深入的分析与综述。从数据存储和数据处理两个角度对已有的大量大数据系统进行梳理和分类,对经典的MapReduce和数据库系统进行了对比分析,总结了目前主流的大数据测试集,最后提出了未来的主流研究方向。论文发表在Proceedings of the IEEE上。提出了一种基于空间填充曲线的MPI_Alltoall集合通信算法。该算法具有缓存无关特性。相关工作已被PPoPP’17录用为Poster。面向众核架构提出了一种SpMV解决方案。通过为SpMV定制片段归约或片段Scan算法,来隐藏SpMV的计算时间,从而实现一个高效的SpMV算法。在计算精度方面,同时支持单精度及双精度。相关工作已发表在CCF B类期刊TACO上。
(2)高并行度、低能耗的众核处理器体系结构
本年度,本创新群体项目研究的多个方面都取得了重大突破,包括:机器学习加速器指令集、处理器性能评估和建模、片上网络等方向。我们提出了深度学习处理器指令集Cambricon(参见会议论文“Cambricon: An Instruction Set Architecture for Neural Networks”)被计算机体系结构领域顶级国际会议ISCA2016所接收,其评分排名所有近300篇投稿的第一名。在国际上提出了首个深度学习处理器指令集。Cambricon指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。指令集是计算机软硬件生态体系的核心。Intel和ARM正是通过其指令集控制了PC和嵌入式生态体系。该研究在深度学习处理器指令集上的开创性进展,为我国占据智能产业生态的领导性地位提供了技术支撑。此外,在国际权威杂志Communications of the ACM和IEEE MICRO发表了对深度学习处理器的全面综述,在分布式系统的IEEE TRANS 期刊中发表了关于并行处理器片上网络设计的创新结构。
针对大数据以及机器学习领域的典型算法进行了体系结构加速支持研究,主要研究进展包括:选取了大数据应用中的基本字符操作算法进行分析和热点评估,针对常用字符操作进行了加速方法及结构的设计,提出了一种基于cacheline的面向字符操作的加速方法—TCC(Text Cache Computing),该方法适应于具有地址连续性的基本操作。基于TCC方法我们还设计实现了两种加速部件,一是加速字符串操作的部件—TCSU(Text-Cache-based String Unit)。二是加速字符连续比较的部件TCCU—(Text-Cache-based Char Unit)。相关研究工作发表在第18届IEEE International Conference on High Performance Computing and Communications (HPCC)学术年会上,基于相关研究工作还申请了11项发明专利。
3.研究初步成果与影响力
在国际上提出了首个深度学习处理器指令集Cambricon(参见会议论文“Cambricon: An Instruction Set Architecture for Neural Networks”),该论文被计算机体系结构领域顶级国际会议ISCA2016接收,其评分排名所有近300篇投稿的第一名。
研究成果