一、简介
计算机体系结构国家重点实验室是我国计算机系统结构领域的重要科研基地之一。它的主要任务是研究和发展计算机系统结构相关领域的基础理论和关键技术。现阶段重点围绕超并行计算机系统和多核处理器开展基础研究和高技术前沿探索,为高性能计算机系统和高性能处理器设计领域的发展持续提供创新方法和关键技术。为提高实验室的开放层次,提高学术水平和技术水平,增进国内外学术交流与合作,促进人才流动与学科交叉渗透,特设开放研究课题。欢迎国内外相关领域的科研工作者参与实验室的开放课题研究。
二、指南的制定原则
为促进计算机系统结构领域内的新理论、新思想和新技术、新方法的发展,加强国内外学术思想与人才的交流,本实验室特设立开放研究课题,资助有关人员来本实验室从事计算机系统结构的基础理论、关键技术研究和应用基础研究。
指南的制定原则如下:
1、根据我国计算机系统结构领域的发展战略,着眼于国民经济建设的当前和长远的需要和国际学科发展的前沿;
2、鼓励具有开拓性、前瞻性、创造性和高层次理论和技术的自主创新研究及具有重大应用前景的项目;
3、利于促进多学科的交叉渗透和多部门的联合攻关,有利于建立和发展国际合作的新格局,有利于人才培养和学科的发展;
4、鼓励和支持具备博士学位、高级职称的国内外科技工作者;
5、资助项目的申请者要求与本室科研人员协同工作。
三、本年度建议开放课题的研究方向
本年度建议开展课题如下(可不限于以下课题):
题目1: 面向机场运输安全的高可靠目标检测方法
研究内容: 随着民航机场运输周转量、货邮运输量的大幅增加,对机场运行效率和安全性的要求也在不断提高。在地面保障系统中,地面运输车负责承载相当体量的货邮、行李在机场机坪、滑行道等区域长距离运输的工作。为了保证运输效率,单次运输的货邮量不能过少,然而每次承载的物品体积、外观形状均不一致,在不间断作业过程中货品掉落事件频发,严重危害了机场地面运输安全。各航司为了解决该问题,需要地面保障系统额外分配人力值守,在出现掉落事件时及时给出预警,不间断的运输作业导致人力成本大幅增加。本项目针对机场地面保障实际场景中的货邮掉落问题,探索无人值守的高可靠目标检测方法,为运输过程中的安全隐患提供实时预警。研究内容包括:
1)高可靠目标检测算法:研究户外作业中光照变化、极端天气、昼夜更替等环境条件对检测精度的影响,建立高可靠的无人值守目标检测和预警模型。
2)构建车载货品掉落检测原型系统:研究高可靠目标检测算法在边缘计算系统中的部署,研究模型轻量化方法构建轻量级的目标检测模型,满足机场安全运行所需的实时性要求。
题目2:面向新型计算机体系结构的压缩数据直接处理技术研究
研究内容:在大数据时代,面对海量负载,数据处理面临一系列挑战,如数据量大、处理时间长等。一种可能的解决方法是将数据压缩,然后在数据压缩的额状态下直接对数据进行处理。近些年,以GPU为代表的计算机体系结构得到了迅猛发展,也有越来越多的大数据系统使用GPU、APU、Xeon Phi、FPGA、多核CPU等新型体系结构加速大数据管理任务。相对于传统管理系统,新型计算机体系结构驱动的大数据管理系统可提供更高的负载处理速度和更好的实时处理效果。因此,可以考虑用新型计算机体系结构进一步探讨压缩数据直接处理技术在大数据管理系统中的应用。大数据管理系统由硬件和软件两方面构成,软件技术可受益于硬件技术发展,同时也受硬件技术体系结构特征和局限性的约束。通过对不同硬件设计合适的数据结构和算法可提升硬件效率。目前,计算机体系结构正在经历巨大变革,在向专用硬件的方向发展。同时,各类新型计算机体系结构的额出现也在改变以往大数据管理系统中的设计与底层支持。为常见数据处理提供新型计算机体系结构支撑,研究内容重点分布在:
1)探究能够在数据压缩状态下直接对数据进行处理的算法;
2)如何利用新型计算机体系结构实现高效压缩数据管理与分析;
3)通过实验论证,证明方法的有效性。
题目3:深度学习在高性能异构集群系统的分布式并行算法研究
研究内容:随着深度学习在自然语言处理、计算机视觉、搜索推荐等商业场景的应用以及在气象模拟等科学计算场景的研究,深度学习模型越来越复杂,训练一个模型需要的数据和计算量也越来越大。因此,对分布式深度学习技术与高性能算力的需求非常大。近年来,高性能计算硬件的发展也非常迅猛,各厂商纷纷推出大算力硬件。不同硬件的算力、体系结构、runtime等均存在差异,如何进行异构资源的建模与管理是一个非常重要的问题。同时如何结合异构硬件特征、网络通信、深度学习模型等特征进行深度学习模型分布式并行切分以及切分后的模型如何基于异构集群拓扑进行调度,以最大化体现高性能计算硬件的算力也是两个非常关键的问题。该项研究针对目前流行的高性能异构硬件和深度学习,探讨深度学习在高性能异构集群系统中模型分布式并行算法研究。研究内容重点分布在:
1)高性能异构资源统一建模研究;
2)深度学习模型分布式并行切分算法研究;
3)深度学习模型基于高性能异构集群拓扑的自适应调度算法研究;
题目4:高能效深度神经网络片上通信技术研究
研究内容:深度神经网络已在计算机视觉、语音识别和自然语言处理等应用领域中取得了巨大成功。大量的研究表明集成CPU和GPU的异构单芯片多核处理器(CMP)可以提供很好的并行性并降低CPU与GPU之间的数据传输延迟和功耗,从而加速神经网络。片上网络连接着CMP中所有的CPU和GPU单元,并承载着互连系统的通信。随着数据量以及神经网络深度的持续增加,高能效的片上通信成为了深度神经网络加速器的关键技术之一。该研究将针对深度神经网络的数据流特征进行分析,优化片上网络的结构设计,从而加速深度神经网络并减少通信功耗。本研究的主要研究内容包括:
1)研究基于CMP的深度神经网络数据流特征,对CPU、GPU和内存控制器之间的数据通信进行分析和建模。
2)基于数据流特性以及片上网络的性能和功耗需求,建立优化模型,能够对片上网络的性能和功耗进行优化。
3)设计新的异构片上网络结构,通过加入无缓冲路由器和无线路由器来减少片上网络的功耗和硬件开销,同时优化网络通信性能。
题目5:基于数字孪生系统的四足机器人自主行为实现加速技术研究
研究内容:随着人工智能技术的迅猛发展, 能够自主探索和学习的智能机器人的研究已成为各国争相占领的科技高地。四足机器人以其优秀的通过性与平衡性成为机器人的重要平台。基于规则的控制算法很难满足四足机器人在相对复杂的环境中行动的需求。四足机器人的自主决策与行为实现离不开准确的数字孪生系统为其在各应用场景的任务训练提供快速学习迭代的平台。精确的数字孪生系统与基于强化学习的训练需要大量的计算,消耗大量的时间,本研究将在基于数字孪生系统的四足机器人自主行为实现的基础上,利用强化学习算法调优、并行化训练框架、GPU/FPGA加速等策略对于机器人在数字孪生系统中的训练过程进行加速,探索更多的行为实现决策空间。
研究内容重点分布在:
1)在数字孪生系统中进行基于强化学习的自主行为策略训练;
2) 使用训练算法调优、并行化、GPU/FPGA加速等方法对于机器人在数字孪生系统中的训练过程进行加速;
3)将数字孪生系统模拟环境中学习到的行为决策算法迁移到实体四足机器人上,实现行走、奔跑、转弯、上下楼梯等各种基本行为。
题目6:基于统计学习和区块链技术的下一代大规模接入通信网络的优化研究
研究内容: 计算机与网络已经融入了人们生活的方方面面,其飞速发展也极大地改变了人们的工作生活方式。而智能化是计算机研究与开发的一个主要目的,其中统计学习方法是实现这个目的有效手段之一,从而也带动了该研究方向的快速发展。相比现有的移动通信网络,下一代(B5G/6G)通信网络中超密集用户、基站、智能设备等分布对无线通信网络提出了更高的要求和更严峻的挑战。一方面,要保证更多移动用户享有低时延、高速率以及高可靠的网络数据服务;另一方面,能够提供无线通信的频谱资源有限,超密集用户、基站之间距离越来越近,干扰影响越来越大,系统性能下降,同时大量设备需要巨大的能量消耗。因此探索下一代大规模接入的无线通信网络的性能并在此基础上设计出更高效率、更绿色、更可靠、更安全的网络,已成为摆在科研人员面前的重大课题,也是现如今国家和社会急需要解决的关键科技问题,以进一步提升人民幸福指数,生活服务质量。随着现代信息技术的发展,区块链具有去中心化、不可篡改、全程留痕、可以追溯、集体维护、公开透明等特点。这些特点可以很好地保证现代信息传输、数据存储的可靠性及安全性等高要求。
基于以上服务要求,本课题将基于统计学习和区块链技术进行下一代大规模接入通信网络的优化研究,具体研究任务包括:
1)总结现有统计学习方法,分析不同学习方法的特点及局限性。以及研究区块链技术存在的问题及相应的解决方案。分析统计学习以及区块链如何有效增强通信网络性能;
2)在通信网络中,能效谱效是评判无线通信网络的重要指标。如何建模考虑能效谱效折中问题,以进一步提升网络性能。同时,考虑如何利用区块链技术保障网络的安全性。
3)如何利用现有的资源进行大规模用户设备连接或接入已经成为未来移动通信研究的热点。未来大规模接入的场景越来越多,拥有庞大规模的数据量,因此不能用传统的优化算法来解决资源分配等问题。如何基于统计学习方法并利用大数据有效地优化网络资源,提升网络性能。
题目7: 极端复杂成像条件下的智能感光芯片的设计研究
研究内容: 近年来,以图像为基础的计算机视觉技术取得重大进展,光学相机已经成为工业检测,城市安防,自动驾驶等各个领域不可或缺的信息获取装置。然而,以人眼感知为目的而设计的传统感光芯片并不能有效适应现代智能处理算法,其在夜间和强逆光等复杂成像条件下的弱点尤其明显。最新研究表明,通过深度学习等技术可以增强从感光芯片获取的图像信号,从而部分提升感光灵敏度、动态范围和成像速度等指标,但在硬件层面的根本性制约并没有得到改善。因此,有必要突破传统感光芯片的设计思路,在考虑物理与工艺限制的前提下,最大化发挥深度学习智能处理算法的优势,从而更经济,更有效地解决复杂成像条件下的智能成像问题。该项研究针对复杂成像条件下的智能成像需求,展开图像增强算法和感光芯片设计方面的关键技术研究,包括极低照度下RAW视频流增强的网络模型框架、极宽动态范围下智能曝光控制方案、面向复杂成像条件的滤光阵列的最优化设计,研究内容重点分布在:
1) 高效RAW2RAW视频流增强的网络模型架构。该子课题重点在于,面向低功耗端化神经处理芯片,设计紧凑的神经网络架构,有效实现空间域图像噪声抑制与时间域抖动抑制。
2) 极宽动态范围下智能曝光控制方案。该子课题主要解决传统逐行(列)多重曝光控制时,移动对象出现伪影等问题。通过在HDR增强算法中建立曝光控制逻辑,学习算法自动寻找最优的曝光控制方案,并在感光芯片控制逻辑电路中验证性能。
3) 最优滤光阵列设计与验证。该子课题主要是突破RGGB传统滤光阵列的限制,在目前可以制造的全滤光材料空间,自动搜索滤光阵列的最优空间排列并通过微阵列印刷技术得以物理实现,从而让感光芯片的灵敏度和动态范围得到极大改善。
题目8:边缘计算节点专用体系结构关键技术研究
研究内容:随着人工智能、物联网、云计算、大数据等应用兴起,对计算、访存和通信性能提出了更高的要求。边缘计算融合计算、存储、网络与应用核心能力,就近提供边缘智能服务,满足行业数字化在敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求;同时与云计算协同以适应更广泛的应用场景。目前上述领域通用体系结构解决方案仍存在着单个节点效率低、整体性能受带宽限制、硬件能耗开销大的弊端。
本研究遵循“描述-仿真-综合”设计方法学,借鉴Tile体系结构的多态并行性,采用结构/行为描述建模、主流EDA功能仿真、可编程逻辑技术设计边缘计算节点专用体系结构,将计算、存储、网络资源在逻辑上的统一抽象,成为具有硬件加速的高性能节点资源。
主要研究内容包括:
1)建立边缘计算节点专用体系结构模型视图可执行规约描述,针对典型应用场景设计定制IP;
2) 对体系结构功能和行为进行仿真和优化迭代,提出性能、能效优化方法;
3) 综合优化的体系架构,得到可综合的逻辑设计,并部署到可编程和可重构FPGA上,在边缘计算应用场景中验证。
题目9:混合内存系统上针对图处理框架的设计与研究
研究内容:随着图数据的规模的日益增长,如何利用有限的存储空间高效地处理大规模图数据,成为一个非常重要的研究方向。新兴非易失性内存技术的出现,弥补了传统内存在容量、功耗、成本等方面的不足,二者构成的混合内存系统,使得大规模图数据的高效处理成为可能。但同时,非易失性内存与传统内存在器件特性(如访问延迟、使用寿命等)方面存在诸多不同,这使得充分利用混合内存的特性设计高性能图计算应用变得更加困难。该研究基于混合内存系统中不同存储介质的特点,对图数据的划分和分布进行优化,并在此基础上设计针对混合存储系统的大规模图数据高效处理框架。研究内容重点分布在:
1)研究混合内存的异构性对图应用性能的影响,并据此设计出合理的图数据划分算法以及相应的数据分布优化策略;
2)将并行处理过程中可能带来的数据竞争问题考虑在内,通过探索数据竞争出现的因素和时机,并结合混合存储系统的特性提出可行的优化方案;
3) 针对混合内存系统中不同存储介质在读/写访问延迟方面的差异性,设计合理的延迟隐藏策略和技术,实现图处理性能的提升。
题目10:内嵌物理不可克隆函数的存算一体芯片架构设计研究
研究内容:为了突破冯诺依曼瓶颈带来的限制,一种将计算和存储融合在一起的新型架构(“存算一体”)成为了研究热点,该技术的实现可大大提升数据处理能力。与此同时,处理器被揭露出越来越多的安全隐患,严重危害用户的信息安全。因此,如何在提高处理器计算能力的同时增强其安全性具有重大的意义。该项研究针对CMOS存算一体芯片,探讨内嵌物理不可克隆函数的系统架构,通过协同设计优化处理器的能耗及可靠性,为高安全性能存算一体芯片的设计提供技术支撑。研究内容重点分布在:
1)将物理不可克隆函数功能嵌入存算一体芯片的设计,试图在高安全性能存算一体架构方面实现突破;
2) 探索可重构算法对提高处理器安全性及能效方面的作用,为高性能存算一体处理器的设计奠定基础;
3)通过系统层面、电路层面及器件层面的协同设计与优化,最终设计一款基于CMOS工艺的内嵌物理不可克隆函数的存算一体芯片。
题目11:面向差错容忍应用的近似电路可靠性预测技术研究
研究内容:目前集成电路高度复杂,Dennard缩放定律及Moore定律逐渐难以维持。而同时诸多新兴应用(例如图像渲染、增强现实、深度神经网络等)对不精确输出具有内在容忍度。近似电路以低复杂度低功耗的设计,损失一定的精确性获取面积、成本、性能上的收益,可以有效适应需求。随着近似电路趋近实际制造和应用,其在物理实现和未来应用中的可靠性问题应当引起足够重视。面对三维晶体管架构超紫外光刻新兴技术中的工艺偏差、生产缺陷、软差错及老化效应等问题,预测近似电路满足差错容忍应用的程度,以便有针对性加固,将有助于加快设计进度。本课题以差错容忍应用的可接受输出为基准,预测近似电路在物理实现及使用中的故障的影响下的可靠性问题。
研究内容重点分布在:
1)探讨差错容忍应用的最低要求精度,作为可靠性预测的基本标准,构建应用层到逻辑电路层的映射,确立近似电路可接受输出范围;
2)结合FinFET晶体管的3D特性,探索器件单维尺寸持续微缩、多栅极结构和短沟道效应下新的缺陷结构和故障模型,构建其影响下的近似电路静态可靠度预测模型;
3)分析软差错和硬故障对运行时近似电路的影响,考虑新的缺陷结构和故障模型建立近似电路动态可靠度预测模型,进而在可接受输出和工作时间两个维度上完善模型。
题目12:联邦学习在异构边缘计算环境下的模型优化与隐私保护研究
研究内容:随着智能设备与用户数量的增长,传统的以云为中心的计算模式存在许多不足,如云端计算负载过重和数据存在隐私泄露风险。联邦学习一定程度上解决了上述问题,既能保护用户的隐私,又缓解了云服务器的计算负载。然而,目前的联邦学习方案在异构边缘计算环境下存在如下几个问题:1)联邦学习与集中式的训练方式不同,由于边缘设备上的数据大部分都是Non-IID(非独立同分布)的,本地训练的局部模型质量参差不一,也可能存在恶意的设备发送破坏性的局部模型,导致联邦学习的收敛缓慢。2)容易受到边缘异构设备兼容性以及网络带宽的限制,当大量的设备与服务器连接时会使得网络的连接速度很慢,加大数据传输的延迟。当存在计算性能差的设备时,甚至会造成通信瓶颈。3)模型在传输过程存在安全隐患,恶意攻击者通过获取设备共享的局部模型更新,可以推断出用户的隐私信息。针对上述问题,联邦学习如何在异构边缘计算环境下进行模型优化和隐私保护成为关键性问题。 本课题的主要研究内容包括:
1)研究基于边缘计算的设备资源异构问题,在边缘层构建设备评估选择模型,设计局部模型过滤机制加快模型收敛,实现高效的三层联邦学习框架;
2)研究基于移动边缘节点的网络带宽限制问题,利用节点收集来自附近设备的局部模型,对局部模型进行有效性分析,实现通信友好的联邦学习;
3)研究基于边缘服务器的数据隐私问题,结合半同态加密与差分隐私技术,构建云-边、边-端两层加密结构,实现联邦学习的数据隐私保护;
4)研究基于边缘智能的计算卸载问题,设计在有效保护用户隐私数据前提下的智能计算卸载算法,实现隐私与服务成本友好的边缘计算卸载方案。
题目13:虚拟数据空间资源聚合算法研究
研究内容:当前,国家高性能计算环境中存储资源广域分散且隔离自治,大型计算应用迫切需要可支持跨域统一访问、广域数据共享、存储与计算协同的全局数据空间。项目针对在国家高性能计算环境中建立全局数据空间的需求和技术挑战,拟解决跨域虚拟数据空间构建、广域安全可靠数据共享、计算与存储高效协同、跨域多源数据聚合处理等关键科学问题,突破广域分散自治存储资源聚合、带宽约束下广域数据高效可靠迁移、计算与数据跨域联动调度、高并发数据流协同处理等关键技术,研发虚拟数据空间软件系统,在国家高性能计算环境部署,发挥广域资源聚合效应,形成广域数据共享,有效支撑大型计算应用。最终形成一套面向广域高性能计算环境的虚拟数据空间方法和关键技术,为在广域高性能计算环境中建立虚拟数据空间奠定技术基础。
针对项目拟解决的关键科学问题,立足当前国家高性能计算环境中存储资源广域分散且隔离自治的现状,项目将重点在跨域虚拟数据空间模型及构建、虚拟数据空间中数据的共享与迁移、国家高性能计算环境中虚拟数据空间运行支撑技术、面向典型应用的虚拟数据空间验证与优化四个层面开展协同研究:首先,构建与本地数据空间一致且能可靠地统一访问与管理的跨域虚拟数据空间,形成可靠安全高效的广域数据共享,有效聚合分散自治存储资源,发挥广域资源聚合效应;其次,实现跨域数据空间构建、广域数据共享与迁移等技术集成,形成完整的虚拟数据空间软件系统;然后,实现虚拟数据空间软件系统与现有高性能计算环境相关软件的对接,形成存储与计算的协同调度能力;最后,优化虚拟数据空间与应用之间的IO 中间层,提升典型数据访问模式的跨域访问能力,选择典型计算应用开展对虚拟数据空间的验证与优化。
题目14:面向工业互联网应用的分布式数据治理以及高并发数据查询体系结构优化关键技术
研究内容:工业互联网是通过工业资源的数据感知、数据互通、数据存储以及基于数据的智能分析,实现生产资源的灵活配置、生产过程的按需执行、生产环境的快速适应,达到工业资源的高效利用及生产的安全保障,从而构建数据服务驱动的新工业体系。如何处理工业物联网高质量的数据需求、打通工业物联网各层级壁垒、解决工业物联网转型升级,是从实际问题出发、面向真实需求、亟需解决的关键科技问题。该项研究探讨工业互联网数据处理机制,研究分布式数据治理以及高并发数据查询引擎及其体系结构优化,为领域独特的典型应用提供数据服务及体系结构的技术支撑。研究内容重点分布在:
1) 针对工业互联网应用监测特征复杂、数据来源繁杂的问题,考察分布式数据一致性约束需求,构建领域独特的数据治理体系结构与系统软件模型,研究工业互联网数据治理分析维度与优化治理问题;
2) 针对工业互联网应用数据规模庞大、数据质量波动不稳定的问题,研究高效关系代数与关系算子模型,并以此研发基于硬件的关系运算处理单元及协处理器设计等关键技术;
3) 针对工业互联网应用数据查询请求通量需求高、过程约束严格等问题,研究工业数据库主动查询并发机制,及数据处理及查询引擎优化关键技术。
题目15:ARM调试架构的安全性研究
研究内容:随着智能终端和物联网的飞速发展,ARM架构逐渐在市场上扮演更加重要的角色。国内ARM市场也发展迅猛,如华为已把部分底层架构替换成ARM系列。然而,对于ARM架构的硬件安全研究却较为少见,还处于较为初期的阶段。硬件是软件运行的基础,一旦硬件的安全架构出现问题,那必将危及到所有上层软件的安全性。本项目主要是聚焦于ARM硬件调试机制的攻击及防御的研究。研究内容重点包括:
1)为分析ARM调试架构的安全性,研究ARM非入侵和入侵调试机制在不同场景(如传统调试和跨核调试)下的安全风险;
2)为分析ARM调试架构安全漏洞带来的影响,研究商用设备调试功能以及攻击验证;
3)为抵御基于ARM调试架构的攻击,研究低开销通用防御机制在原型机上的实现。
题目16:基于深度学习和语义理解的自动化漏洞挖掘技术
研究内容:随着各类应用程序的规模不断扩大,复杂度急速增加,通过人力实现漏洞排查已经不再适用,而通过自动化工具进行漏洞挖掘目前已成为趋势。当前基于特定规则的自动化漏洞挖掘工具存在漏洞检测类型单一、可扩展性较弱、难以检测语义相关的逻辑漏洞等缺陷。针对上述问题,本课题主要研究基于深度学习和语义理解的自动漏洞挖掘技术,包括基于程序相似功能分析的语义漏洞挖掘技术和基于神经网络的模糊测试变异策略技术研究。
研究内容重点为:
1)研究程序语义漏洞自动挖掘技术,包括研究程序执行路径的相似性比较策略与相似路径收集算法,实现高效且全面地收集程序中的相似路径;研究多种程序中安全操作的特征,实现自动化识别与定位多种安全操作;
2)研究基于神经网络的模糊测试变异操作策略,提高模糊测试的漏洞挖掘效率。
题目17:基于机器学习的新型索引算法研究
研究内容:索引是数据库和大数据系统的重要组件,因其能够有效的加速数据的访问和存储而得到了广泛的研究和应用。近年来,尝试使用机器学习来改进索引的思路也引起了数据管理人员的关注。与传统索引相比,基于机器学习的索引使用线性模型从而使得通过对键的简单运算就能够快速定位到其存储位置附近,而后在预测的位置附近进行搜索最终精确定位,在数据相对均匀的情况下,树结构整体能够做到相比于传统索引较低。 然而,目前基于机器学习的索引依然存在某些问题,包括:简单的线性模型适用范围有限,在部分真实数据集上难以与传统索引匹敌,在极端情况下容易形成偏且深的索引结构,以及鲁棒性较差、并发困难和扩展性有限等问题。
因此,本研究针对新型索引存在的问题展开研究,具体研究内容包括:
1)设计具有高鲁棒性的基于机器学习的索引结构,希望在各种情况下有稳定的树高,并减少或者避免最后的精确搜索。
2)研究不同于简单线性模型的学习函数,并与索引结构进行有机结合。
3)针对现有并发度较低的问题,研究使用缓冲区等机制来提升索引的多线程同时访问和修改的能力。
题目18:面向超大规模芯片物理设计与分析的领域定制化GNN加速器
研究内容:图神经网络(GNN)在电路网络的表示中具有革命性的潜力,已经在集成电路电路设计、成品率分析等方面变现出一定的优越性。但是,其独特性给硬件平台、系统设计和算法设计带来了许多新挑战,诸如可编程性、大图存储、动态图结构、硬件接口等,需重新思考并构建不同于一般CNN与DNN的计算加速器。本项目拟研究面向超大规模芯片物理设计与分析的领域定制化GNN加速器,从高度并行架构设计和可编程性的角度来提高用于GNN训练工作量的领域计算性能,范围包括但不限于领域硬件体系结构,系统级解决方案,以及算法/硬件协同设计。
题目19:神经网络加速器的可靠性研究
研究内容:近年来专用深度学习处理器芯片成为研究热点,目前大部分研究工作都集中于神经网络加速器的高性能、高能效和数据流优化等方面。然而,随着神经网络加速器内部的日益复杂的结构和不断增加的PE,而且,实际工作环境往往极为严苛,特别是在物端系统上,与产品设计预期差距巨大,原本训练好的模型在实际工作环境中,可能会产生精度降低甚至失效。芯片可靠性成为系统可长期有效运行的必不可少的关键保障。本研究在检错上拟提出神经网络加速器的在线检错方法,在微体系结构上拟设计内建自修复容错结构,在模型上拟提出考虑实际工作环境的模型重训练方法,进行多层次的可靠性设计。内容重点分布在:
1)在模型训练层上,拟提出考虑硬件的CNN在线训练方法,硬件上进行前向传播,每层的前向传播结果,传回训练器,CPU进行反向训练,通过再训练提高对CNN加速器的硬件故障的容忍能力。
2) 在微体系机构层上,拟提出内建自修复容错结构,通过旁路和冗余PE替换来减少硬件故障对系统精度的影响;
题目20:基于深度学习的资源划分策略研究
研究内容:当今的数据中心通常在单台服务器上运行多个应用程序来提高系统资源利用率。然而,程序之间会因为争抢最后一级缓存(LLC)和内存带宽等共享资源产生干扰,导致性能下降。虽然Intel等硬件厂商已经提供了基于硬件的资源隔离技术(如LLC划分技术CAT和带宽划分技术MBA),但由于这些隔离技术本身的一些缺陷,导致实现细粒度的资源划分面临很多挑战。本项目将针对这些挑战,探讨如何将资源隔离技术与深度学习技术相结合,实现细粒度的资源划分、提高程序执行效率。主要研究内容包括:
1)分析程序特征、程序性能与资源干扰之间的关联度,找出与资源竞争干扰最相关的程序特征;
2)基于深度学习建立预测模型,以应用程序的简单特征和资源划分策略为输入,预测多个应用程序共享资源时,每个应用程序受干扰情况;
3)基于预测模型,建立强化学习模型,以应用程序的简单特征为输入,直接输出最优的资源划分策略,最大化程序执行效率;
题目21:面向大规模云存储的细粒度数据消冗关键技术研究
研究内容:当前云存储的数据规模越来越大,通过数据消冗可以有效地降低云端数据的维护和管理成本,从而获得了越来越多的关注。目前的细粒度数据消冗技术(比如差量压缩、传统压缩等),相对于文件级和数据块级重删技术而言,可以获得较高的数据压缩比,但同时也面临着索引和计算开销大等诸多挑战,并且随着数据规模增长这些挑战变得越发严峻。本课题研究面向大规模云存储的细粒度数据消冗技术,同时结合传统存储介质和新型存储器件的各自特点,探索适用于细粒度数据消冗的索引机制和数据布局,最终实现高压缩比、高吞吐、低资源消耗的目标。研究内容的重点包括:
1)针对目前细粒度数据消冗索引开销大的问题,研究高效冗余数据检测和索引策略,充分利用NVMM、SSD等新型存储器件的特性,尝试在索引机制上取得突破。
2)针对目前存储系统数据消冗造成的恢复性能差、垃圾回收效率低的问题,发挥传统存储介质和新型存储介质各自的优势,尝试重新构建数据分布与管理的新模式。
3)针对目前在线式的数据消冗方式,无法从整体上兼顾数据的历史特征,尝试引入在线和离线相结合的细粒度数据消冗模式。
题目22:图像可逆信息隐藏的理论方法及软硬件协同设计
研究内容:可逆信息隐藏在提取嵌入数据的同时无损重构原始载体,在媒体标注、版权保护、完整性认证等领域有重要应用。图像可逆信息隐藏蕴含着独具特色的重要学术问题,主要有:1)原始载体的数据冗余是实施可逆信息隐藏的必要条件,以JPEG为代表的图像已经压缩,其数据冗余远少于未压缩格式图像,如何实施高效的可逆信息隐藏是颇具挑战性的任务;2)图像可逆信息隐藏嵌入额外的数据往往引起载体文件大小扩展,如何协调嵌入量、载体失真与载体数据扩展之间的关系是实际应用中必须考虑的重要课题。该项研究从理论、方法以及软硬件协同设计的三个层面系统地开展可逆信息隐藏研究,为可逆信息隐藏领域的均衡全面发展和实际应用提供理论支持和技术支撑。研究内容重点分布在:
1)理论方面结合可逆信息隐藏已有率失真理论,研究嵌入率-图像失真-文件扩展度之间的定量关系,给出文件扩展度约束下可达率失真性能。
2)方法方面通过数据嵌入对应的信号修改引起的图像失真度量和文件大小扩展度量,借助多目标优化构建基于载体信号选择的统一数据嵌入框架,解决嵌入率-图像失真-文件扩展三方面指标均衡问题,并在此框架下发展基于量化DCT系数直方图修改优化的可逆数据嵌入方法和基于变长编码VLC映射优化的无损数据嵌入方法。
3)从系统的角度探讨针对图像可逆信息隐藏的软硬件协同设计方法,提高系统的性能和能耗效率,从而促进该领域的发展,并推动图像可逆信息隐藏在多媒体文件管理、传输、认证等领域的实际应用。
题目23:面向可穿戴心脏超声装备的片上增量学习和近似于浮点数计算精度的定点数可调稀疏网络关键方法研究
研究内容:通常人工智能算法应用场景总是层出不穷,比如对图片中的信息进行描述,对动态视频中的事物进行辨识和追踪。如果针对某一类具体应用的场景,将事先训练好的人工智能算法应用在不同类的应用场景中,则它的精度会受到影响,为了确保同一算法对不同应用的精度,需要对已经训练好的网络参数进行调整而不是重新训练,以适应新的应用场景的精度要求。这就需要实现片上增量训练的功能,以适应新的应用场景的要求,同时随着学习次数的不断增加,有了该功能的人工智能算法SOC芯片的计算精度会不断提高。增量学习是一种自适应学习过程,它对经过预训练的分类器进行某些特征的网络优化。这是未来人工智能设备具有人机界面特征的一个很有前途的特点。
例如,一个适形性超声设备可以通过增量学习来适应不同用户心脏的3D模型和探头放置位置造成的差异,从而增加诊断的准确性。增量学习处理预训练神经网络作为弱分类器,并重新训练某些权重以提高精度。
采用GPU集群的人工智能计算,采用的是浮点计算的方式,如果在人工智能算法的嵌入式芯片实现中依然采用浮点运算的方式,则芯片的功耗和面积会大大增加,这与嵌入式的SOC芯片实现方式是背道而驰的。然而人工智能算法本身对精度的要求特别严格,特别是在超声诊断的应用当中,都要求与人类的智能要相媲美甚至精确度更高,这也是人工智能的终极目标之一。如何在有限硬件资源的条件下达到人工智能算法对精度的特殊要求是一个必须解决的问题。
主要研究内容:
1)为片上增量学习提高芯片处理的实时性和通用性,对多源异构输入数据对网络参数进行最优化设计,在此基础上实现超声成像的关键点识别和有效跟踪,并对超声接收器接收端进行自动增益控制,减少接收端数据冗余。从而实现即能够满足超声诊断对成像数据精确度的要求,又能够满足适形性嵌入式应用对低功耗的要求,提高了芯片处理的实时性和通用性。
2)可重构人工智能SOC 芯片解决方案
可重构人工智能SOC芯片所实现的智能化心脏超声影像能够对实际心脏超声图像进行关键点自动识别和追踪,除了能够实现人工智能算法还能够对大量数据传输进行有效管理,不仅减少了冗余数据的传输,更能够对超声接收器进行自动增益控制,从而进一步节省了整个适形性超声设备的功耗,提高了数据处理和传输的有效性。
题目24:基于多源遥感图像的灾害天气事件自动识别技术研究
研究内容:研究使用雷达、卫星等多源遥感图像数据,结合机器学习等人工智能方法,进行强对流等灾害天气事件的自动监测和识别,包括:研究基于高时空分辨率的多源遥感图像的融合分析技术;研究灾害天气事件的分钟级别快速自动识别、追踪技术。
考核指标:建立基于多源遥感图像的强对流灾害天气智能识别技术和预警系统;使用列联表方法评价识别的结果,对持续时间超过2小时的强对流灾害天气事件,POD(探测概率,Probability of Detection)>0.4, CSI(临界成功指数,Critical Success Index)>0.2。
题目25:面向智能物联网的低功耗存内计算架构研究
研究内容:随着物联网和人工智能应用的快速发展,智能计算芯片受到广泛的关注,尤其是应用于边缘端的智能物联网芯片,由于需求大,要求高,是当前计算芯片研究的热点。当前,多数的智能物联网芯片聚焦推理应用,对于能效比要求较高,以满足系统的长时间使用,保证电池寿命。该项研究利用新兴的非易失存储器和传统的存储器结合,结合存内计算架构的方式解决智能物联网芯片的推理能效比问题,探讨高效率使用混合存储器的存内计算架构优势,为低功耗的智能物联网芯片研发提供支撑。重点的研究内容包括:
1)混合新兴非易失存储器和传统存储器结构建模,充分利用新兴非易失存储器的非易失和低功耗特性,并结合传统存储器的速度优势,建立仿真模型。
2)研究智能物联网算法在混合存内计算阵列上的计算模式,探索提升阵列结构使用效率的方法,充分利用混合存储阵列结构。
3)研究混合存内计算架构的系统级性能评估方法,考虑控制逻辑和配置信息映射策略对系统性能的影响。
四、本年度开放课题申请书提交时间及联系方式
2020开放课题申请书提交时间:2020年10月31日之前。
申请书请下载,一式两份,签字盖章后寄至:
北京市海淀区科学院南路6号 中国科学院计算技术研究所计算机体系结构国家重点实验室(邮编:100190)
金琳(收)
申请书电子版请传至:jinlin@ict.ac.cn
联系人:金琳,董慧;
电话:010-62600600;
Email:jinlin@ict.ac.cn 传真:010-62600600
申请书下载:国重开放课题申请书
计算机体系结构国家重点实验室是我国计算机系统结构领域的重要科研基地之一。它的主要任务是研究和发展计算机系统结构相关领域的基础理论和关键技术。现阶段重点围绕超并行计算机系统和多核处理器开展基础研究和高技术前沿探索,为高性能计算机系统和高性能处理器设计领域的发展持续提供创新方法和关键技术。为提高实验室的开放层次,提高学术水平和技术水平,增进国内外学术交流与合作,促进人才流动与学科交叉渗透,特设开放研究课题。欢迎国内外相关领域的科研工作者参与实验室的开放课题研究。
附件下载: | 国重开放课题申请书(空).doc |
开放课题