当前位置 >>  首页 >> 研究成果 >> 科研项目

蓝鲸系列网络存储系统设计

撰稿: 摄影: 发布时间:2007年08月29日
      在信息领域内,高性能的计算机系统是支撑信息技术发展的基础。在现代科学研究和应用领域中,随着应用规模不断增加,应用对计算规模、数据容量和I/O的需求在快速增长,例如全球气候模拟、数字风洞、高能物理、生物计算、核模拟、大规模的信息和决策支持系统等应用,其数据量将达到几十TeraByte至PetaByte的级别,I/O吞吐率达到几个到几十个Gb/s,现有的存储系统和存储管理体系结构都已经不能满足应用对海量数据的大规模、分布式、并行访问的需求。对于这么庞大的数据量和吞吐率,存储子系统已经成为应用规模进一步扩展的瓶颈。特别对于高性能计算,I/O和容量的可扩展性是构建高性能计算环境的一个重要指标。因此,研制高性能、可扩展、高可用、可管理的以存储为核心的新型网络服务器系统就成为网络服务器系统发展的主要趋势。
 
      在过去的几年里,我们先后研制出蓝鲸集群文件系统、蓝鲸服务部署系统、蓝鲸网络存储设备、蓝鲸虚拟存储系统和蓝鲸数据备份系统。
 
      这些研究成果很好的解决了在计算性能(计算节点规模)不断提高的情况下,I/O子系统的瓶颈问题,为国内高性能计算机系统的发展奠定了基础。
 
     从目前所进入的行业来看,对石油地质勘探、国防安全、电子商务等方面,对于海量高性能存储的需求非常迫切,传统的存储方式满足不了系统规模的扩展对I/O性能的需求,导致生产效率降低。采用蓝鲸存储系统,针对目前应用环境,可以提高接近一倍的生产效率,对于有的应用来讲,效率更高。因此,蓝鲸网络存储系统的推广将产生巨大的社会效益。同样,在未进入的领域,如制造业、金融、制药等行业也存在同样的问题。因此蓝鲸网络存储系统有着巨大市场应用前景。
 
     目前我国的网络存储市场,集中在国外众多知名品牌手里,而国内的存储多为从国外OEM或濒临淘汰的低端产品。以我们研制的网络存储技术为原型,继之以产品化,提供给市场,弥补了国内存储领域中中,高端领域的技术和产品空白,从此打破国有的、具有自主研发技术为零的局面,大幅降低其利润空间,有效地保护国内用户在存储领域的投资。
 
一 代表性的工作
 
1. 蓝鲸集群文件系统
 
      在Linux下进行高性能计算时,无论NAS还是SAN,主流的文件共享方式都是通过NFS文件系统来实现,但由于NFS协议的限制,带宽最高只能达到40MB/s左右,随着节点的增加,带宽不断降低,特别是达到16个节点以后,带宽急剧降低,无法满足高带宽的要求,也就不能满足高性能、大容量分布存储和分布处理能力的要求。
 
      蓝鲸集群文件系统在保证严格兼容NFS协议的情况下,改进了NFS文件系统,提供了文件级的共享。
 
      在蓝鲸集群文件系统中,采用服务器直接到设备进行I/O访问的机制,极大地提高了I/O带宽,而且,蓝鲸集群文件系统的总带宽还将随着存储设备数量的增加呈近线性增加。在单个存储设备中,蓝鲸集群文件系统的总带宽为133MB/s,当系统中使用2个存储设备时,蓝鲸集群文件系统的总带宽为225MB/s,数据I/O占网络带宽的比例超过90%。
 
      采用数据条带化技术,可以将一个文件分布在多个存储设备上,使得多个计算节点并发到多个I/O设备访问,提供了并行的IO操作,蓝鲸集群文件系统的总带宽随设备增长呈近线形增长。
 
      与NFS相比,蓝鲸集群文件系统的分布式文件系统能够在使多节点共享同一文件的同时提高30%-110%的I/O吞吐率。
 
      蓝鲸集群文件系统采用新型的服务器系统结构——网络可扩展结构,形成了与现有网络存储技术相兼容,在可扩展性和动态处理能力上有极大提高的网络存储系统。可以动态扩展存储设备和存储容量;可以动态扩展系统性能。随着存储设备的加入,系统会自动均衡访问负载,最多可支持256个存储设备。用户在使用的过程中发现系统容量不足时,可动态完成系统扩容工作。
 
      在网络带宽满足要求的情况下,可以动态增加计算节点;随着计算节点个数增加,性能将呈线性增长。目前蓝鲸集群文件系统可支持256个计算节点。
 
      蓝鲸集群文件系统从各个方面体现了它卓越的可管理性。提供标准SNMP监控接口;提供清晰友好的管理界面,用户可对系统进行全面的管理,如事件管理、出错处理等;通过基于WEB的系统监控界面,用户可随时对系统进行实时的监控,包括系统负载,服务状态,资源使用情况等。
 
      蓝鲸集群文件系统极大地解决大规模集群计算处理中需要高带宽、高集群、大容量、异构环境的数据共享问题。它融合了NAS和SAN两种存储技术的优势,系统可动态扩展(包括容量、性能和管理),支持数百台乃至上千台服务器的集群系统。从测试结果看,蓝鲸集群文件系统可以提供高的并发数据带宽,整体计算效率提高4倍以上。适用于航空航天企业的设计和模拟、遥感信息处理、石油/煤炭等勘探数据分析、气象数据分析、Web/Email服务等领域。
 
2.  蓝鲸服务部署系统
 
      (Service on Demand,简称SonD)可应用到蓝鲸集群文件系统中,对服务器和数据进行有效的管理。该系统能够为用户提供集中、可靠、安全的数据存储,简单快速的软件安装方法,可灵活选择的计算环境,从而降低计算机运行、维护和管理的总体成本。
 
      模版技术将用户常用的操作系统和应用软件制作成一份模板,部署计算机的过程简化为复制模板的过程,目前我们的技术达到可以在几秒内复制完一份模板,并且可立即投入使用,达到快速部署的效果。
 
      资源调度管理技术通过计算资源和存储资源的分离,实现了对计算资源的快速调度和对存储资源的方便管理。使用该技术,用户能够快速调配调配服务器,使服务器资源得到充分利用,并保证数据的安全性、可靠性。
 
      高可用技术能够快速替换失效服务器,降低故障恢复时间,提高服务可用性。
 
      蓝鲸服务部署系统的研究、产品化和应用,为机群高可用软件以及大规模机群管理闯出一条新路,关于SonD类似系统的研究在国内外是空白状态。基于SonD的机群管理模型,从存储的角度出发考虑机群的可靠性、可管理性、安全性、资源利用率等,为机群高可用软件领域开拓了一个新的研究领域。
 
3. 蓝鲸虚拟存储系统
 
      蓝鲸虚拟存储系统(Virtual Storage Device System,简称VSDS)是基于IP SAN技术的虚拟化网络存储系统,为用户提供大容量、动态可扩展的虚拟存储空间。
 
      VSDS采用iSCSI作为数据通信协议,是一个跨平台、可扩展的网络存储系统。它的主要功能是为用户提供虚拟化存储服务,最大限度提高存储空间利用率以及存储管理的便利性,同时满足用户的业务连续性和高读写性能的需求。
 
      VSDS采用带外(out-of-band)数据传输架构,使其在性能、容量和管理上具有高度可扩展性,解决了传统存储系统中的性能、可用性和可扩展性的瓶颈。它使用虚拟化技术为用户提供了整合的存储管理环境,使用户在逻辑层面上统一管理存储,而不必关心底层物理设备的容量、类型和特性等,从而避免了繁琐、易出错的物理资源管理,同时还有效解决了存储资源利用率低的问题。
 
      该系统可以有效地解决异构设备集群的管理问题,屏蔽物理设备的复杂性。此外,由于采用了自有的专利技术,可以极大地提高物理资源利用率(物理资源的利用率从不到50%可以提高到80%以上)。适用于普通办公环境、制造行业、金融行业、数据中心、信息技术服务、Web/Email服务等领域。
 
4. 蓝鲸数据备份系统
 
      蓝鲸数据备份系统是一个可扩展的网络备份系统。为企业提供各种网络环境下的数据备份及恢复功能。
 
      可提供基于磁盘的数据保护解决方案,帮助企业突破传统的磁带备份和恢复的限制,有效的利用磁盘作为数据保护介质的高速度、灵活、管理成本低等优势。
 
      蓝鲸数据备份系统支持普通网络环境和SAN环境下的备份,能够根据企业现有的IT基础结构提供相应的备份解决方案。同时能够根据企业的业务特性及数据特性提供完整的可扩展的存储及备份恢复系统解决方案。
 
      目前,蓝鲸数据备份系统已成功的为工程中心自主研发的蓝鲸集群文件系统、蓝鲸服务部署系统和蓝鲸虚拟存储系统提供备份支持,并且,它适用于数据中心、中小企业存储环境、教育、政府、科研院所、和音/视频处理等领域。
 
二 成果推广情况
 
      蓝鲸系列网络存储产品,经过大量的产品化和应用测试工作(一年以上),已在军方、卫星遥感、石油、中科院计算所、中科院计算所、国防科工委、中石油、华东交大、中科院计算所、国家气象局气候研究院等领域得以良好的应用。本课题研究成果形成的行业产品已经销售6套(集成产品或部件,直接销售或通过横向课题)到军方和科研院所,总销售收入超过370万元。通过项目合作推广申请经费共195万元。
 
      通过与第三方厂商和最终用户的合作,针对石油勘探、网络教室、高性能计算、VOD、广电等不同领域,对蓝鲸网络存储系统进行了大量的优化和系统定型工作,并在最终用户方进行大量实际应用测试。目前正在与相关行业用户洽谈合作推广事宜。
 
      在石油勘探计算领域,计算规模和计算任务越来越大。目前,国内用于石油勘探计算领域的CPU超过1万个、上千TB的数据量,而且每年在不断增长。随着计算规模的增加,I/O成为性能的瓶颈。经过实际应用测试,蓝鲸网络存储系统很好的解决了目前计算环境的I/O瓶颈问题,而且相比国外产品如GPFS、PNFS、Lustre等具有可扩展性好、性价比高、服务力量强等多方面优势,因此在此领域内有较大的市场。
 
      在VOD领域,需要高的持续带宽和低延迟,对存储系统I/O要求越来越高。目前的系统正处于更新换代时期,新一代存储系统方案逐渐走向市场。VOD应用的数据量最大,有很大的发展空间,蓝鲸存储系统能够很好的I/O瓶颈问题,相比其他产品方案如iSCSI、InfiniBand等具有相当大性能和价格优势。因此在这一领域具有非常大的市场空间。
在电子教室方案中,SonD相比目前系统和其他方案,具有可靠、灵活、快速、性价比高、适应性广、可配置性好等优点,在电子教室中有很大的市场空间。而这一市场的份额将在20亿元以上。
 
      在国防安全部门,如航空航天、遥感、技侦、安全监视等,蓝鲸网络存储系统相比国外系统具有更多的优势,这一领域的市场潜力更大。
 
      2003年,中国网络存储市场(NAS+SAN)取得突破性发展,取得了18.6亿元的市场业绩,同比增长了53%;到2004年,网络存储产品的销售额占据了存储市场的61%的份额。从2002年到2006年,中国信息存储容量的规模将以每年80%以上的速度递增。面对这样大的迅速增长的市场,去年所有国内自有品牌存储产品的国内存储市场占有份额仅为8.4%(不足5个亿);而在服务器领域,国内服务器厂商市场份额已达到40%以上。其中主要的问题是国内没有自主知识产权的产品,大多数代理或OEM国外产品,导致存储市场完全为国外厂商占领。
 
      目前,国外相关厂商和产品已逐渐进入国内市场,如Lustre, Panasas, GPFS, GFS, CFS等,并在各个领域开始推广。蓝鲸网络存储系统将打破这些产品在国内的垄断地位,大幅降低其利润空间,有效的保护国内用户在存储领域的投资。
附件下载: