引言
2020年3月4日,中共中央政治局常务委员会召开会议,明确指出“加快5G网络、数据中心等新型基础设施建设进度”,将数据中心纳入“新基建”范畴。2020年4月20日,国家发展和改革委员会(简称“国家发改委”)明确新型基础设施的范围,数据中心作为算力基础设施成为信息基础设施的重要组成部分[1]。人工智能、云计算、大数据的发展离不开网络和数据中心,5G和工业互联网的发展也离不开数据中心,甚至对数据中心的依赖程度会更高[2]。数据中心算力水平的提升将会带动全社会总体算力的提升,满足各行业的算力需求。对数据中心算力及算效进行衡量与评估将为数据中心产业发展提供重要的指导,数据中心监管部门、运营商及相关从业人员能够根据数据中心算力和算效情况判断行业发展趋势。同时,为数据中心未来算力规划和部署提供思路。
1 研究现状
以往的算力研究更加关注对超算及常规服务器算力的测试及评估,对数据中心的算力测试及评估研究则相对较少。
1.1超算算力评估
在超算性能评价方面,普遍用计算速度,即浮点运算速度(FLOPS)来衡量超算的算力性能。国际知名排行榜TOP500,主要以超算系统运行LINPACK基准测试所能达到的最高性能对500个超算系统进行排名,TOP500排行榜每年6月和11月更新一次[3]。同时,超算的能耗问题也受到了广泛的关注。2007年,Green500榜单发布,该榜单以用电效率为评估指标对500个超算进行排名[4]。从TOP500到Green500,超算算力评价指标逐渐从以运算速度为主转变为运算速度和用电效率兼顾,这充分说明世界各国在先进算力竞争中从一味追求运算速度向追求算力能效进行理性转变。
1.2常规服务器算力评估
1.2.1SPECCPU
SPECCPU是一套行业标准的针对常规服务器的CPU密集型基准测试套件,该测试套件由全球权威性能评估机构“标准性能评估机构”(StandardPerformanceEvaluationCorporation,SPEC)推出[5]。最新版本SPECCPU2017[6]主要通过4个套件的43个测试项目,对CPU整点运算能力、浮点运算能力、整型并发速率和浮点并发速率进行测试。SPECCPU套件将会根据测试结果为CPU整数运算及浮点运算能力进行打分,用户能够通过打分结果直观地看出不同CPU的性能差异。
1.2.2SPECPower
SPEC早在2006年就成立了SPECPower工作组,目标是研究和开发可用的能源效率基准测试工具。2007年,SPECpower_ssj2008[7]在美国环保总署和能源使用效率协会赞助下推出。SPECPower委员会在2013年正式发布的服务器效率评级工具[8](ServerEfficiencyRatingTool,SERT),由数十个被称为Worklet的负载组件组成,在运行时分别对服务器的CPU、内存、存储组件进行测试。
1.2.3MLPerf
MLPerf[9]起源于2018年,是业内首套测量机器学习软硬件性能的基准套件。该基准套件囊括了一组关键的机器学习训练和推理的工作负载,代表了重要的生产级别用例。对于训练,涵盖了图像和自然语言处理以及推荐系统和强化学习共7个测试项目[10];对于推理,涵盖了图像、自然语言处理2种计算任务在4个应用场景下的测试项目。截止到2020年4月,MLPerf已经发布了两轮训练(Training)测试结果以及一轮推理(Inference)测试结果。2020年7月,MLPerf发布了第三个版本MLPerfTrainingv0.7基准测试[11]。
1.2.4服务器能效规范
开放数据中心委员会[12](OpenDataCenterCommittee,ODCC)于2019年发布了《服务器能效评测规范》[13],该测试规范将服务器能效定义为服务器计算性能与功耗的比值,并将服务器综合能效视为电源模块效率、服务器空闲能效及服务器工作能效的加权平均数。在服务器空闲及工作能效测试过程中,该测试规范将服务器性能测试划分为CPU、内存及存储3个部分,利用Benchmark软件对服务器各部分性能及功耗值进行记录,在不同负载条件下得到服务器空闲和工作状态功耗。
1.3电能利用效率评估
电能利用效率(PowerUsageEffectiveness,PUE)[14]是绿色网格(theGreenGrid,TGG)发布的一项用于评价数据中心能效的指标,该指标已经得到了业界的广泛认可。PUE在数值上等于数据中心总耗电与IT设备耗电的比值,在整个数据中心中,IT设备是对外提供服务的主体设备,是产生算力的主要源泉。PUE值越小表明数据中心IT设备能耗占比越高,有更多电能被用于产生算力资源。尽管数据中心能效与算力具有关联,但这并不意味着提升数据中心能效水平就一定能够提升数据中心算力能效,数据中心算力能效除了与电能供给有关,还与IT设备的硬件性能、虚拟化技术的应用等因素有关。数据中心算力评估与超算、常规服务器算力评估有很大不同,数据中心算力水平不仅取决于服务器的算力,同时受到存储及网络设备算力水平的影响,计算、存储及网络传输能力相互协同能够促使数据中心算力水平的提升。单独讨论服务器能力并不能反映数据中心的实际算力水平。目前,尚无针对数据中心算力评估的完整体系,构建一套算力及算效评估体系将成为当前数据中心算力研究的重点。
2算力及算效指标
2.1算力的定义
数据中心算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。在服务器主板上,数据传输的顺序依次为CPU、内存、硬盘和网卡,若针对图形则需要GPU。从广义上讲,数据中心算力是一个包含计算、存储、传输(网络)等多个内涵的综合概念,是衡量数据中心计算能力的一个综合指标。数据中心算力由数据处理能力、数据存储能力和数据流通能力3项指标决定。其中,数据处理能力又可以区分为以CPU为代表的通用计算能力和以GPU为代表的高性能计算能力。综上,数据中心算力指标包含四大核心要素,即通用计算能力、高性能计算能力、存储能力、网络能力。
2.1.1通用计算能力
CPU作为通用处理器,偏重支持控制流数据。CPU每个物理核中大部分的硬件资源被做成了控制电路和缓存,用来提高指令兼容性和效率,只有小部分是用来做计算的逻辑运算单元(ALU)。在没有AI或其他高计算力要求时,CPU可以应付得绰绰有余,在AI或高计算力要求时,CPU在异构系统当中扮演和发挥重要的指挥统筹,控制核心的功能。CPU的芯片分为多种架构,主要包含x86、ARM等。其中,x86为主流架构,几乎占据全部市场份额。
2.1.2高性能计算能力
随着近年来硅芯片逼近物理的极限和经济成本高升,摩尔定律已趋近失效,单纯使用通用处理器无法满足人工智能等新型数字化技术对高性能计算的需求。因此,GPU、FPGA、ASIC或其他加速器支撑的高并行、高密集计算能力的异构高性能计算成为未来更复杂AI应用的必然选择。
(1)GPU
截至目前,全球人工智能的计算力主要是以GPU芯片为主,GPU能够提供强大而高效的并行计算能力。对于海量训练数据,GPU训练深度神经网络所使用的训练集更大,所耗费的时间更短,占用的数据中心基础设施也更少。此外,GPU还被广泛用于云端进行分类、预测和推理,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和并发吞吐量。
(2)FPGA
现场可编程逻辑门阵列(FieldProgrammableGateArray,FPGA),作为一种高性能、低功耗的可编程芯片,可以根据客户定制来做针对性的算法设计。FPGA灵活性介于CPU、GPU等通用处理器和专用集成电路ASIC之间,在硬件固定的前提下,允许使用者灵活使用软件进行编程。近年来,随着深度学习等计算密集型业务的发展,FPGA由于并行计算方面的优秀特性受到了互联网企业越来越多的关注,并开始研究如何在数据中心中发挥FPGA的优势。
(3)ASIC
特殊应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但是缺点也很明显:算法是固定的,一旦算法变化就可能无法使用。
2.1.3存储能力
目前,数据中心的特点是数据量爆炸性增长,数据总量呈指数上升,传得快、无篡改是存储关心的问题,亦是算力关心的问题。数据存储能力由存储容量、存储性能、存储安全三方面共同决定。数据中心存储系统不仅要有大量的现实容量,还应该具有良好的可扩展性,能根据数据量的增长提供无缝的、不停机的容量扩充。数据是具有时效性的,及时获得所需数据非常关键,对于ICP而言,较高的访问速度是服务质量的重要指标。对于宽带应用,存储系统的带宽要与网络带宽相适应。因此,存储系统的响应速度和吞吐率对于数据中心存储系统的整体性能非常关键。数据中心存储系统存储了企业大量的关键数据,必须保证这些数据始终是安全可用的,在任何情况下数据都不能丢失。系统应具有快速故障恢复能力,保证数据始终保持完整性和一致性。
2.1.4网络能力
在数据中心中,网络起着承上启下的作用,将计算和存储资源连接在一起,并以服务的形式对内部及外部提供数据访问能力。带宽、延迟、丢包率都是数据中心网络关注的重点。带宽越高意味着数据中心可以具有更强的处理能力,可以完成更多的业务应用。网络延迟也是体现数据中心网络性能的重要参数,网络延迟和网络延迟的抖动越小,网络性能越好。数据在网络中是以数据包为单位传输的,丢包率是数据包丢失部分与所传数据包总数的比值,丢包率越低,网络性能越好。
2.2数据中心算力模型(CP)
2.2.1方法
目前,数据中心内部的服务器芯片类型以CPU和GPU这两个类型为主。前者主要用作执行一般任务,后者主要承担图形显示、大数据分析[14]、信号处理、人工智能和物理模拟等计算密集型任务。FLOPS为每秒执行的浮点运算次数,是对计算机性能的一种衡量方式。在计算机系统的发展过程中,曾经提出过多种方法表示计算能力,目前为止使用最广泛的是“浮点运算次数表示法”。FLOPS的概念最早由FrankH.McMahon[15]在其报告中提出。国内外不少文献以及服务器产品参数都采用浮点运算次数对算力进行描述,例如YifanSun[16]使用FLOPS作为度量标准,以评估CPU和GPU的单精度和双精度计算能力。“浮点运算次数表示法”利用科学计数法来表达,包含3种常见类型。
(1)双精度浮点数(FP64):采用64位二进制来表达一个数字,常用于处理的数字范围大而且需要精确计算的科学计算。
(2)单精度浮点数(FP32):采用32位二进制来表达一个数字,常用于多媒体和图形处理计算。
(3)半精度浮点数(FP16):采用16位二进制来表达一个数字,适合在深度学习中应用。
本文使用“每秒浮点运算次数”(Floating-pointOperationsPerSecond,FLOPS)来评估数据中心的通用算力和高性能算力。同时,与Linpack仅关心双精度的浮点计算(FP64)能力不同,将给出双精度(FP64)和单精度(FP32)浮点计算能力算法,以便更加清晰地辅助判断数据中心适合的计算场景:用双精度浮点计算能力评估数据中心的高性能计算能力;用单精度浮点数计算能力评估数据中心的通用计算能力。除了双精度(FP64)和单精度(FP32)之外,其他的计算精度也越来越广泛地被用于计算领域。对于人工智能来说,半精度(FP16)大有后来居上的趋势。主流的AI芯片和AI软件都已经支持半精度(FP16)用于深度学习训练。同时,INT8也越来越多用于深度学习推理领域。在本文中,目前仅采用双精度(FP64)和单精度(FP32)两种精度衡量数据中心算力和算效,未来考虑加入更多的精度以更加全面地衡量数据中心的算力。
2.2.2模型
数据中心算力(ComputationalPower,CP)的模型如下。
CP=f(通用算力,高性能算力,存储能力,网络能力)
(1)通用算力计算方法
通用算力=∑(某型号CPU服务器存数×该型号服务器CPU算力)
以Intel主流CPU型号为例,理论计算能力如表1所示。
表1Intel主流CPU服务器算力[17]
表1Intel主流CPU服务器算力
(2)高性能算力计算方法
高性能算力=∑(某型号GPU服务器存数×该型号服务器GPU算力)
以NVIDIA主流GPU型号为例,理论计算能力如表2所示。
表2NVIDIA主流GPU型号算力[18]
NVIDIA主流GPU型号算力
(3)存储能力
固态硬盘在启动速度、读写速度、质量、抗震上相比HDD传统硬盘有着绝对的优势,而HDD发展至今,在价格、寿命和数据恢复方面的成绩也是SSD无法取代的[19]。SSD硬盘由于使用了高速的闪存颗粒作为物理存储资源,并且使用PCIe等高速传输协议/接口作为主流数据交换的物理通道,其在IOPS和带宽方面远优于传统的HDD硬盘。以企业级PCIeSSD卡和企业级SASHDD硬盘来比较,PCIeSSD卡的4K随机读的IOPS为1M以上,而SASHDD硬盘的IOPS为700左右;带宽方面,PCIeSSD可达到7000Mbit/s以上,而SASHDD仅为200Mbit/s左右。存储对算力的贡献,一方面体现在高速存储对高性能计算的支撑,另一方面体现在对海量数据的存储。
(4)网络能力
随着AI训练集群规模的增大,以及单节点算力的增长,分布式AI集群系统已经逐渐从计算约束转换为网络通信约束。一方面,AI计算量每年增长10倍[20],而数据中心网络接口过去5年从1000M网口升级到了10G或者25G,仅增长10多倍;另一方面,当前的AI集群系统中,当GPU集群达到一定规模以后,随着计算节点数的增加,由于分布式AI集群节点之间的通信代价的增加,可能导致集群每秒训练的图片数量不增反减。网络将成为数据中心计算、存储能力能否充分发挥的重要支撑。
2.3数据中心算效模型(CE)
受摩尔定律的影响,CPU的算力提升方法通常有两种,一是增加“数量”,即增加核心的数量;二是提高“质量”,即提高单核心的运算效率,即提高主频。但主频的提高并不是无限制的,会受到功耗的制约。所以,数据中心算力功耗也是一个非常重要的方面。将算力与功耗结合来看,单位功耗的算力是评价数据中心计算效果更为准确的一个指标。本文定义数据中心算效(ComputationalEfficiency,CE)为数据中心算力与IT设备功耗的比值,即“数据中心每瓦功耗所产生的算力”(单位:FLOPS/W),这是同时考虑数据中心计算性能与功耗的一种效率,其计算公式如下。
3数据中心情况分析
3.1近几年我国机架总体情况
数据中心总体算力水平与数据中心机架规模密切相关,数据中心机架上承载着各类服务器、存储设备及网络设备,这些设备共同构成了数据中心的算力基础。在保证上架率的情况下,数据中心机架规模越大表明数据中心能够提供的理论算力越高,算力资源供给更为充足。图1反映了近几年全国数据中心在用机架规模和大型规模以上机架的变化情况,从2016年到2019年,我国数据中心在用机架规模以30%左右的比例逐年增长[21]。机架规模的增长充分表明我国企业及用户对数据中心算力的潜在需求较为旺盛,与此同时,这种高速增长的算力需求进一步推动了我国机架规模的增长,逐年增加的算力资源将为云计算、人工智能、物联网等应用服务的开展提供重要保障。
图1近4年我国数据中心机架规模
图1近4年我国数据中心机架规模
3.2我国数据中心上架率
数据中心总体算力水平及算力能效不仅与机架总体规模有关,同时还会受到数据中心在用上架率的影响,数据中心在用上架率能够反映当前数据中心的实际算力水平及算力能耗,在评价社会总体或某地区数据中心实际在用算力时应充分考虑到机架规模及上架率。截止到2019年年底,国内数据中心总体平均上架率为53.2%。其中,北京、上海及广东平均上架率近70%,远高于全国平均水平,核心区域大型以上数据中心上架率超过85%。东部发达地区及一些自然资源较为充足的中西部省份上架率相对较高,东部发达地区对时效性较高的“热数据”需求较多,提升上架率有助于进一步满足这种实时的算力需求。中西部等自然资源较为充足的地区在建设能效导向型数据中心方面具有一定优势,也逐渐受到资本加持,一些实效性要求不高的“冷数据”通常可以在这些地区进行远端部署。
3.3服务器出货量
3.3.1CPU服务器
根据Gartner的数据[23],中国(不包括港澳台地区)的CPU架构服务器出货量在2015—2019年基本呈现上升趋势,5年复合增长率近8%,2019年的出货量为340万台左右,其中x86架构在CPU市场的占比都在99%以上(见图2)。在厂商市场份额方面,Intel市场基础庞大,在CPU市场市占率基本维持近95%左右的水平。以2019年第4季度为例,根据IDC数据[24]显示,Intel在全球数据中心CPU微处理器市场份额的占比为93.6%,其次为AMD为4.9%。
图22015—2019年我国CPU架构服务器出货量(单元:万台)
图22015—2019年我国CPU架构服务器出货量(单元:万台)
3.3.2GPU服务器
根据IDC的数据显示,全球GPU的出货量呈现上升趋势,在2019年达到了840万Unit(见图3)。在市场份额方面,NVIDIA为行业龙头企业。以2019年第4季度为例,根据IDC[24]数据显示,NVIDIA在全球数据中心GPU服务器市场份额的占比为94.4%,其余为AMD,占比5.6%。
图32016—2019年全球GPU出货量(单位:万Unit)
图32016—2019年全球GPU出货量(单位:万Unit)
4我国数据中心算力情况
4.1算力分析
(1)在通用算力方面。CPU类型的服务器几乎部署在所有的数据中心中,根据前文的数据可知x86服务几乎占据了CPU服务器的全部市场。经过测算,截止到2019年年底,我国数据中心通用计算能力为71.96EFLOPS(FP32)。
(2)在高性能算力方面。GPU更多地使用在AI等应用场景中,部署于部分数据中心中且规模较小。经过测算,截止到2019年年底,我国数据中心高性能计算能力为3.90EFLOPS(FP64),折算为单精度浮点算力为7.78EFLOPS(FP32)。
综上,截止到2019年年底,我国数据中心总算力(含通用算力和高性能算力)即CP为79.74EFLOPS(FP32)。
4.2算效分析
截止到2019年年底,我国数据中心的通用计算能力的算效为15.7GFLOPS/W(FP32);高性能计算能力的算效为22.8GFLOPS/W(FP64),折算为单精度浮点的算效为45.5GFLOPS/W(FP32)。综合通用计算能力和高性能计算能力的算效,全国数据中心的总体算效达到18.16GFLOPS/W(FP32)。
5结束语
数据中心作为新一代信息通信技术的重要载体,是算力输出的底座。未来,异构加速计算的需求日益旺盛,高性能计算能力将大有可为,并逐渐成为数据中心算力的主要力量。计算、存储、网络的深度融合,更加丰富了“算力”的内涵。同时,未来“大型+边缘”的双向发展对算力提出了多样性的要求。未来算力发展的挑战将来自于功耗,应大力推动“绿色算力”的发展,在提高算力的同时降低数据中心的能耗,使得能源在数据中心的利用效益最大化。本文为数据中心算力提供了一种行之有效的衡量方法,后续开放数据中心委员会(ODCC)将依托中国信息通信研究院云计算与大数据研究所开展数据中心算力评估的相关业务。通过评估,各数据中心可以明确自身的“算力”和“算效”,这将有助于精细化明确数据中心的计算能力以及能耗真正的利用情况,使得数据中心在不断调优PUE的同时,通过不断调优“算效”,从而进一步将数据中心作为新型基础设施的杠杆作用发挥到极致。同时,下一步将不断扩充算力研究的内涵以及多样性,在把已有研究细化深化之后,继续将算力的成本、经济效益、社会影响等方面也纳入相应的考虑,使得研究的体系更加完善。
编辑:Harris