咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
双碳目标下数据中心算力、算效与能效的研究(一)
  • 反观数据中心运行主体的IT设备,实际上有很大的节能降碳空间,本文从IT侧分析数据中心的算力、算效与耗能的关系,分析目前数据中心实际运行的算力耗能存在的问题,探讨从算力侧如何降低能耗,减少碳排放。
  • 一、什么是计算机算
      
      通俗的讲算力是计算机设备或数据中心处理信息的能力,是计算机硬件和软件配合共同执行某种计算需求的能力。算力的狭义定义是一台计算机具备的理论上最大的每秒浮点运算次数(FLOPS),但是计算机不光有运算的能力,还需要对数据存储的能力、与外界数据交换的能力、数据显示的能力和配套的电源和散热的部件等。目前数据中心的算力分为通用算力、智算和超算。通用算力以CPU承载为主;智能算力以NPU/TPU/GPU承载为主;超算算力以CPU/GPU承载为主。
      
      实际上一台服务器的算力又分为:处理器(CPU/NPU/TPU/GPU芯片等)算力、服务器算力、实际算力(或称为算效)。处理器算力是芯片设计和出厂的处理能力,处理器的算力与芯片的主频相关。服务器由处理器、内存、外存、网络等组件组成,服务器算力是反映操作系统和应用系统对处理器、存储和网络最佳的调度能够达到最大的处理能力,服务器的算力可以通过专用的测试软件来检测服务器在不同环境下能够提供的最大算力,这个算力低于处理器芯片的算力。实际算力是服务器上线运行真正的运算能力,这个算力取决于应用系统编程、操作系统和运行管理人员的调度能力,目前在实际运行中服务器的算力使用效率非常低,在本文中将对实际的算效与能效做分析和研究。
      
      1.计算机的算力
      
      计算机的算力处理器算力,处理器的算力又分为CPU、GPU、NPU等处理单元算力。
      
      1)CPU的算力
      
      当前计算机采用多级流水线结构,取指、译码、执行等并行方式,CPU性能主要有MIPS,DMIPS和FLOPS三个主要指标:
      
      MIPS(Million Instructions PerSecond):字面理解为百万条指令/秒,即每秒执行百万级指令数。这是衡量CPU处理能力的一个指标。早期的Intel80386电脑可以每秒处理3百万到5百万机器语言指令,可以说80386是3到5MIPS的CPU。
      
      DMIPS(Dhrystone Million Instructionsexecuted Per Second):是处理器对的整型运算的能力,Dhrystone是一种整数运算测试程序。
      
      FLOPS(Floating-point Operations Per Second):表示CPU的每秒执行的浮点运算次数,主要用于衡量计算机的浮点运算能力。
      
      1MFLOPS=10^6FLOPS
      
      1GFLOPS=10^9FLOPS
      
      1TFLOPS=10^12FLOPS
      
      1PFLOPS=10^15FLOPS
      
      1EFLOPS=10^18FLOPS
      
      1ZFLOPS=10^21FLOPS
      
      目前衡量一台服务器的处理能力主要采用FLOPS,以Intel志强CPU为例,芯片的算力见表1:
      
      以IBM为代表的大型机厂商,2022年发布高端Z16系列大型机采用的IBMZTelum双处理器芯片有16个内核,运行频率为5.2GHz。该系统在单个型号(型号A01)中配备多达200个可配置内核,并且每个系统包括40TB的独立内存冗余阵列(RAIM)。除此之外,IBMz16还有具备混合计算和基于开源的企业系统的其他核心战略,并专为人工智能应用程序进行了优化。IBMz16每天可以处理3000亿个推理请求,延迟时间仅为1毫秒。
      
      实际上服务器的算力与CPU的核数和主频以及计算的精度相关联:
      
      CPU的算力=[CPU核数]×[主频]×[(32或64)FLOPs]
      
      2)GPU算力
      
      GPU是指图形处理器(Graphics Processing nit),是一种专门用于高效处理图像和图形的处理器,适用于大规模并行处理任务。目前,GPU已广泛应用于科学计算、计算机视觉、深度学习、图形渲染等领域。
      
      与中央处理器(CPU)相比,GPU具有更多的核芯和更高的内存带宽,可以在短时间内处理大量的数据。GPU最初是为了处理三维图形而设计的,随着计算需求的不断增加和深度学习、人工智能等技术的兴起,GPU的计算能力逐渐成为实现高效计算和处理大规模数据的重要工具。
      
      3)NPU算力
      
      NPU(Neural  Processing Unit)是指专门为深度神经网络计算而设计的处理器(又称为AI处理器),通常用于人工智能、机器学习、自然语言处理等场景中。
      
      NPU的设计是充分利用深度学习中的矩阵运算和卷积运算这些高密度的算法来优化芯片的结构和性能,NPU内置了大量的算术单元,采用特殊的处理器架构和算法,可以快速高效地完成深度神经网络中的各种计算任务。
      
      不同芯片的算力表现往往有较大差异,下面列出一些常见的芯片和它们的算力表现:
      
      中央处理器(CPU):一般来说CPU适合执行通用计算任务,目前桌面级别的CPU的浮点运算峰值往往在GFLOPS左右,高端服务器级别的CPU可以达到数TFLOPS的水平。
      
      图形处理器(GPU):GPU通常设计用于高性能图形处理和通用计算任务。它们的算力通常比CPU高得多,因为它们具有更多的并行处理单元。现在高端GPU的浮点运算峰值已经超过10TFLOPS,甚至高达数十TFLOPS,是训练深度学习模型的理想选择。
      
      AI专用芯片(如NPU、TPU等):这些芯片是专门为人工智能和深度学习优化的,它们通常拥有更高的能效比和更高的算力。例如,一些最新款的NPU和TPU可以实现接近100TFLOPS的浮点运算峰值,极大地提高了深度学习的计算效率。
      
      除了以上几种常见的芯片外,还有一些专用的加速卡和处理器,例如FPGA和ASIC等,它们能够针对特定的计算任务进行优化,从而实现更高的性能和更低的能耗。
      
      2.存储能力--存力
      
      计算机进行数据处理离不开信息存储的部件,信息存储的部件包括服务器的内存和外存两部分,计算机的整体算力更多的是看磁盘运行转速、读写速度、可靠性以及存储缓存的能力。SSD卡的4K随机读的IOPS为1G以上,而SASHDD硬盘的IOPS为700M左右;带宽方面,PCIeSSD可达到7000Mbit/s以上,而SASHDD仅为200Mbit/s左右。因此存储对算力的贡献,一方面体现在高速存储对高性能计算的支撑,另一方面体现在对海量数据的存储的能力。
      
      3.网络能力--运力
      
      计算机的运力包括两部分:一是计算机需要与外界进行数据的交换,离不开网络的支撑,无论采用光或铜介质传输,其带宽直接影响到服务器的处理能力(即算力),因此万兆的网卡将成为计算机计算、存储能力能否充分发挥的重要因素。二是在计算机内部处理器与存储器之间需要进行数据的交换,同样离不开内部数据总线的支撑,因此内部数据总线的交互能力同样影响计算机的处理的能力。
      
      4.超级计算机
      
      在计算机的另一个领域就是代表一个国家计算机世界水准的是超级计算机(超算),这类计算机的处理能力(算力)在千万亿~百亿亿。以天河2号为例,由16000个节点组成,每个节点有2颗基于IvyBridge-EXeon E52692处理器和3个XeonPhi,累计共有32000颗IvyBridge处理器和48000个XeonPhi,总计有312万个计算核心,峰值运算能力达到5.48亿亿次每秒;天河3的运算速度达到1.7exaflops/1.3exaflops。神威太湖之光超级计算机由40个运算机柜和8个网络机柜组成,每个运算机柜比家用的双门冰箱略大,每个插件由4个运算节点板组成,一个运算节点板又含2块“申威26010”高性能处理器。一个机柜就有1024块处理器,整台“神威”共有40960块处理器,峰值运算能力达到9.3亿亿次每秒;最新的神威海洋之光超级计算机的峰值约为1.3 exaflops/1.05exa flops,目前部分超算中心的算力见表2:
      
      二、计算机算力与能耗的关系
      
      计算机通常是由处理单元(CPU、GPU、NPU等)、存储、网络、风扇和电源组成,这些单元(组件)耗能如下:
      
      1.CPU的耗能
      
      算力提升方法通常有两种,一是增加“数量”,即增加核芯的数量;二是提高CPU核芯的运算的主频。但提高主频会受到器件的密度、工作频率、功耗以及放热的制约,CPU的功耗是服务器整体功耗一个非常重要的部分,目前主流的INTEL芯片的功耗见表3。
      
      2.GPU卡、RAID卡、网卡的耗能
      
      在计算机中除了CPU外,还有显卡、图像处理器(GPU)、网卡、总线、磁盘驱动卡,主要功耗的部件是GPU卡,目前主流的高性能的GPU卡功能最高能达到400W,越往后升级,功能会越高,目前主流的GPU服务器,如果按照8核来计算,就是3200W,具体参数见表4:
      
      AI领域的引领和霸主英伟达引领了人工智能发展,当前英伟达旗舰H100GPU芯片的功耗为700W,英伟达H200和AMD Instinct MI300X的功耗在700W~750W。英伟达DGXH800AI服务器最大可以插8块NVIDIAH800 TensorCore(张量计算芯片),总功率达到10.2KW。
      
      英伟达下一代为Blackwell AI GPU芯片,2024年推出新一代旗舰B100,2025年推出B200,单张GPU功耗达1000W。GB200是将CPU和GPU组合的超级芯片,GB200NVL将满足超级计算使用的互连平台要求。
      
      3.存储的耗能
      
      存储分为SSD固态盘和机械硬盘两种,固态盘功耗上低于机械硬盘。机械硬盘3.5寸满速功耗12W左右,2.5寸的只有5W左右。固态硬盘满速功耗在10W左右,工作功率一般2-3W,待机的话1W左右。典型的磁盘和固态盘的功耗见表5:
      
      4.风扇耗能
      
      服务器工作会产生热,需要通过风扇将热排出,除了在机箱上安装风扇外,在处理芯片上还安装有散热片和风扇,风扇占服务器功耗的10%,CPU芯片在工作在22度时,通过散热片散热,CPU工作温度超过22度,启动风扇来散热。随着CPU温度的上升,风扇的转速加快,耗能增加。以一台800W的服务器为例,CPU在不同工作温度下的风扇耗能见表6。
      
      服务器的整机功率是按照设计最大配置(可安装的组件)来配置电源模块,这个功率为设备满配时的最大功率,也称之为铭牌功率。目前常用标准化普通的服务器有2U、4U、6U、8U,设计的功率(铭牌)在300W、500W、800W、1000W、2000W……。所以算力的耗能需要与服务器整机功耗结合来看,单位功耗达到的算力的是评价服务器计算效率更为准确的一个指标。
      
      5.超算的能耗
      
      我国的超算的算力和数量已位居世界的第二位。天河和神威太湖之光超算曾多次荣登世界第一的殊荣,9.8亿亿次的算力太湖之光超算由40个运算机柜和8个网络机柜组成,占地605平方米,总的能耗为20MW,PUE达到1.22,单位算力达到60亿次/每瓦。5.49亿亿次的天河二号超级计算机系统由170个机柜组成,包括125个计算机柜、8个服务机柜、13个通信机柜和24个存储机柜,占地面积720平方米,最大运行功耗17.8兆瓦。天河2耗能24MW,其单位算力达到19.35亿次/每瓦,天河2和神威太湖之光神威超算的性能和能耗见表7:
      
      三、算力、算效、存力、存效、运力运效与能效的关系模型
      
      2021年工业和信息化部印发《新型数据中心发展三年行动计划(2021-2023年)》的通知,提出了要加快提升算力算效水平,开展算力算效评价。
      
      1.数据中心算力、算效与能效的关系模型
      
      1)算力(Computational Power,CP)
      
      算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力,是衡量数据中心计算能力的一个综合指标,数值越大代表综合计算能力越强。包含以CPU为代表的通用计算能力,和以GPU为代表的高性能计算能力。最常用的计量单位是每秒执行的浮点运算次数(FLOPS,EFLOPS=10^18FLOPS)。据测算,1EFLOPS约为5台天河2A或者50万颗主流服务器CPU或者200万台主流笔记本的算力输出。计算公式为:
      
      CP=运算次数/时间=CP通用+CP高性能
      
      2)算效1(Computational Efficiency1,CE1)
      
      CE1指标为数据中心服务器的算力与IT耗能的比值,即数据中心IT每瓦功率所产生的算力,数值越大,代表单位功率的算力越强,效能越高。服务器每瓦功耗所产生的算力单位为FLOPS/W,计算公式为:
      
      CE1=ΣCP/PCIT
      
      式中:ΣCP—为数据中心所有服务器的算力,用单精度浮点数(FP32)表示。统计时间为天。
      
      PCIT—为数据中心所有服务器的耗能(CPU、内存、磁盘、网卡、显示和图像、风扇等),单位为KW。时间单位为天
      
      3)算效2(Computational Efficiency2,CE2)
      
      CE2指标为数据中心服务器的算力与数据中心整体耗能的比值,即数据中心每瓦功率所产生的算力,数值越大,代表单位功率的算力越强,效能越高。数据中心每瓦功耗所产生的算力单位为FLOPS/W,计算公式为:
      
      CE2=ΣCP/(PCIT+基础设施)
      
      式中:ΣCP—为数据中心所有服务器的算力,用单精度浮点数(FP32)表示。
      
      PCIT+基础设施—为数据中心所有IT设备的耗能+基础设施的耗能,单位为KW。
      
      4)有效算效(Effective computational efficiency,ECE)
      
      以汽车的运力类比,一个100台卡车运输公司,每台车载重的运力为40T,百公里/30L,提供一次总的运载能能为4000T,但是实际运输中,每个车每次实际的货物不总是40T满载,往往有时还空载返回,因此有总运载能力和实际运载能力的差别,差别越小说明公司的调度和管理能力越强。
      
      上面给出的CP、CE1、CE2是计算机设备或数据中心所有计算机产品设计的算力,然而在实际运行中需要数据中心应用开发和运维共同努力,将其算力最大化的提供有效的服务,这才是真正反应和衡量一个数据中心有效算力与耗能的水平,因此有效算效(ECE)才是真实反映数据中心算力与数据中心整体耗能的比值,即数据中心每瓦功率所产生的实际算力,这个算效是动态的,数值越大,代表单位功率的算力越强,算效越高,消耗的电能越低更节能,同时反应数据中心的管理和调度能力越强。计算公式为:
      
      ECE=ΣCP(有效)/(PCIT+基础设施)
      
      式中:ECE—为数据中心所有服务器实际运行的算效,统计时间单位为天
      
      ΣCP(有效)—为数据中心所有服务器的实际运行的算力,用单精度浮点数(FP32)表示。操作系统可以按时采集到CP(有效)数据。
      
      PCIT+基础设施—为数据中心所有IT设备的耗能+基础设施的耗能,单位为KW。
      
      2.数据中心存力、存效与能效关系模型
      
      大数据时代的到来,目前我国数据总量达800EB,存储的总容量超过1000EB,存储设备超过30万台。按照每台存储阵列3kW计算,每年消耗的电力为30万×3kW×8760小时=78.84亿kWh
      
      1)数据中心的存力(Storage)
      
      SCE=ΣSC÷SCe
      
      其中:SCE--所有存储设备装机容量与耗能的比;
      
      ΣSC--为所有存储设备的容量,容量的单位为TB;
      
      SCe--为所有存储设备的耗能,单位为KW。
      
      这个考核指标衡量存储设备提供的存储容量需要消耗的电力,反映了存储器的存储能力与能耗比值,代表存储设备出厂的性能指标。
      
      2)数据中心存力使用效率(Storage usage efficiency)
      
      虽然大数据时代的到来,数据量呈指数级的增长,但是衡量存储设备的使用效率应该是看存储设备数据交换(读写)使用效率。做到对数据的采集、存储、使用科学的规划和合理的使用,因此需要关注数据中心存储的实际使用效率与耗能的关系。
      
      SUE=ΣSU(有效)÷SCe
      
      式中:SUE--为存储设备实际使用(读写)数据量与实际耗能比,统计时间单位为天,反映存储器实际的使用效率;
      
      ΣSU(有效)--为所有存储设备的实际读写量,单位为GB
      
      SCe为所有存储设备的耗能,单位为KW
      
      3.数据中心的运力、运效与能效关系模型
      
      数据中心IT设备效率需要考核的另一个指标就是网络运行能力,又称之为运力。网络运力是指网络系统数据交换的能力,通常指带宽。数据中心网络能力包括三个方面:数据中心与外部数据的交换能力、数据中心服务器之间数据的交换能力、数据中心服务器与存储交换能力。三种运力架构见图1。
      
      1)数据中心外联网络有效运力(Externalnet work efficiency)
      
      ENE=ΣENS(有效)÷ENSe
      
      式中:ENE--为外联网络交换设备实际交换的数据量与外联网络交换设备耗能比;时间单位为天;
      
      ΣENS(有效)--为外联网络交换设备一天实际输入输出的数据量,单位为GB;
      
      ENSe--为外联网络设备一天的能耗,单位为KW。
      
      2)数据中心内部总线网络有效运力(Internal busnetwork efficiency)
      
      IBNE=ΣIBNS(有效)÷IBNSe
      
      式中:IBNE--为数据中心服务器之间网络交换设备实际交换的数据量与网络交换设备耗能比,时间单位为天;
      
      ΣIENS(有效)--为所有服务器数据交换网络交换设备实际输入输出的数据量,单位为GB;
      
      IBNSe--为内部总线网络设备的耗能,单位为kW。
      
      3)数据中心存储网络有效运力(Storagenet work efficiency)
      
      SNE=ΣSNS(有效)÷SNSe
      
      式中:SNE--为存储网络交换设备实际交换的数据量与存储网络交换设备耗能比;时间单位为天;
      
      ΣSNS(有效)--为存储网络交换设备实际输入输出的数据量,单位为GB;
      
      SNSe--为存储网络设备的耗能,单位为kW。
      
      (未完待续)
      
      编辑:Harris
      
      

  •