1 前言
2020年初突如其来的新冠肺炎疫情使人们的生活、学习和工作越来越依赖网络,如网上购物、网上买菜、网络教学和居家办公,数字经济基石的数据中心作为新基础设施而得到重视。由于人员不能正常到岗,数据中心的运维安全正面临着风险,因此越来越多的数据中心业主开始着手向数字化、智能化运维发展,以降低人员对数据中心运维风险的影响。德勤管理咨询公司(Deloitte Insight)发布的《2020技术趋势报告》中提到了的数字孪生(Digital Twin)技术,被誉为2020年的技术趋势,意味着这项技术在2020年将有新的发展或应用。
2 什么是数字孪生
数字孪生的概念可以追溯到2002年密歇根大学教授Dr.Michael Grieves在一次演讲中第一次提出了数字孪生概念,不仅仅指的是产品的设计阶段,而延展至生产制造和服务阶段,但是由于当时的数字化手段有限,因此数字孪生的概念也只是停留在产品的设计阶段。随着数字化技术的发展,2011年美国空军研究实验室利用数字孪生这个概念来解决战斗机机体(Airframe)的维护问题。
2018年数字孪生技术被Gartner(全球最具权威的IT研究与顾问咨询公司)宣布为数据中心Top10的技术趋势。Gartner定义数字孪生是虚拟世界(Virtual)与现实世界(Real)的动态连接;Deloitte定义数字孪生是物理世界(Physical)与数字世界(Digital)的桥梁,搭建物理系统、资产或过程的数字仿真模型。通过数字技术、机器学习和优化洞察物理世界的行为,提供更精准的人为决策。数字孪生技术通过传感技术和物联网技术(IoT)链接现实世界,采用人工智能技术(AI)、大数据分析、CFD等技术手段建立并持续更新数字模型,为决策提供依据。随着物联网技术(IoT)、人工智能技术(AI)、传感技术、大数据分析技术的发展,数字孪生技术也不断扩展其形态和应用。
数据中心的生命周期与工业产品相比有它的特点,它是建筑和IT的完美结合。设计和建设阶段像是十月怀胎,而当IT设备真正部署运行才是数据中心产生价值的真正开始。因此,数字孪生技术在不同阶段有不同的表现形式,本文重点讨论数字孪生技术在设计阶段到运维阶段的主要应用。
3 数据中心设计阶段的数字孪生
数据中心设计阶段的数字孪生技术主要表现为3D建模和仿真,通过CAD软件、BIM软件、CFD软件等工具实现设计阶段的数字孪生模型。这个阶段采用数字孪生技术能够在虚拟环境中验证不同场景下设计方案的适应性、合理性,能够提高设计效率,优化设计方案。设计阶段采用数字孪生模型付出的成本和代价最低,而获益最大。
目前设计阶段的数字孪生技术及应用已相当成熟及广泛。图1以示例说明,设计阶段通常会以CAD或BIM模型来查看不同的布局方案,评估模型是否有干涉等,以CFD模型分析不同方案之间气流组织分布以及机柜温度分布情况如图2,从而为选择最佳设计方案提供依据。这也是数字孪生技术的核心。设计阶段的数字孪生模型就像是孕育的胎儿,这个阶段的模型与下一阶段建设和运维是密不可分的。
通常设计阶段除了分析布局以外,也尝试一些空调或电力失效方案,以保障整个系统在设计上没有缺陷,并为可能发生的场景进行了提前布局。值得一提的是,设计阶段的数字孪生模型如果能够交付给运维阶段的人员延续使用,这将大大提高模型的使用效率,并使其生命周期的孪生更加完整。
4 数据中心运维阶段的数字孪生
数据中心运维阶段相当于从婴儿呱呱坠地至其终老,以数字孪生技术可以实时观察其变化,预测其发展,从而为其健康运营保驾护航。运维阶段与IT部署的变化、环境的变化、设备的老化等诸多因素有关,其健康安全运营并不是一件易事。数据中心行业本身也是处于快速发展的阶段,这意味着有很多先进但未必成熟的新兴技术或得以应用,因此新技术本身的验证对于数字孪生来讲也是机遇和挑战。
该阶段数字孪生技术不仅仅用到了3D仿真技术,还要涉及物联网(IoT)技术、人工智能(AI)技术和数据分析技术。不同技术的应用程度将产生不同的价值,以下将从IT变更应用、容量管理和节能三个方面介绍数字孪生技术的应用和前景。
(1)IT变更管理
IT变更是运维工作中每天可能发生的事件,目前很多数据中心在进行IT设备变更的时候仍是比较盲目,往往根据经验进行,而数字孪生模型将可以终结盲目。表1给出了数字孪生技术的IT变更应用流程。3D仿真技术将以真实IT部署进行建模,以保证数字孪生模型与现实物理模型一致。除了在外形尺寸上一致,数字孪生模型更重要的是与物理现实内在的运行数据一致。因此需要对运行数据进行采集和分析,从而为下一步行动决策提供依据。
IT变更是数字孪生技术在运维阶段最基本的应用,看上去并不复杂,但它可以让运维人员进行的变更不再盲目,也避免了潜在风险。图3是实际数据中心的数字模型,所有的IT设备型号、位置及运行状态都与实际数据中心完全一致。状态数据可通过传感器进行实时交互。
(2)容量管理
数据中心的容量是商业运营最关心的指标之一。据市场统计,数据中心的平均容量利用率为70%,也就是说如果建设了一个容量为10MW的数据中心,实际上只部署了7MW的设备,还有3MW无法利用。如果按每kW建设成本3万元人民币计算,这个数据中心建设成本就损失了9000万元。那么数字孪生技术是否可以帮助减少容量损失呢?答案是肯定的。
首先要进行的分析是这3MW的容量没有被利用的原因。通过构建的3D可视化模型,分析可以发现,数据中心实际IT设备的部署往往与设计阶段有较大差别。以一个机柜为例,设计时按照完全一样的IT设备满负荷部署,但实际上是由不同类型、不同规格、不同性能的IT设备组成,设备运行产生的热量不是均匀分布的,这就有可能造成局部热点。如果有设备高温报警,担心IT设备进风温度过高,此机柜不再添加设备,因此它的利用率通常不高于70%。
数据中心的容量利用率取决于其空间、承重、电力、冷却和气流等五个利用率,而通常在数据缺乏的情况下,不能确定到底短板在哪里,而数字孪生模型可以通过分析明确短板所在。图4是某数据中心数字孪生模型提供的信息,图4(a)可以看出气流已经达到80%利用率,而电力为60%,而当气流达到100%时,电力为80%,这样就意味着电力20%的损失。而通过数字孪生模型优化以后,图4(b)所示气流浪费减少,实际气流利用率下降,于是该数据中心就有了40%的容量可以布局IT设备。
(3)节能运行的应用
数据中心的节能运行是近些年的热点,各种节能设备和技术应运而生。比如间接蒸发冷却AHU、液冷都是目前节能效率较高的技术,也有较多应用案例。而人工智能(AI)、机器学习(MachineLearning)等技术也正在被广泛研究和应用。谷歌数据中心2017年就将机器学习的技术应用到其数据中心节能运行中,截至2018年通过对大量运行数据的机器学习和使用,数据中心节能达30%。数字孪生技术能够帮助充分利用其CFD仿真模拟的优势,并与AI技术结合达到数据中心节能运行的目的。机器学习的方法很多,这里讨论两种常用方法,监督学习和强化学习。
①数字孪生技术与监督学习结合
谷歌采用的机器学习即是监督学习的方法,该方法需要大量的运行数据样本用于训练。样本数据量越大,机器学习模型越准确。针对不同数据中心,可以设置同的输入变量和输出变量。输入变量通常包括:表征系统实时负载的变量,表征冷却系统运行的控制变量以及表征环境的变量,如:IT设备发热功耗,冷机供回水温度、流量、空调送回风温度、风量、大气温湿度等值。输出变量可设定为PUE值最低,约束为IT设备进风温度不超过27℃或者其它温度。通过大量的运行样本数据,监督学习的方法可以在输入量和输出量之间建立相应的数学模型,然后可以根据输出变量目标值和约束条件,最优化获得最佳的控制变量数值,从而达到节能目标。
现有的数据中心,虽然有大量的基础设施运行数据,但是由于并未提前有计划的部署传感器和控制器,导致监控的变量缺失或变化范围小等原因,机器学习获得的数学模型并不足以表征输出变量的主要影响因素,最终导致无法获得最优化的PUE值。因此我们可以借助CFD数字孪生模型(90%以上相似度)来模拟不同的运行工况,从而补充大量的运行数据,并提供给AI算法,这将大大提升AI模型的泛化水平。CFD数字孪生模型与实际运行数据也可以有90%以上的相似度,是可信的。下面以一个案例简单说明:
如图5所示,数据中心147平方米,采用高架地板下送风,部署机柜44台,单机柜负载4.5kW,部署空调4台,每台冷量60kW,风量320立方米/分。目标为空调末端能耗最低,即空调风量最少,控制变量为空调风机转速最低,同时约束IT机柜进风温度不超过24℃。基于这个条件,我们建立数字孪生模型且在相应的位置安装传感器。通过CFD仿真模型,模拟获得需要的运行数据样本,机器学习的步骤如图6所示。
本项目监督学习中通过DOE设计工况得到空调转速组合(图7),再通过CFD数字孪生模型计算得到数据样本,然后通过高斯回归的算法,得到预测结果,再回到数字孪生模型上进行验证。
如图8所示,图8(a)为优化之前空调全部转速均为100%,图8(b)为优化之后空调转速下降了23.5%,全年可节能50%。
②数字孪生与强化学习结合
监督学习方法的优点是计算速度快,缺点是需要大量样本数据。而强化学习刚无需样本数据,但缺点是计算较慢。强化学习的方法也很多,本案例采用了Q-Learning的方法。目标:空调的最小风量。约束:IT设备进风温度小于27℃。
图9为数字孪生模型,其面积为36m2,采用地板下送风,空调一台,冷量60kW,风量216立方米/分,机柜6台,每台8kW。
强化学习的思路是根据风机运行的当前状态确定下一步动作,状态为风机转速输出0%~100%,动作为转速上升、不动作、下降,每次调整1%,同时转速调整还要满足IT设备进风温度低于27℃的条件,转速上升、不动作、下降的区间分别为大于等于27℃;小于27℃大于等于26℃;小于26℃三种情况。
强化学习最后直接输出最优的风机转速,并且实际反应在数字孪生模型中。当做出正确预测方向则给予奖励,当做出错误预测,如机柜进风温度超过27℃,则给予惩罚。如此循环直至结束。
表2为强化学习的Q表,第1列风机转速输出,第2-4列为Q值,Q值大的地方为优化后的转速,从表2中可以看出空调风机最优转速输出在60%~63%之间。
表2中在风机转速61%时Q值在不动作时最大,所以这个值为最优解。
5 结束语̶未来趋势
事实上数字孪生技术在数据中心的应用还有很多,未来随时技术的发展和成熟会有更多方面的应用。不仅仅包括数据中心运行维护,安防、网络安全、财务等都可能与数字孪生模型上互相交叉获取数据并进行分析,使数据中心运行在最安全、最绿色的状态,使企业运行在最简单、最盈利的状态。
作者简介
黄冬梅,浙江大学博士,北京瑞思博创科技有限公司总经理,中国数据中心技术专家委员会委员(CDCC),中国数据中心节能技术委员会专家委员(GDCT)。从事数据中心、物联网、人工智能等技术20余年。2010年引进英国Future Facilities公司6SigmaDCX数据中心CFD软件,为国内数据中心行业发展作出了重大贡献,国内率先倡导数据中心数字孪生技术。《数据中心手册》中文版主编,《数据中心CFD技术白皮书》主编。
杨超,重庆大学在读博士,北京瑞思博创科技有限公司副总经理,数据中心设计师技术委员会委员。17年CFD软件应用经验,擅长电子设备热设计及数据中心机房制冷设计、防腐蚀、噪音控制等;曾任伊顿创新中心项目及技术经理,从事热管理及结构设计工作;完成数据中心CFD仿真咨询项目几十个。
编辑:Harris