"云计算时代的到来,以云服务商业模式为驱动,推动云数据中心基础设施持续变革。随着云数据中心规模越来越大,单机柜功率密度越来越高,对可靠性和自动化提出了更高的需求;为了能更快响应客户需求,边缘型数据中心越来越多,需要基础设施高密度集成、网络化维护。云数据中心建设,呼吁更节能、更可靠、更自动化、智能化的运维与管理。"--华为CloudBU全球云数据中心设计与技术总监檀志恒。
华为CloudBU全球云数据中心设计与技术总监檀志恒在第四届数据中心基础设施峰会上发表了题为《云时代数据中心对基础设施的挑战和需求》的演讲。
以下为精彩演讲实录(有删减)
各位嘉宾,上午好!我今天和大家分享的题目是《云时代数据中心对基础设施的需求和挑战》,这个题目有点大,在开始这个题目研讨之前,我想和大家共同思考一个问题,传统数据中心和云数据中心的根本区别到底是什么?
传统数据中心与云数据中心的根本区别在于商业模式的不同
我很赞同一种观点,这个观点就是商业模式的不同,是传统数据中心与云数据中心的根本区别。为什么这么说呢?对于传统数据中心我们通常总是认为,在传统数据中心里面我们是以数据中心的设备为主,从而相对割裂数据中心基础设施与企业服务产品,那么快速发展的企业服务,对数据中心基础设施的要求,尤其是对交付的要求是很高的,我们传统数据中心的这种以基础设施为核心的或者说为中心的这种理念,不能满足快速发展的企业服务要求。
我们会看到,为了解决这种结构性的矛盾,我们必须以转变传统数据中心的架构,我们必须以服务为导向,把这个传统的数据中心基础设施,以及我们所运用的运营管理平台,以及服务产品,作为一个统一的服务产品,按时随时随地快速的进行交付。所以我们云时代数据中心的基础设施的建设,都必须以保证商业模式这种建设的成功为前提。我今天所研讨的话题就以这个为核心来进行展开。
云时代数据中心架构对基础设施布局的影响:以多可用区为指导,对数据中心进行规划
我们先介绍一下云数据中心基础设施的布局的影响,首先我们看一下云的这种商业模式,低成本诉求驱动数据中心向内蒙、宁夏、贵州这些低成本区域进行会聚,大型云数据中心的厂家前店后厂这种数据中心的部署模式逐步形成,云区域多可用区(AvailableZone)等概念被业界普遍接受并应用。讲这些内容大家会有一些疑问,对我们数据中心的建设者或者规划者有什么意义呢?作为云数据中心的管理者,我们在市场或者我们在经营中遇到很多问题,我知道今天有很多嘉宾来自于数据中心的规划,包括政府部门,实际上我们在市场中应该深刻的理解云这种商业模式对于我们数据中心基础设施建设的影响。
比如说多可用区这种概念被业界普遍的接受和实施,我们数据中心的规划者和建设者,就应该深刻的理解多AZ的概念,比如我们云要部署在多AZ的基础上,在市场上我们进行数据中心规划的时候,就应该以多AZ为指导,比如说我们在距离和网络时延要求上,我们有一定的要求,我们在市场上会发现我们有很多的数据中心,但是这种结构性的差异,比如说我们在建设的时候,没有考虑业务场景的具体的要求,我们的数据中心都是扎堆建设的,或者说我们数据中心的规划离得特别远,满足不了时延的要求,那么对于我们云服务的这种商业模式就不能够进行满足。
从华为云在中国区域部署的架构中,首先我们可以看到在核心层,我们在乌兰察布、在贵安有两个大规模低成本的资源池,也就是我们前面提到的后厂,对于时延要求比较敏感的客户,我们在东南西北、华东、华北,就是北京区域、上海区域,以及华南、广州和深圳,包括我们的西部区域,包括我们今天所在的成都以及贵阳,我们部署了二级核心起点,我们还会结合客户的需求,华为云在一些二三级城市部署了边缘节点的数据中心。
讲完了布局整个架构的影响,我们看一下云这个产业在我们中国对于实际数据中心的落地到底是一个什么样的影响。我们从最近的四年,应该说大概是从2013年或者2014年开始,大型云数据中心在一类地区,刚才提到的内蒙、宁夏以及贵安、贵阳等地区密集布局,开始落地。包含华为在内的阿里巴巴、苹果以及腾讯等公司这些云玩家已经建设好或者是已经开始进行布局数据中心。
云时代刺激了超大型数据中心和边缘性数据中心的需求
1、超大型数据中心的规模越来越大
讲完布局方面的影响,我们看一下云数据中心对数据中心基础设施规模的影响。根据CISCO对超大型数据中心规模的统计和预测,从2016年开始到2021年超大型数据中心的年负荷增长率达到13%,超大型数据中心的一些特点,我这里简单的介绍一下,后面我会结合数据中心的规模给我们业界和行业的挑战做一些讲解。超大型数据中心除了服务器规模达到了10万台或者几十万台这样的规模以外,同样它的功率密度越来越高,达到了8到15千瓦,甚至更高,那么我们华为云数据中心有关AI或者其他的一些应用的部署,单机柜功率密度有可能达到几十万千瓦的水平。同样数据中心的建筑面积以及网络连接是越来越密集,对于安全的要求也是越来越高。
2、边缘计算数据中心的部署需要更加集成化和快速化
超大型数据中心的规模越来越大,是不是代表小型数据中心就没有未来?事实有可能是恰恰相反的。我们知道万物互联浪潮的到来,远程的云数据中心系统已经满足不了或者是解决不了这种需求,而边缘计算是一个很好的解决方案,可以说边缘计算是小型数据中心的未来,因为不仅仅对于我们个人,对于企业运用客户来讲,比如说我们自动驾驶或者是无人驾驶汽车,远程的办公系统,以及华为的体验店,这些应用场景都要求数据中心基础设施更加靠近数据源,这个时候才能满足随时快速的接入的要求。除了对于布局的要求以外,从小型数据中心的管理和部署方面来讲,我们要求数据中心更加集成化,部署更加快速化,要求一键即成,快速部署,当然对于我们小型数据中心由于广泛的布局,同样对基础设施以及整个信息安全的管理提出的挑战,怎么通过远程智能化的管理来保证管理效率的提升,以及信息安全的保证,这个都是我们面临的挑战。
云时代数据中心基础设施交付更加聚焦于
按需部署、弹性、去工程化、模块化、标准化
讲完规模,我们再看一下我们云这种商业模式下,我们对数据中心基础设施的交付,同样我们面临的挑战。由于我们业务的不确定性,给我们规划造成了一定的挑战,我相信我们在座的有很多数据中心的建设者,当我们规划的过于激进,我们超前规划的时候,我们就会造成大量的提前投入,当我们规划太少的时候,我们就满足不了业务的需求,由于数据中心是一个重资产的投入,我们要严格控制现金流,同样我们前面讲到了由于我们现在数据中心结构供给上面临的一些问题,对于数据中心的机房资源,尤其是对于我们云数据中心的需求者,比如我们在市场找数据中心资源的时候,发现数据中心租赁的资源是很短缺的,也就是一种结构性的短缺,虽然我们的规模现在越来越大,但是能够满足我们需求的数据中心这种基础设施有可能还是相对比较少的。
我们就要求数据中心基础设施的交付要根据我们的业务按需、弹性、快速,能够去工程化、模块化、标准化,对业界一些好的应用或者好的理念,比如说在FACEBOOK提出了RDDC概念,亚马逊提出了JITDC的概念,华为提出FusionDC的概念,所有这种交付的方式,都是为了满足我们云这种产业或者这种商业模式的需求。
云时代数据中心对基础设施架构、设备的需求
1、直接蒸发or间接蒸发冷却的技术?
我们前面讲到了数据中心基础设施的部署,包括规模和架构,那么对于我们实际的数据中心各个系统里面的架构到底有什么影响呢?前面我介绍到数据中心在我国逐步向内蒙的乌兰察布、贵阳以及宁夏的区域进行汇集,这些区域我们前面讲到一级数据中心的建设区域,自然新风直接冷却方案,包括直接蒸发、间接蒸发冷却的技术,在这个数据中心得以应用和实施。设计PUE可达1.1-1.2,我昨天到的西安,其实对于我们西北地区,我们有很多的数据中心建设,其实刚才讲到的直接新风含直接蒸发冷却技术、间接蒸发冷却技术,在我们西北地区有广阔的前景,我昨天到西安以后有点遗憾,下来就是有很严重的雾霾,为什么我觉得有点遗憾呢?如果大家仔细研究业界,尤其在在美国在数据中心产业目前空调冷却的解决方案来看,直接蒸发冷却技术是在目前包括亚马逊、微软、FACEBOOK大型云玩家里面是最科学、商业模式最成功的技术解决方案。现在不管是西北地区还是华北地区,我们的雾霾很严重,我们就要转向间接蒸发冷却方案。
2、未来需要采用板极液冷的制冷模式来解决高密度服务器的应用
前面介绍了空调直接新风冷却技术,下来我们讲一下由于我们AI以及EI等运用场景对于GPU、CPU以及TUP这方面的应用,传统的风介质的冷却,已经不能满足高密度,也就是我们核算TCO的时候,大于15千瓦的部署,已经不能满足这个要求,板极液冷、全液冷、浸没式的液冷等数据中心空调方案正快速落地、推广。对于华为来讲,我们开始部署刚才说的在西北地区、在华北地区的乌兰察布以及在西南地区的贵安、贵阳等地区,我们采用了直接新风以及间接新风的解决方案,未来我们会采用板极液冷的制冷模式来解决高密度服务器的应用。
3、云数据中心需要更加弹性的供电架构
我们讲一下对于供电架构以及供电设备的需求,我们对于传统的数据中心,我们最多的用户架构是我们经常说的2N的架构,由于上层云技术的应用、上层架构的进步,我们越来越多的供电架构的出现,包含我们的UPS,包括N+R等架构,这种架构降低了整个数据中心TCO的成本,也就是我们在云数据中心里面对供电架构基础设施的需求越来越有弹性,我们在座的各位更应该根据我们每个公司的商业模式来选择不同的供电架构,根据我们的技术水平或者说核算的TCO来选择不同的供电架构。我们一直在研究的分布式供电架构,随着电池技术的发展,分布式供电架构,包括BatteryinRack、BatteryinServer也将得以实施。
4、AI加速运维/运营管理的数字化、可视化、智能化
我们讲了大型数据中心,讲了千千万万个边缘计算数据中心,这些数据中心我们都要对我们的运维、管理提出挑战,我们分布全球的百万服务器手拉肩扛的管理模式已经不能满足这种需求,随着ZiGbee等无线互联的实施,我们万物互联的数字设备通过万物互联管理。并随着大数据、AI等技术得以应用,实现基础设施管理的自动化、智能化。
控制DC规模,降低水电
资源压力,保证行业可持续发展
我们对于基础设施,也就是我们的供电,包括制冷到底又面临着什么样的挑战?高效、绿色的数据中心是我们矢志不移的追求,我们不断的追求PUEDC的同时,同时要关注DC对水资源的消耗,2016年中国数据中心总耗电量超过1200亿千瓦,这个数字超过了三峡大坝2016年全年的总发电量,我们传统的数据中心,我们用的解决方案,大部分是用机械制冷+冷却塔这种模式,水资源由于成本方面的考虑,大家都不是很重视,因为它很便宜,对于我们经营成本来讲压力不是很大,但是我想强调由于数据中心规模的不断扩大,数据中心对水资源的消耗是一个特别大的挑战。
我去美国,包括和美国的同行进行交流的时候,在美国已经把数据中心的绿色或者高效,已经把PUE和WUE作为联合评价的指标,来评价数据中心的先进性。目前国内在我们行业标准里没有一个WUE的要求,在一些企业标准里,我大概知道的有可能有一两家提到了WUE的要求。比如说我们在国内有可能达到一个2.2升/千瓦时这样一个水平,有可能这还是一个比较好的水平,但是在美国达到了什么样的一个水平呢?比如在亚马逊、在FACEBOOK的WUE达到了0.2升/千瓦时,所以我们一定要注意我们对水资源这方面的消耗。为什么这样说呢?我们在实际数据中心的设计和建设的实践中,我们就遇到了问题,比如说我们在刚才提到的宁夏、在华北地区的内蒙乌兰察布等地区,这些地区水资源都相对匮乏,当我们大规模数据中心设计的时候,我们跟市政管理部门咨询的时候,明确提出你们水资源的要求,我们的市政管网、我们市政水系统满足不了你们的要求,尤其在一个区域内大规模部署数据中心的时候,这个要求和挑战是很大的。
随着DC单体规模的不断扩大,我们为减少这个区域内电力、水资源的压力,我们应该适当的控制单体DC的规模,尤其是一个区域的数据中心的规模。在减少这个资源要求的同时,从云服务这个角度来讲,我们可以适当控制DC的故障域,降低云业务的运行风险。
在座的有很多来自政府部门,以及数据中心的规划和建设的公司,我提议作为政府部门要适当的引导数据中心的布局,控制数据中心的规模,从而减少我们对电力、水资源的压力。另外我们数据中心的建设者也同样要适当的控制数据中心的规模,不是数据中心越大越好,在国内我们做宣传的时候,我们要少宣传多少数据中心的规模达到全球前几名,我们要适当控制数据中心的规模,从而保证这个行业可持续发展,并能够适当控制云服务的故障域。
编辑:Harris