咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
【白皮书】站在云端看DC—“后微模块时代”的变化与思考
  • 最近在为下个月的某个会议准备一份材料,把之前的一些资料重新梳理了一下,产生一些新的想法。干活、湿货、私货都有,不是写正经论文也没去找更多的资料和数据,所以错漏很多,希望能给大家一些启发。全文约8000字,有兴趣的朋友可以周末慢慢看。

    最近在为下个月的某个会议准备一份材料,把之前的一些资料重新梳理了一下,产生一些新的想法。干活、湿货、私货都有,不是写正经论文也没去找更多的资料和数据,所以错漏很多,希望能给大家一些启发。全文约8000字,有兴趣的朋友可以周末慢慢看。

    目录如下:

    1、回顾数据中心基础设施的技术发展历史

    2、云数据中心需要什么样的基础设施?

    3、云视角下基础设施面临的挑战

    4、智能模块化技术如何重构云基础设施

    1、回顾数据中心基础设施的技术发展历史

    数据中心是个庞大的系统工程,机房里有成百上千的软硬件系统,“数据中心”这个词在不同从业者眼中也有不同的含义。有人看到的是数据,有人看到的是应用软件,有人看到的是IT硬件,有人看到的是机房设施。

    这里说的基础设施是指给数据中心提供制冷、供配电、备电、消防的配套基础设施。业界俗称“风火水电”。

    笔者认为基础设施的发展可以分为几个阶段,不过首先要强调的是:1、基础设施的发展和演进,背后的驱动力有很多,除了本身技术的进步,更多的还是来自上层IT和业务变化的诉求;2、这个划分仅从技术角度进行判断,并非按照严格的时间定义来划分,因为技术的发展在不同区域、不同行业有很大的不均衡性。同时也会受到用户偏好、政策法规等非技术因素影响。

    第一阶段:传统架构的数据中心。

    对传统数据中心来说,基础设施存在的最大意义就是保证业务的连续性,所以,可靠性是对基础设施最主要的诉求。

    但设备总会发生故障,为了不影响系统的工作,基础设施一般通过增加冗余系统的方式来提升系统的整体可靠性(可用性)。比如两路不同来源的市电输入、各自独立的供电系统、更长的电池备电时间等等。

    这里要强调一下可用性的概念。简单的说,可靠性是指设备会不会发生故障,而可用性是指系统会不会挂掉。所以设备可以坏,但只要坏了之后有备份的设备接替工作,不影响系统工作,就可以认为系统具备很高的可用性。Uptime组织根据这一理念提出了tier等级的划分,用于判断数据中心基础设施的可用性等级,并沿用至今。

    第一阶段数据中心的诉求:业务连续性,不断电。

    第一阶段基础设施的应对:用设备的冗余堆叠来保证系统的高可用性。

    主要缺点:冗余设备导致的高成本、低负载率,设备的利用率不高。

    第二阶段:密闭通道的数据中心。

    随着数据量的增加,数据中心的规模也越来越大。大规模数据中心的设备电费大概占据了运营开支的70%,三年的电费就可以新建一座数据中心。所以,降低能耗、节省电费是该阶段对基础设施的最主要诉求。

    数据中心的耗电中,除了IT设备本身的耗电无法避免,其他的电费开支包括温控系统的能耗、供配电系统的能耗、照明系统的能耗等。这其中,温控系统的能耗占比超过50%,所以降低能耗最主要是提升制冷的效果,降低温控系统的能耗。绿色网格组织根据不同设备能耗的占比提出了PUE的概念,即总能耗/IT设备能耗,PUE越低代表数据中心越节能。

    传统的空调下通风机房采用密闭通道后可以隔离冷热气流,使冷空气得到高效的利用,从而降低空调的耗电。除此之外,密闭通道还可以形成冷池,部分解决冷热不均的现象,避免因为服务器负荷过高产生局部热点。配合高效的制冷系统,这种方式可以将PUE从2.0以上降低到1.6以下。密闭通道的数据中心是微模块产生的雏形,可以视为微模块的1.0阶段,该阶段的数据中心基础设施的特点有:

    单部件拼凑型;

    传统DC+密闭通道;

    集中式供电、制冷;

    初级动环监控;

    本地表格化可视管理;

    本质上还是工程集成。

    第二阶段数据中心的诉求:高效、省电、低PUE。

    第二阶段基础设施的应对:密闭通道提高制冷效率,降低温控系统能耗。

    主要缺点:工程量大,非标准产品,现有产品的拼凑,效果难以衡量。

    第三阶段:近端制冷微模块。

    随着IT设备性能的提升,数据中心功率密度也越来越高。而互联网的快速发展,尤其是各类移动应用的爆炸式发展,也要求数据中心可以快速提供资源满足业务扩张。高功率密度、标准化、可复制、可快速交付是该阶段对基础设施的最主要诉求。

    为了满足高功率密度的发展,近端制冷的行级空调应运而生。而伴随着互联网企业的推动,各种微模块数据中心陆续出现。微模块利用现有的UPS、行级空调等产品,将供配电、制冷、甚至电池等子系统都集成到一个个独立的标准化的模块里面,对外提供统一的冷、电接口。

    因为采用标准的产品,可以在工厂进行预制化生产,并提前完成测试和部分工程安装,所以微模块满足了互联网企业快速复制、快速交付、随需扩容的要求。除此之外,一个个相对独立的微模块实现了物理分割,而内部相对独立的冷电系统,即使发生故障,也不会造成大面积的影响。实质也上提升了系统的可用性。将复杂的庞大的系统,分割成相对标准的独立的系统,并联合工作互为冗余,正是分布式数据中心的理念。

    这个阶段是微模块的产生和发展期,可以视为微模块的2.0阶段,该阶段的数据中心基础设施的特点有:

    标准化产品

    微模块数据中心

    模块化UPS、行级空调

    各系统独立管理

    本地图形化可视管

    标准部件+少量工程

    第三阶段数据中心的诉求:快速部署、随需扩容、高功率密度。

    第三阶段基础设施的应对:微模块快速部署,行级空调提升功率密度。

    主要缺点:设备来自不同厂家,各子系统独立工作,接口多,标准复杂,运行效率较低。

    第四阶段:智能微模块。

    随着移动互联网和智能终端的快速发展,AI、大数据、物联网等技术将我们带入了智能时代,数据中心也从配套系统变成了生产系统。尤其公有云的迅速普及,使得云数据中心变成一种趋势,云数据中心也因自身的业务发展,对基础设施提出了新的诉求。如自动化管理、更低的成本、更好的收益、美观的设计、数据的安全、针对各场景的独特需求等等。

    笔者认为,数据中心的基础设施已经进入了“后微模块时代”,而智能化的相关技术将主导这一阶段的变化。

    从硬件上来看,主要呈现一体化集中化的趋势。这个阶段的子系统是真正针对微模块本身进行开发设计,从实际需求出发,由功能定义,打破原有子系统之间的物理间隔。比如,需要紧凑的设计来减少占地面积,那么就要把原来的UPS、输入配电柜、输出配电柜、ATS柜全部集成到一个柜子里。

    从软件上来看,主要呈现智能化的趋势。更精细化的能量管理和控制,就需要融合、拉通原有各子系统,做到整体监控、统一管理。另外还要去除原有产品中多余的功能,重新进行优化设计,提升整体系统的性能。

    要实现以上要求,就必须借助物联网、人工智能等智能化的技术手段。所以这阶段的微模块产品可以叫做一体化的智能微模块。

    这个阶段是微模块的成熟期,可以视为微模块的3.0阶段,该阶段的数据中心基础设施的特点有:

    智能模块化

    微模块内全模块化设计

    一体化UPS、智能配电

    功能定义,各系统初步融合管理

    网络化集中精细管理

    已成为一款产品

    第四阶段数据中心的诉求:自动化管理、更低的成本、更好的收益、美观的设计、数据的安全、针对各场景的独特需求。

    第四阶段基础设施的应对:智能微模块、功能定义的产品设计、系统整体优化。

    主要缺点:受限于智能化技术发展,部分应用尚未成熟,大规模普及仍需时间。

    以上是对数据中心基础设施技术演进的简单回顾。笼统的说,早期的技术驱动力,主要来自电力电子(如UPS效率的提升)、制造工艺(如高密度需要的散热设计)和工程设计(如机房规划、制冷方式)这三个领域的变化;而后则是来自新能源(如太阳能)、新的ICT技术(如高温服务器、融合一体机)以及新的标准变化(如可靠性等级、机房温度)。而从微模块3.0阶段往后,则更多的会来自大数据(如故障预测)、机器学习(如能耗分析)、物联网(如各种传感器)、机器人(如自动巡检)等智能化技术。

    2、云数据中心需要什么样的基础设施?

    在讨论这个问题之前,笔者希望先阐述两个观点,这两个观点将有助于读者理解云数据中心为什么会和以往不同。

    观点一:产品设计需要以用户为中心,从实际需求出发。

    同一件事情,站在不同的角度和不同的立场去看,会得到不同的结论。这道理大家都明白。所以多角度看待问题是一种必备技能。如何保证得到正确的结论?从用户的角度去看待问题。保证自己和用户处于同一角度。

    对终端消费领域,比如手机、家电、日用品等,人人都是消费者,所以大家很容易就知道哪款手机好用,哪款家电好用,因为可以亲自体验。设计者也更容易收集用户意见作出改进。

    而企业市场,尤其是一些专业领域的产品。设计者也许永远都不会有机会去使用这些产品。所以很可能精心设计的功能并不受用户欢迎,或者用户实际需要的功能设计者又不能理解。所以工业产品的设计者必须了解产业的变化、技术的变化,不能因循守旧墨守成规。

    观点二:云是一种特殊的商品。

    传统数据中心更多承担的是为企业业务辅助配套的功能;而云数据中心,尤其是公有云,本身就是企业的主营业务。功能定位的不同,是二者最大的差异。

    云计算的本质是提升资源利用率。云数据中心的本质是用一堆便宜的硬件(X86)和开源的软件堆叠出高性能低成本的数据中心。而公有云本质上是一种服务,或者说,是一门生意。

    既然是做生意,就要考虑三个最核心的问题:

    投入的成本、投资的回报、以及商品能否卖的出去?

    如果说公有云是商品,那么云数据中心就是商店。有人说过,未来公有云将会像空气和水一样变成一种可以方便获取的资源。在笔者看来,未来的云数据中心就像随处可见的便利店。而对于便利店来说,它不再是一种稀缺资源,价格和便利性将是影响用户选择的首要问题。

    所以,对于云数据中心基础设施来说,未来一切的演进和技术变革,也都将围绕三个核心商业问题,并从价格和便利性两方面去帮助“云”这一特殊商品获取市场。

    3、云视角下基础实施面临的挑战

    如上文所述,云作为一种特殊的商品,同样要考虑三个核心商业问题。对基础设施来说,其实就是高投入、低收益、以及业务不确定性这三个问题。

    高投入:数据中心是高投入、高能耗产业。需要投入大量资金在土地、建筑、工程建设、设备采购、运营维护等方面。传统的数据中心以自用为主,投入主要来源于企业自有资金,规模通常也不大,所以问题还不算严重。

    而云数据中心,本身的目的就是为了降低企业投入,尤其是以赚钱为目的的公有云,可能还要考虑融资的风险。所以,一些在传统数据中心看来理所当然的做法(比如增加冗余设备提升可靠性)对于云数据中心来说就显得难以接受,这也是一些互联网企业会采用传统看来“不可靠”的架构的原因之一。

    低收益:数据中心是毫无疑问的重资产运营模式。如何赚钱、如何快速收回投资是云数据中心的投资者最关心的问题。影响投资收益的因素主要有运营支出和销售收入。所以数据中心的运营者一方面需要减少支出,如减少电费开支、减少人力运营成本、减少土地租赁成本、获取政策补贴等;另一方面还要考虑增加销售收入,如提升单位面积的租金、增加用户数量、提升出租率等。

    业务不确定:业务不确定包括两个方面,用户业务发展的不确定和用户业务特征的不确定。

    用户业务发展的不确定,如“双十一”导致的业务量暴增、爆款应用带来的用户量飞升对于互联网企业来说非常普遍。这种业务发展的不确定性是虚拟化和云计算发展的驱动力之一,通过云计算可以解决计算、存储等资源的弹性获取问题,而基础设施同样也要具备这种按需扩容、快速复制的灵活性,需要在极短的时间内快速提供空间、电力等资源。

    用户业务特征的不确定性,不同于传统自用数据中心的业务属性决定基础设施,云数据中心(或MTDC)是先建设基础设施再考虑向不同用户出租。而不同行业和应用场景,对基础设施也有不同的要求。比如有的需要物理隔离、有的需要独立供电、有的需要更高的安全防护、有的需要美观漂亮。这种定制化的客户需求,是传统千篇一律的数据中心基础设施所无法满足的。

    除了以上三个问题以外,和传统的数据中心一样,云数据中心同样也有诸如低PUE、高可靠性等方面的诉求,这里不再赘述。

    笔者认为,为了更好的解决这些问题,必须抛开“风火水电”的传统思维,真正从云的角度去思考,利用智能化、模块化的技术从商业模式、用户体验、投资收益三个方面去提升甚至重构云数据中心的基础设施。

    4、智能化模块化技术如何重构云基础设施

    包括三个方面的提升和重构:

    商业模式的重构、用户体验的重构、投资收益的重构。分别对应数据中心的建设、使用和运营三个维度。

    4.1商业模式的重构:围绕最佳TCO满足不同诉求,应对场景的多样化

    数据中心是系统的工程,影响资金投入的因素有很多,比如地理位置,北上广深等一线城市和西部城市的土地租金肯定不一样;比如机房环境,专业的数据中心机房建造成本高,但利用仓库、厂房、商业楼宇进行改造也不是不可以;比如资源弹性,空间电力、交付的速度、可扩容性等会影响资金投入;比如运营成本,包括电费、人力、设备维护的开支等;比如安全等级,对架构冗余、备电时长、可靠性等级的要求不同,投入也不同。

    不同类型的数据中心,所侧重的关注点不同,会很大程度上影响资金投入。比如传统数据中心,对安全等级、地理位置、机房环境比较看重;而大型云数据中心,则更看重运营成本、资源的弹性,所以可能会布局在西部地区、建设在改造厂房里、分期来部署;而对于小型或边缘数据中心,主要服务本地用户,对地理位置会更看重。

    传统的数据中心,因为要满足不同的需求,设计复杂,缺少标准化的模组,几乎每一座都是独一无二的,建设成本很高。那么智能模块化的技术是如何影响和重构商业模式的?

    首先,环境适应性强,选址更简单:

    室内、室外、半开放,多种形态适配不同环境:微模块,本身就是标准化的产品,在相同的内核下,外形上可以延伸出多种多样的形态,从而适应不同的环境。

    电信机房、工业园区、商业楼宇,灵活改造降低投资:因为本身就是一个个模块,所以一个微模块基本上就是个独立的机房,可以对内部设备进行保护,对外部环境也具备一定的物理防护等级,没传统的设备那么“娇贵”。不需要新建专业机房,现有的厂房、仓库、大开间都可以改造成机房,所以可以大幅降低建筑成本。

    带来的效果:降低数据中心建设门槛,助力传统企业转型。近年来,越来越多的传统制造企业,利用城市周边的老旧工业园区进行改造,建设模块化的云数据中心。除了减少了投资,通常还可以享受当地政府在产业转型方面的鼓励政策,可谓一举两得。

    其次,资金利用率高,融资更方便:

    模块化架构,边成长边投资,提高资金利用率:对于以出租和投资为目的的云数据中心来说,标准模块化的产品可以实现分期部署、快速复制,极大的降低初期的投资。这让很多新玩家可以用较少的资金投入涉足这个产业,也使投资云数据中心成为一门“容易赚钱的生意”。(融资、上市、数字地产什么的,大家自己意会)

    兼容多种技术,降低PUE,提高能源、空间利用率:模块化数据中心在3.0阶段已经发展的非常成熟了,各个子系统子部件基本都可以做到像搭积木一样灵活配置,同时还可以兼容很多主流或非主流的技术来降低PUE、提高资源利用率。

    比如:模块化的UPS可以使用不同数量的功率模块来搭建不同系统功率的微模块;空调可以根据需要选择放在内部或外部,根据不同功率密度来选择不同数量;自然冷却、三联供、太阳能等非主流方案也可以和微模块叠加使用。

    带来的效果:降低数据中心投资风险,加速产业发展。数据中心产业的火热发展离不开资本的助推,当然实际上对产业发展有利有弊,篇幅有限,此处不做深谈。

    最后,运营管理高效,招聘更容易:

    流程、资源、DCIM多系统融合,数据可视化效率高:数据中心系统复杂,各系统的维护都需要不同的专业技能人才。关于数据中心的运维人力,国内一般是100机柜/人的水平,好点的可以做到120机柜/人的水平,海外有的大型数据中心据说可以做到1000机柜/人的管理水平。通过智能化的管理系统,可以将资源管理、能耗管理、运维管理等子系统数据可视化,结合自动化技术,大幅降低人力成本。

    大数据、自动化等技术排除隐患,提升系统可用性;传统数据中心各系统相对独立,信息没有联通,是一个个孤岛。所以一旦发生故障,可能同时产生几十上百个告警,运维人员80%的故障排除时间都在花费在故障定位上面,效率低下。而即便发现了问题,通常也要联系厂家进行维修。借助统一的管理系统和大数据、机器学习技术,可以将这些信息统一管理,快速进行定位故障,并给出合适的处理建议。甚至可以在故障发生之前做到预警,提前排除风险,提高系统可用性。

    带来的效果:降低运维人员技能要求,方便布局二三线城市。无论是西北的“前店后厂”还是西南的“大数据产业”都会面临很尴尬的问题,缺少本地人才。数据中心相关专业技术人才大多集中在北上广深等一线城市,智能化的管理系统可以自动处理大部分的问题,复杂的工作还可以交给北上广深的总部数据中心去处理,而当地只需要处理一些简单工作。这样既减少了人力,也降低了技能要求。

    4.2用户体验的重构:标准架构+定制功能,应对业务的不确定性

    如前文所述,业务不确定包括用户业务发展的不确定和业务特征的不确定。业务发展的不确定在基础设施层面基本可以通过微模块的工厂预制、标准化复制、快速扩容等特性来满足。这里主要讨论业务特征的不确定性。

    不同行业、不同场景的用户会有不同的需求,对于公有云用户,可能并不会十分关注基础设施(并非完全不关注)。但对行业云用户、私有云用户、MTDC用户,往往会对基础设施提出一些特殊需求。

    我们为什么要满足这些特殊需求?提供标准化的服务不行吗?

    据笔者了解,目前不少新建大型数据中心的实际出租率并不高。而在不远的将来,我们不得不面对一个现实:数据中心的产品会越来越廉价,市场竞争会越来越激烈(还记得几个月前的1元中标、0元中标公有云项目吗?)。

    低廉的价格和挑剔的用户会成为数据中心的“新常态”。

    有用户需要500机柜,一个月内提供;有用户需要Tier4等级的数据中心;有用户需要独立使用的供电、制冷、监控系统。。。。。。不能满足这些需求,就卖不出去。

    应对各行业各场景的不同诉求,主要通过标准架构+定制功能的方式来满足。

    标准架构就是打造标准化、可复制、灵活配置的基础设施硬件平台,来满足80%的基本需求。定制功能就是针对不同业务场景的主要诉求,如安全优先、成本优先、性能优先等分析提炼,制定不同的功能套餐(定制化的功能包,可能同时包括软硬件)来满足20%的特殊场景需求,提升用户体验。

    标准化架构的优势是可以通过大规模工业化生产来降低成本,比如模块化的UPS,不同的系统容量只需要配置不同数量的标准功率模块。而标准功率模块可以通过大规模生产来降低成本,产量越大,价格越低。

    定制功能包的不仅可以包括硬件,还可以包括软件和功能特性。不仅可以在标准架构上做加法还可以做减法,从而满足不同的用户需求。

    举个例子:标准架构可以是Tier3等级的微模块,包含基本的管理系统和门禁系统。

    某金融用户需要高可靠性高安全等级的数据中心,可以提供:标准MDC+升级到Tier4的安全优先功能包(独立2N供电制冷+电池管理+物理隔离+长备电时间+防攻击测试+病毒和漏洞扫描)

    4.3投资收益重构:开源节流双管齐下,新技术推动智能精细化运营

    投资收益包括两方面,开源和节流,即提升盈利、减少支出。

    开源方面:

    提升出柜率:即提升单位面积可使用IT机柜的数量,机柜数量越多,收益就越大。智能微模块一般会通过一体化设计,将原有的多个独立的系统融合成一个,从而减少占地面积。这样就可以留下更多的空间用来摆放IT机柜用于出租。

    提升出租率:如前文所述,可以通过微模块分期部署的方式,只交付一部分数据中心,同时预留好外部接口。等用户数量增多之后,再快速扩容。

    提升功率密度:本质上是提升单位机柜可以出租的服务器数量(物理和虚拟)。一般10KW以下可以通过行级空调的方式来满足,更高的功率密度(如超算)则需要液冷等方式来提供制冷。

    全生命周期资源管理:本质是延长设备可以提供服务的时间。比如覆盖入库、出库、上架、变更、下架、报废整个生命周期的资产管理;对UPS、空调、电池,甚至电容、风扇等关键设备和器件的故障预警;精确到U位的资源管理,快速查询功能等。

    节流方面:

    气流管理:即通过密闭通道、微模块等方式提升制冷效率。

    高效部件:如采用高效率的UPS、高效变频空调、高温服务器(减少制冷能耗)。

    高效系统:比如采用自然冷却等高效的制冷方式、太阳能等新能源、更高效的定制服务器、减少冗余系统(保证上层业务可用性的情况下)。

    智能化精细化的能源管理:比如能耗的精确分析、端到端的能量链路管理、冷/电系统的联动优化、IT设备与基础设施的协同能耗优化、利用不同能量来源和不同时段电价差异的能源调度系统、甚至更低功耗的IOT芯片等。

    写在最后:

    之前听某位专家说,“IT公司这些年最大的变化就是没有变化”,这话说得有点狠,不过确实如此。做软件的如微软,不停的刷版本,windows更新了一代又一代。做硬件的,更是按18个月的生物钟节奏不停的升级换代,也无非是频率更高、容量更大、速度更快。

    上个月听某位专家说,“喊着去中心化的,目的是为了自己成为中心”。这话挺有意思,有点黑色幽默的味道。昨天,热热闹闹的联通混改终于尘埃落地。可悲的是,几乎所有的新闻标题,重点都放在了那几家互联网新股东身上。这似乎也预示着一个时代的落幕。当年高喊着去中心化的互联网草根们,终于逆袭成了这个时代的主角。

    那个属于电信运营商的时代已经一去不复返了。

    而云数据中心刚好处在这个时代交替的关键节点上,未来如何变化谁也不知道。不断的自我优化,自我变革,也许才是不被这个时代抛弃的唯一办法。

    编辑;NIKI

    最近在为下个月的某个会议准备一份材料,把之前的一些资料重新梳理了一下,产生一些新的想法。干活、湿货、私货都有,不是写正经论文也没去找更多的资料和数据,所以错漏很多,希望能给大家一些启发。全文约8000字,有兴趣的朋友可以周末慢慢看。