全球公认的Tier标准将数据中心的可用性分为四个等级:
•Tier I:基本容量
•Tier II:冗余容量
•Tier III:可同时维护
•Tier IV:容错
目前国内存在一些对Tier标准错误、过时的认知,对业主和从业人员有着不同程度的误导。
请所有从业者务必了解,Uptime Institute是关于Tier标准唯一的制定、解释及认证机构,Uptime Institute不会设计、建造和操作数据中心以确保中立,从而对数据中心的基础设施、操作和策略提供中立、客观、公正的评估。
以下关于Tier标准的理解误区案例,来自Uptime Institute官网及内部资料,作者利用业余时间翻译整理出来,以供国内用户和同行学习参考,但最终仍以Uptime Institute官网的英文版本为准。
【理解1】Tier等级与组织业务没有关系
错。
Tier从创立开始就是基于业务驱动而对其数据中心进行性能评估的基准体系。一个组织通过其业务对风险的容忍度来确定Tier等级。换句话说,一个公司的业务要求决定了其数据中心的Tier等级。如果不根据自身业务的特殊性确定基础设施的Tier等级,往往会发生滥用Tier等级和企业内部沟通的被短路等问题。
【理解2】Tier IV是最好的
错。
一个企业组织对风险的容忍程度决定了Tier等级。TierIV并非对所有组织都是最好的答案,当然TierII也不是。业主应在明确自身的Tier等级之前做尽职调查,如果业务目标没有明确就来确定Tier等级,会造成不必要的投资。
Tier I和Tier II也是一种常见的战术方案,在以成本或速度为导向、不必关注生命周期成本和性能的业务需求中经常会采用。当一个组织的营业收入不需要依靠实时交付的产品和服务时,经常会采用TierI或TierII等级。一般来说,采用Tier I或Tier II的组织,是那些依照合约不必对系统可用性不足引起的损失负责的业务。
而选择Tier III和Tier IV的数据中心,则是对系统不间断和长期可用有严格要求的业务。在一个TierIII的系统中,任何一个容量组件可以有计划地从系统中移除,而不会影响关键环境或IT进程。TierIV则更加强悍,任何容量组件和分配路径可以容忍一次失效、错误或计划外事件,而不影响关键业务环境或IT进程。
因此,我们不能说Tier IV比Tier II好,而是数据中心的性能和能力应与业务需求相匹配。否则要不就是过度投资,要不就是业务要冒更大的风险。
举个例子来说,在建造一个Tier II的数据中心前,要知道Tier II并不包含可同时维护的功能,业主应该清晰的知道自己的业务能否容忍一个计划内的、或与维修相关的停机,以及运维团队如何协调基于整个数据中心来进行停机维修。
因此,数据中心Tier等级应由其业务目标来确定。
【理解3】组件数量决定Tier等级
错。
Tier认证是对数据中心具体基础设施的性能做评估,而不是一份检测清单或类似于食谱的指导手册。不幸的是,一些一知半解的人直接采用“N”来定义可用性,认为N是满足负载要求的最小组件数量,而只要并上更多的组件就提高了可用性,例如N+1,N+2,2N或者2(N+1)。但是,增加组件的数量并不能决定或保证获得更高的Tier等级。因为Tier也包含对分配路径和其它子系统要素的评估,而不仅仅是考虑“N”。举例来说,只用N+1的组件数量也可能达到TierIV的等级。因此,Tier等级是依靠组件在冗余分配路径中的配置及连接方式来决定的,而不是单纯依靠设备的数量。
【理解4】做Tier认证,有设计认证就行了
错。
Tier设计认证(TCDD)只是一个Tier等级认证的第一步。在TCDD时,Uptime Institute的专家对100%完成的设计图纸进行审查,确保每一个电力、暖通、监控和自动化子系统满足Tier基础概念,在整个系统链条上不存在任何弱点。设计认证可以认为是数据中心的一个里程碑,确认相应的设计已经达到的目标Tier等级,数据中心业主可以放心开始建设了。
设计认证(TCDD)将设计文档打包审查,目的是在数据中心得到建造认证(TCCF)之前做临时性的认可。Uptime Institute尚未对此数据中心的建设做审核,所以我们此时并不能说这个数据中心的建设达到了Tier等级。为强调这一点,UptimeInstitute对设计认证设置了失效期。所有在2014年1月之后授予的Tier设计认证都将在两年之后过期。
在建造认证(TCCF)中,Uptime Institute的专家会做现场访问,找寻图纸和安装的设备是否有差异。专家还将现场观察测试和验证,证明系统可以达到Tier要求。原则上讲,建造认证才是Tier认证的根本,找到系统中真实存在的盲点和弱点。UptimeInstitute的专家表示,几乎每一个做建造认证的数据中心都会与设计认证的图纸存在差异,以至于整个系统或部分子系统实际并无法达到Tier的要求。
最近,Uptime Institute设立了Tier运维认证(Tier Certification of Operational Sustainability)来评估运维人员的操作和管理关键基础设施的能力。甚至在很多严格设计和建造的数据中心中,都因为缺乏成熟的综合管理和操作程序而发生了中断事故。因此,只有三个阶段都通过认证,数据中心的业主才能真正放心,确保他们的数据中心得到最大程度的保护。
【理解5】Tier等级可预测每年的停机时间(Downtime)
错。
早在2009年,Uptime Institute就从Tier标准中去掉了相关“每年停机时间预测“的参考内容。但即使如此,停机时间Downtime也从来不是定义Tier等级的参数。在Tier Standard:Topology中规定,Tier可用性等级必须对应明确的系统功能结果,即明确的性能目标,例如:具有冗余容量、可同时维护(通常指系统在计划范围内,可以移除任何一个容量组件或分配组件而不影响IT系统运行)、或容错(通常指基础设施中发生一个计划外的错误而不影响IT系统运行)。但是,即使是一个Tier IV的数据中心,达到了容错的级别,也可能存在因操作和管理问题造成停机的概率。
现在是有数学统计工具可以预测失效频率和恢复时间。如果只考虑过去的正常工作时间与总时间的比值,“可用性”就是一个简单的算术问题了。认为找到一些数字、频率和中断持续时间等参数就会推导出所谓的“可用性”结果。但是,还是小心使用这种统计工具为妙。因为在这些数学统计工具中,一般都不会考虑人的行为影响。此外,我们用统计百年不遇飓风来举例:我们是可以得到一个模糊的飓风发生概率,但同样有可能一年发生多个百年不遇的飓风。
【理解6】Tier认证只适用于新建数据中心
错。
Uptime Institute已经认证了很多已建成的数据中心。只是,在带载的情况下做建造认证的测试程序会比较有富有挑战性。对于一个已经建成的数据中心,最好不要上来直接做设计认证(TCDD),而是先从TGA(Tier Gap Analysis)开始。TGA将对数据中心设计中的不足之处进行高标准的概括性审查。这会给业主提供足够的决策依据,是否继续进行详细、彻底的设计认证(TCDD)工作。建造认证(TCCF)是在不同的功率负载下进行性能测试,可以采用假负载或实际IT负载,或混合的方式。
【理解7】Tier标准只是美国用的标准
错。
Uptime Institute已经在超过85个国家和地区交付了Tier认证。
并且,Tier标准允许多种方案和各种各样的配置方法,在设计、建造和运维上最大程度满足Tier性能需要与当地法规的匹配。时至今日,Tier标准还没有跟任何地区的建筑法规、立法章程、司法管辖权有冲突。
【理解8】TIA-942是Tier标准的具体指导文件
错。
在2014年,UptimeInstitute与美国通信协会(TIA)达成一致,双方开始明确区分各自的基准体系,以避免行业混淆、明确界定责任。也就是说,TIA关于数据中心的评估体系中已经不被允许再使用“Tier“这个术语。
Tier标准的核心目标在于为数据中心业主通过可用性指标来定义其所拥有的数据中心的性能水平。相比之下,TIA的会员单位专家则是专注在如何部署一个领先的通信网络。更多具体详情请参考:https://uptimeinstitute.com/uptime-tia。
【理解9】市电来源决定Tier等级
大错特错。
依据Tier Standard:Topology白皮书,数据中心唯一可靠的电力来源是发电机组。原因在于市电电力往往受制于计划外的中断,即使在所谓电网可靠的地方。电力回路、变电站、电网的数量等关于市电对数据中心供电的参数,都不会决定和影响数据中心Tier等级。可以说,Tier标准根本不用考虑市电。大部分取得Tier认证的数据中心把市电作为主要电力来源的原因仅仅是因为市电的经济性,但是市电根本不会影响Tier等级目标。
【理解10】对于Tier III和Tier IV,发电机必须每时每刻都在运行
错。
Tier标准并不需要发电机每时每刻都在运行。基于成本和管理原因,通常情况数据中心都是以市电作为主供电。但与此同时,发电机组必须正确配置、选型,确保发电机组可以无限制的承担关键负载。因为在Tier标准中,数据中心默认是由发电机组供电。为了达到Tier要求,必须谨慎配置发电机组的容量和配电路径。
【理解11】EPO(紧急关机程序)或其它能导致负载停机的程序系统会影响Tier等级
错。当需要编写或管理部门命令做EPO的时候,并不会影响Tier等级。但是,Uptime Institute并不推荐安装EPO程序,除非某些地方法规强制要求。虽然安装EPO并不影响Tier等级,但即使得到了Tier认证,仍会因EPO系统的有目的的或误动作而停机。Uptime InstituteNetwork异常事故报告(AIRs)的数据显示,EPO系统的误动作是导致停机反复发生的主要原因。
在Tier III中,Tier标准需要在维护、隔离和(或)除掉EPO的时候都不会影响关键负载。而Tier IV则要求EPO系统自身也是可以容错的。
【理解12】Tier标准要求都要采用高架地板
错。是否采用地板下送风或上送风是业主基于自身的偏爱而做决定的。
在Uptime Institute的经验中,地板下送风确实可以加强长期运营的灵活性。但是,还是应由业主基于机房环境的效率等因素来决策采用诸如高架地板或上送风、冷热通道、封闭冷或热通道、风道送风等具体方式,UptimeInstitute并不强制要求采用高架地板的方式。
【理解13】机架式ATS满足服务器的双路供电要求(例如,单电源服务器接机架式ATS,但机架式ATS有两路输入)
对。在Tier标准中对奇数(1、3、5……)输入路数的负载做出了一些让步,允许以机架式ATS的形式提供并联供电。但是在Tier III和Tier IV中,仍然要求必须具有独立的双路供电到机柜侧。
Tier标准的关注点在于确保基础设施满足相应的Tier目标要求。确实存在很多可能使得数据中心存在单电源或者采用奇数供电的设备,例如对设备供电缺乏了解、可选的设备供应商不足、在托管环境中基础设施人员无法控制IT设备的种类等。其实大部分情况下,机架式ATS都是由IT部门提供,所以基础设施都是可以满足Tier的。但是计划内的隔离或机架式ATS失效会造成个别机柜或服务器的断电。
【理解14】Tier II也提供同时维护的能力
部分正确。Tier II在容量组件上考虑了可同时维护,但分配路径或某些关键因素不支持同时维护。一个Tier II系统在发电机、UPS、冷机、冷却塔、水泵、空调、油箱、水箱、油泵等组件上是支持同时维护的,但是在配电柜、控制面板、切换开关、变压器、母线、电缆和管路上则是不能同时维护的。在许多情况下,当需要有计划的维修或更换这些分配路径和关键元素时,数据中心不得不停机才能进行。
当维修或更换任何组件、分配路径或关键元素时,都不需要停机,就是我们所说的Tier III了。
很多行业都需要采用Tier III的数据中心来保护其业务,包括医疗卫生、托管外包、政府机关等等。所有采用Tier保护其投资的企业组织名称都可以在Uptime Institute官网上查询到。
【理解15】如果冗余路径中有一个是非活动的,也可以满足Tier III要求
部分正确。TierIII需要两个活动的关键电源路径(UPS输出端及以下)。但外围(UPS及以上)是可以接受一路活动、一路非活动的。这就意味着,如果是看一个机柜的双路电源输入的话,必须是两路都是活动的,不能接受其中有一路是平时不可用的,也不允许一路接UPS、一路接市电的模式。
在TierIII中并不要求两路活动的暖通系统。所以,在Tier III中一个N+1的冷水系统,每台冷机可以分别支持A和B两个水回路,只要所有空调末端都挂在同一回路下,是可以允许有一路回路平时是不工作的。
【理解16】建造认证之后所有设施就不能再更改了
错。不过改变基础设施必须小心,一定要有详细的程序和流程。但如果改变了拓扑结构,就很有可能不再是一个同时维护或容错的系统了。所以,为了确保业主的投资,应该由Uptime Institute来审核更改后的设计和建造,以确保没有影响到相应的拓扑结构。如果未经审核的更改影响了原有数据中心的同时维护或容错的功能,Tier证书将被取消。
【理解17】TierIV要求所有的空调机组必须时刻在运行状态
这个理解大部分是错的。TierIV只是要求在市电断电后,在暖通系统完全重启到恢复至额定功率输出的这段时间内,仍可以给IT负载和UPS环境提供稳定的制冷。Tier IV的数据中心必须能够满足在暖通系统重启期间,按照2015ASHRAE要求任何15分钟的热力环境保持稳定。Tier IV要求所有系统都要保持双活。这是为了确保连续制冷系统不会因为某些组件出现问题而失效。一个轻载的数据中心或在一个复杂的控制系统下,会出现并非所有空调机组都需要启动的情况。但是,在通常的TierIV设计中,基本都会考虑在满载情况下所有空调都要运行。
【理解18】新风容量算在总制冷量中
这是一个经典的错误理解。数据中心中的新风系统主要是为了满足以下三种需要:
•按照管理部门要求给驻场人员提供新风
•形成机房正压,防止灰尘进入
•帮助达到湿度要求
几乎没有数据中心以新风处理器一直工作来满足空调系统的N要求。相反,新风处理器的存在和维护反而可能会影响Tier等级。例如,没有按照Tier要求采用ASHRAE规定的规格,则这个新风处理器额外的热量功率需要考虑计入空调系统的制冷范围。
【理解19】TierIV不允许采用飞轮式UPS给连续制冷系统供电
错。Tier标准是一个对供应商和技术均中立的标准体系,意味着Tier认证的数据中心可以包含各种类型的创新技术,当然包含飞轮式UPS。
飞轮式UPS是一种集成了柴油机和飞轮的UPS系统,利用飞轮动能取代电池,这种系统需要更高等级的维护能力,频繁复位和大量额外的空间来存放电池。飞轮一般可提供10-30秒的备电时间,相比其它技术备电时间比较短,但Tier标准并不对最小备电时间做要求。实际上,Uptime Institute已经认证了多个采用飞轮式UPS技术的数据中心。
飞轮式UPS也常常用来带电机负载。这就意味着一定要注意确保飞轮式UPS有足够的容量给每个系统和子系统供电,包含空调系统,这相当于把暖通组件放在跟IT负载一起的不间断母线上。
【理解20】Tier要求不考虑管道系统
错。阀门位置和控制面板供电同样会影响系统或者子系统的Tier等级。管道系统,例如冷冻水管,同样需要维修、更换甚至重新铺设。因此,传统的管道分配系统也需要满足Tier目标才行。
Uptime Institute理解很多人都被什么是一个满足“同时维护”的管路系统为难住了,也产生了很多误解。所以这里需要澄清的是,同时维护是指管路中可以隔离一整套系统或一部分系统,从而保证在维修、保养、升级或重新铺设时都不会影响机房内的设备运行。
【理解21】数据中心的地理位置会影响Tier等级
错。虽然地理位置是评估和决策一个数据中心生命周期运维和风险的重要因素,但并不会影响Tier等级。
数据中心的设计者们应该根据一个地理位置的具体风险采取预防措施。要在一个地震风险较高的区域建设数据中心,应当采用经过防震测试和认证的设备,以及采用如何在地震中减轻损失的技术。如果一个数据中心坐落在飓风高发区,设计师应该考虑外部电力和散热设备的防风保护措施。
但地理位置是Tier运维认证(TCOS)的一项考核指标。
【理解22】我的数据中心是Tier III+
Uptime Institute没有关于Tier III+的定义。
Tier III+是目前国内数据中心行业一个常见的认知误区,也包括一些TierIII.6的讲法。
在全球公认的Tier标准体系中,每一个Tier等级均包含多种类的拓扑结构,Tier标准尊重业主的偏爱,并鼓励设计师、设备商的创新。但需要强调的是,一个数据中心的Tier等级取决于可用性等级最低的子系统。Tier标准是明确的整体可用性指标,Tier I到Tier IV为企业和组织定义不同的业务持续运营能力。
而类似于Tier III+的描述中,即不能反映所有子系统的性能,更不能用于定义整体基础设施的性能。而作为数据中心的业主也需要清晰地评估:为追求某一子系统的性能提升却对数据中心整体可用性等级无帮助的投资,是否真的值得投入。业主每一笔用于数据中心的宝贵投资,都应该使得数据中心整体上能够支撑更高等级的风险抵抗能力。
作者简介
于登科,Uptime Institute中国区业务发展总监。
编辑:Harris