过去五年内,我国数据中心的数量剧增,产业规模不断扩大,预计2018年我国IDC产业规模将接近1400亿元,在未来中国数据中心的产业将继续蓬勃发展。但近年来,数据中心因为运维水平不足引起的宕机事故频发,越来越多的用户和服务商开始意识到数据中心运维的重要性,并且已经将运维水平逐步纳入到重要的服务指标中。未来随着数据中心基础设施和网络能力的提升,服务商运维能力也将成为运营的门槛,具备高品质服务能力的服务商将获得更多客户的青睐。
数据中心故障频发
2017年6月微博数据中心因电力原因故障,造成了微博“黑色一小时”,紧接着饿了么机房也出现故障,导致商家无法接单,客户无法取餐。2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。亚马逊的云服务出现过持续数小时故障,故障起因是AWSS3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外地移去了大量的服务器,2016年1月18日MicrosoftOffice365的用户的电子邮件账户出现问题,微软将故障归咎于一次错误的软件更新,但是其初次修复的尝试并没有解决问题,在最初的故障出现五天之后,第二次电子邮件故障又爆发了,这一次激怒了很多用户。2016年4月22日11时28分,某数据中心服务商位于北京亦庄的数据中心供电中断,在该机房托管的多家金融机构和73家村镇银行的所有设备宕机,服务全部中断长达7小时以上!
根源在于运维管理
对于这些数据中心机房故障,中国信息通信研究院专家对事故原因进行总结说,故障多发的原因关键还是在运维管理上,所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。运行中的数据中心,应减少人为参与的机会,要对人为行为进行充分的管理和评估。
大量的事实表明,数据中心提供的服务品质优劣主要是运维管理水平决定的。加强运维人员的管理,提升运维人员的技能水平,才能减少人为犯错的机会,避免产生人祸。数据中心是一个非常复杂的IT系统,难免会出现这样那样的问题,从而引发故障,若能够通过有效管理减少其中人祸部分的因素,将能有效提升数据中心的运行稳定性。
服务商宣传未必靠谱
频繁出现的数据中心故障、宕机事故说明,某些数据中心的基础设施可靠性,并不像他们对外宣传的那样完美。而且,很多用户在选择托管服务的时候认真考察过服务商的服务水平,但是一旦选定之后很少会再去关注他们的运营质量。尤其是很多关键业务托管上云之后,更是如此。这也不奇怪,业务在云之间进行迁移的风险和成本极高,所以一旦完成迁移上线,几乎很少会有用户再去监督服务商的服务质量。反正也迁不出来,即使发现他们有些不合规也只能认了。这导致了服务商的服务质量得不到监督。长此以往,就很有可能出现服务质量下降的情况。服务商在发生灾难时的损失和客户在发生灾难时的损失往往不在同一个层次上,这也使得服务商没有足够的意愿去保证服务水平。
现在对于数据中心服务商来说,如何增强自身的市场竞争力,如何留住现有客户并发展新的客户,如何规避运维过程中的各类风险,为客户提供更加优质的服务是主要思考的问题。而如何选择优质的服务商,如何评估一个数据中心的服务能力,如何规避SLA陷阱,如何审查服务商的SLA执行力度,保障自身的合法权益是客户在选择服务商时经常面临的问题。
评估揭示真实水平
为了解决这些问题,给数据中心和商家双方都吃一颗"定心丸",数据中心联盟在工业和信息化部的指导下完成了数据中心服务能力评价标准的编撰工作。数据中心服务能力评价标准是从用户视角出发的评估体系,所有评分细则都来自于IDC用户及数据中心行业专家。除服务能力评估外,联盟还开展数据中心可靠性评估和绿色数据中心评估。
数据中心可靠性评估:是目前行业一套统一、权威的IDC基础设施可靠性评价体系,一方面使用户在选择机房时有科学评判依据,用户权益能够得到保障;另一方面也使企业具有较高公信力的宣传推广手段,在IDC运营企业之间建立优胜劣汰的良性竞争机制。
绿色数据中心评估:和国际组织TGG(绿色网格)联合制定标准,由开放数据中心委员会提供技术支持并开展评估工作,现已成为国内最具权威性的数据中心绿色认证。
促进IDC企业升级
获得评估之后能为服务商带来什么好处?第一,政策方面,可以有机会成为未来IDC行业相关优惠政策的受益者。随着政府对我国数据中心产业相关规定的细化,数据中心服务能力必将成为重要的考量指标。第二,在服务能力提升方面可以得到更多的支持,通过认证能帮助企业规范服务能力,提升服务质量,增加未来市场的核心竞争力,获得更有利的市场地位,同时在蛹化的招投标文件中也可以获得更有利的条款。第三,能扩大市场宣传及品牌形象,达到3A级以上可以在产业大会上进行公开授牌仪式,并会获得免费推广机会。同时也会作为成功案例,作为政府报告和国际交流活动的宣传重点。
编辑:Harris