DCIM(DataCenterInfrastructureManagement,即数据中心基础设施管理)是近2年在数据中心管理领域兴起的一个热点话题。
DCIM(DataCenterInfrastructureManagement,即数据中心基础设施管理)是近2年在数据中心管理领域兴起的一个热点话题。其旨在采用统一的平台同时管理关键基础设施如UPS、空调以及IT基础架构如服务器,并通过数据的分析和聚合,最大化数据中心的运营效率,提高可靠性。行业分析公司Gartner预计DCIM市场规模到2016年将会达到17亿美金【1】。今年3月艾默生宣布和IBM达成战略合作关系,将旗下DCIM解决方案Trellis和IBM的ITSM解决方案Tivoli进行深度整合,这预示着下一代数据中心管理系统中ITSM和DCIM将会更好的融合,甚至采用同一个CMDB (Configuration Management Database 配置管理数据库),从而最大化客户价值。
云时代数据中心的运维特点
关键基础设施和IT基础架构的匹配更加困难
相对于传统的数据中心,云时代的数据中心在架构设计上更加的弹性化。为了满足业务可持续发展的要求,降低TCO,提高业务灵活性,云时代的数据中心采用了更多如虚拟化、模块化等技术,使得UPS和空调等基础设施和服务器、存储、网络等IT基础架构之间的匹配更加的困难,如图1所示。

传统的数据中心在建设完成后,往往UPS的容量以及空调的制冷量很难再做出改变和调整,而且一台服务器的应用数量通常也是固定的,因此这台服务器的功耗也不会有大的变动,所以2者之间的匹配相对比较容易。而在云时代,虚拟化使得负载可以在服务器之间动态的迁移,应用访问也存在爆发性访问的特点,IT设备的功耗会波动较大且比较频繁,随之而来的是对供电和制冷容量的动态需求。特别云时代大量应用的刀片服务器,使得单机柜的功率密度轻松突破10KW,如果处理不好,就会造成局部过热,使得服务器宕机。因此对数据中心管理者而言,我们更需要有一个统一平台能够同时管理到IT和基础设施,实时监控设备的容量、功耗、空间、承重等信息,从而防患于未然,提高数据中心可靠性。
传统运维方式存在诸多问题
在数据中心业务和设施在快速发展的同时,我们运维方式和工具却没有跟上步伐。根据CA和IDC联合推出的报告【2】,市面上84%的数据中心都面临在制冷、供电、空间和承重方面的问题,带来的问题包括延长应用上线时间,增加OPEX甚至是中断提供服务。特别是对提供云服务的Colocation客户来讲,数据中心是他们的利润中心,是赚钱的工具,如何通过运维在不降低数据中心可靠性的同时,最大化效率是他们最关心的问题。但是传统的运维方式和工具往往很难满足这类客户的需要。
IT和Facility分开管理
根据IDC的报告,有58%的数据中心将IT设备和Facility设备的管理分成了不同的部门。这种现象在国内的3大电信运营商身上更加普遍。这种人为的组织架构划分虽然在一定程度上有利于人员管理和权责划分,但是增加了部门之间的沟通成本,降低了数据中心运维的效率,甚至提高了数据中心发生事故的风险。比如这种隔离造成了很难对业务发展需求进行准确预测,甚至如果Facility部门在对设备进行维护时没有及时通知到IT部门,则会对业务应用造成影响。
使用离散的数据中心管理工具
在DCIM解决方案出现以前,市面上缺乏有效的工具为对数据中心的管理进行支撑。数据中心的管理人员往往采用一系列离散的,不专业的工具对数据中心进行维护。比如采用Excel进行资产和连接关系的管理,利用Visio或者AutoCAD进行数据中心的可视化建模,了解设备的存放位置。再利用动环,甚至是一些免费的,厂家赠送的工具进行设备的监控。
这种管理方式的优点是获取方式简单,成本相对低廉,但是却带来了多方面的问题。首先对数据中心管理者而言,没有一个统一的视图获得所需要的信息,维护多个离散的工具也提高了管理和拥有成本;其次不同系统之间的数据难以关联和共享,在制作报表和业务预测的时候尤其困难;最后工具的不专业造成对数据中心数据的维护非常痛苦,需要花费大量的时间去更新数据,保持同步,甚至新老数据彼此发生冲突。因此DCIM管理工具在云时代的应用显得迫切和重要。
DCIM带给客户的价值
DCIM的价值体现
目前市面上大部分的DCIM解决方案在功能上均是采用模块化设计,客户可以根据自己的需求选择适合自己软件功能模块。但是一个好的DCIM解决方案必须要能够在OPEX,CAPEX以及人员和流程管理方面给客户带来价值。
OPEX
数据中心已经是一个高能耗的行业,电费的支出在运维费用中占用了相当大的比例。因此DCIM系统必须能够监控数据中心的PUE等关键能耗指标,同时能够实时的查看IT设备和基础设施设备的能耗。未来DCIM还应该能够对水使用效率WUE和碳使用效率CUE等进行监控。
其次由于DCIM系统能够通过IPMI等接口读取到服务器的CPU占用等信息,可以发现在数据中心空跑和低负载的服务器,这在一些大型数据中心常有发生。从而对这部分服务器进行整合或者下架,提高设备利用率,降低数据中心功耗。同时通过结合IT设备的生命周期和服务器的能耗信息,可以淘汰一些老旧的,计算能力弱却又能耗较高的服务器,进一步节能增效。
最后,DCIM解决方案继承并增强了传统动力环境监控系统的功能,通过实时监控IT设备和基础设施设备,当在夜晚或者虚拟化迁移的过程中,对一些能耗降低的区域,可以考虑对该区域的模块化UPS进行休眠,以及对空调系统的风机进行调速,甚至关闭部分空调终端,来节约能源。
CAPEX
对于云业务的数据中心而言,每1U位都是宝贵的资源。尽可能提高设备的利用率,延长数据中心的寿命,就能提高投资回报率,增加Revenue。
DCIM的资产管理功能可以对数据中心进行可视化建模,对数据中心的电量、制冷、空间、承重等容量进行追踪,并对供电和网络等连接关系进行管理,如图3。由于数据中心在设计时都层层考虑余量以提高可靠性,再加上服务器运行并不能达到它设计的铭牌功耗,因此往往每个机架的容量并不能够被充分的利用。DCIM提供的这种实时的精细化的管理功能可是使得用户摆脱过去手摸、眼看等粗放的判断方式,实时了解每个机架和整个数据中心的资源消耗情况,提高资产的利用率,延长数据中心的寿命,节约投资。
人员及流程
人员和流程也是数据中心运维过程中需要考虑的重要因素之一,UPTIME的调查显示数据中心的安全事故中,有70%都属于人为因素【3】。DCIM提供了对数据中心变更和流程管理的平台,在实施数据中心变更时,客户可以在DCIM工具中对变更中涉及到的每一步人员和流程进行管理和审批。比如在上架服务器时,DCIM可以利用其自身采集到的数据对供电、制冷、空间、网络、承重等资源进行步步验证和审批,并在实施前进行模拟操作,从而提高变更的可靠性,减少数据中心的实施错误。
另外好的DCIM平台还能提供API和ITSM的人员和流程管理相结合,最大化数据中心管理的效率。
从长远来看,为了提高人员和流程的效率。DCIM平台将会和KVM、SP以及串口管理等数据中心远程管控的平台相结合。比如当DCIM平台监测到某台服务器存在异常,可以直接在DCIM平台打开KVM的session,从而对该服务器进行操作。这样会大幅减少人员在不同平台之间切换,以及设备定位的时间,进一步提高人员和流程的效率。
选择DCIM解决方案注意事项
随着大家逐渐认识到DCIM重要性,越来越多的厂商也开始提供DCIM的解决方案。客户在选择DCIM解决方案是除了考察前面提到的功能价值之外,还要考虑厂商提供的是不是真正的平台化的DCIM解决方案。如果是通过集成不同的软件来达到所谓的DCIM功能,甚至是不同功能软件之间还采用不同的数据库,其并不能为客户带来最大的价值。
另外DCIM解决方案的成功很大程度上依靠于厂商的工程实施能力以及后期的服务能力,客户应该尽量选择一些大的知名的DCIM厂商。
参考文献:
[1]MarketTrends:Total Addressable DCIM Market Will Reach $1.7 Billion by 2016. Federico De Silva. Gartner 2012
[2]DatacenterBarriers.IDC Global DCIM Survey. 2012
[3]Operationalsustainabilityand its impact on data center uptime performance, investment value, energy efficiencey and resiliency. Vince Renaud.etc. UPTIME(游米儿)
DCIM(DataCenterInfrastructureManagement,即数据中心基础设施管理)是近2年在数据中心管理领域兴起的一个热点话题。