在风险识别阶段主要从关键角色和风险领域两个维度进行风险识别,共涉及50个风险领域;在风险评估阶段对识别出的风险根据风险系数(涵盖威胁性、脆弱性和影响系数)采用量化方式进行风险定级;并根据不同级别的风险分别制定风险控制措施;对风险、风险等级、控制措施等分析汇总后最终形成风控清单,从而达到风险管控目标的风险管理过程。
近年来,随着数据中心的业务规模以年均20%速度持续增长,关键基础设施作为算力基础和运行底座,其相关的升级、安装、搭建等项目的实施,也伴随着数据中心建设投产的不同阶段,变得愈加频繁。
金融行业本质上是一个经营风险的行业,由于长期积累的“风险防范文化”,无处不在的风险意识和对待风险的审慎态度,决定了金融行业对于数据中心关键基础设施的项目在风险管理方面的要求,与其他行业相比会更加严格。因此,如何理解并满足金融行业数据中心对于项目风险管控的要求是摆在关键基础设施项目管理、技术实施和后续运维人员面前的一个重要课题。
一、金融行业数据中心关键基础设施的风险管理
1.项目风险概述
风险,现代汉语词典中定义为可能发生的危害,英文字典将其定义为“遭受危险,蒙受损失或伤害的可能或机会”。在不同的文献中,风险的定义各不相同,归纳起来风险的含义主要包括:
1)风险与损失不同,有的损失构成风险,如潜在损失;有的损失不构成风险,如既定损失。
2)风险是一种局面,而不是一种结果。
3)风险应该是主体可以感受到的,主体没有反应的潜在损失不构成风险。
因此从项目管理的角度进一步界定风险,是指在主体决策过程中,由于客观事件的不确定因素引起的,可被主体感知的与期望目标的偏差。这种偏差有大小、程度以及正负之分,也即风险的可能性、后果的严重程度和损失程度。
金融行业由于自身行业特点,更加关注风险,在项目中更加偏重于对风险的识别、评估和控制。因此金融行业数据中心对于项目的管理要求除了要满足基本的进度、范围和成本要求以外,还会更加强调项目风险的把控,最大限度的寻求化解方法或应对措施。此为金融行业在对待项目风险管理时,与其他行业最大的不同。
要达到金融行业数据中心关键基础设施项目的风险管理要求,针对项目的风险分析至关重要,需要围绕风险要素、以风险为核心,开展方案设计、建设实施以及日常运维等工作。
2.风险管理模型
风险管理模型,是评价关键基础设施项目在升级实施过程中的风险及其等级的一套标准和方法。要保证项目的各类风险得到完整、客观的评价,就需要一套成熟的模型来识别和校检各个风险点。在数据中心相关项目中建立风险管理模型具有以下几方面的意义:
1)模型是项目管理的核心组成,管理的各项工作都需围绕这一核心开展。
2)将系统方、业务方、实施方、运维方等项目干系人置于同等位置,目标一致。
3)使运维人员摆脱“救火队”这一角色,变为提前参与,主动预防。
项目的风险管理模型促使各项目干系人实现需求对标、路径一致,使管理过程更加平稳顺畅、安全有序。
3.风险管理模型的建立
建立项目的风险管理模型需要各相关方共同参与,通过人员访谈、经验梳理、数据分析等方式,综合各个方面的信息,结合项目实施客观条件和特点,建立模型,梳理风险清单,从而在项目中主动防控,降低或消除风险事件发生的可能性,减少因风险事件造成的损失,稳步提升项目的实施效率。
具体来说,模型的建立主要遵循风险识别、风险评估、风险控制以及形成风险报告的闭环模式,前一项的输出是后一项的主要输入,并且随着项目的实施持续迭代校检,如图1所示。
4.模型之始——项目的风险识别
风险管理模型的建立,始于对风险的识别。在横向维度上,依据关键基础设施风险类型的角度进行分类;在纵向维度,项目组访谈各干系人,以不同角色为分类,对风险的关注点进行汇总。经过两个维度的风险点整合,形成整个升级项目实施的风险清单框架。
在横向维度的风险分类上,对项目风险的4种类型梳理如下:
1)政策风险:因违反相应的政策、要求,或缺乏对政策、要求的理解,或对政策、要求理解不到位,进而使实施过程产生重大偏差的风险。
2)作业风险:因人员、工具、产品的作业失误,或其他外部作业及相关事件,造成的操作风险。
3)管理风险:因管理过程中,方案不完整、信息不对称、判断失误、落实不到位、应急措施不完善等导致项目结果与预期不一致的风险。
4)安全风险:因项目实施过程中,可能存在的人员、设备、信息、网络、环境等方面的安全隐患,或缺乏安全意识、安全管理措施不全面等,导致项目出现安全事件的风险。
在纵向维度的干系人分类上,从项目的4类主要人员对各类风险的关注重点进行梳理。这4类人员及其关注点如下:
1)项目管理人员:关注项目实施过程中产生的各类等级较高的风险,侧重于政策、管理、安全类风险,并给予及时防范与控制。
2)运输交付人员:关注项目实施开始后,整体设备资产的运输路径、放置地点与最终基础设施完好交付所产生的操作风险、安全风险和政策风险。
3)环境施工人员:关注项目实施过程中,为满足设备安装要求对机房环境的改造实施,而产生的安全类操作风险,确保改造成果满足实际要求。
4)设备安装人员:关注设备安装过程中产生的各类操作风险,应避免违规操作、人为失误操作、安全性事故等,出现风险隐患及时上报。
5)后续运维人员:关注项目完成后是否满足运维条件,并侧重项目完成转入运维衔接过程中的政策违规类、安全操作风险,并及时防范,有效控制,确保设备系统运行正常。
风险识别环节形成的风险清单框架,是成功进行风险管理的第一步,也是模型后续各环节的基础,为项目的实施提供了可靠保障,。
5.模型之眼——项目的风险评估
对已经识别到的风险点进行合理的评估,才能对项目风险进行更为精细化的控制,让项目干系人做到心中有数、有的放矢。
关键基础设施升级项目是软件系统项目与工程类项目的交叉边界,这就决定了其既包含软件系统项目强功能、严性能的需求指标,又包含工程类项目的高安全、保质量的基础特性。因此,关键基础设施升级项目的风险量化是所面临的安全威胁、存在的系统弱点、造成的可能影响三者综合作用的结果。
1)威胁性:可能对过程或结果造成危害的事故潜在的起因,主要由风险出现的可能性决定,满分为10分,将各个专家的评分构建威胁属性矩阵为[a1a2……an]。评分对应如表1所示。
2)脆弱性:可能被威胁利用的过程缺陷,主要由风险对项目过程和目标结果产生的破坏程度及项目自身的控制力度来决定,满分为10分,将各个专家的评分构建脆弱性数值矩阵为[b1b2……bn],见表2所示。
3)影响系数:风险发生后对项目过程和结果产生的影响大小,在0~1区间取值,影响越严重系数越大,是对风险综合评定的修正,将各个专家的属性评分构建后果系数数值矩阵[w1w2……wn],见表3所示。
4)风险得分:根据威胁性、脆弱性和风险影响系数和风险的非线性属性,构建风险评价方程式:风险得分=影响系数×(威胁性×脆弱性)。即:
则得到风险得分专家评分矩阵[d1d2……dn].
对矩阵内的数值进行加和平均化处理,有:
最终得到该风险项的得分数值d.
5)风险等级:根据风险项的得分从高到低依次分为五个级别,对风险从等级上予以区分排序,实现精细化管控,进而采取不同的关注监控方式和应对方法,详见表4所示。
6.模型之手——项目的风险控制
风险控制是风险识别和风险评估后所需要采取的措施,是对风险理性分析后,综合考虑风险成本、影响以及应对之后,具体的行动方式。
项目的风险处置是风险控制环节的核心内容。对于风险的处置应对,一般可采用五种方式,避免风险、降低风险、转移风险、接受风险以及储备风险,如图2所示。
1)避免风险:通过终止可能产生风险的活动来规避风险。
2)降低风险:通过实施管理或技术控制措施降低风险产生的可能性,来达到降低风险的目的。
3)转移风险:通过合同、保险等方式转移风险。
4)接受风险:低级别风险为可接受的风险;中、高等级的风险,若处理风险的难度和代价大于风险造成的损失,则选择接受。
5)储备风险:由于项目的复杂性,为了保证项目预定目标实现,而客观存在的风险,在实际进展与计划不同时,进行切实有效的应急措施。如应急费用、时间以及技术后备。
对于风险处置方式的选择,鉴于项目风险最小化的目标,需要综合考虑控制成本、项目目标、现实条件、综合影响等因素。按照以上顺序,依次评估风险处置方式的合理性和适用性,最终选择合适的手段实现风险控制。
7.模型之实——项目的风控清单
经过风险的识别、评估和控制环节,最终将形成具有指导意义的风险报告,供项目人员在项目的全过程中使用参阅。而风控清单作为风险报告的核心内容,正是风险管理模型的价值体现。
二、关键基础设施项目升级项目风险管理模型实践
1.模型实践
实践是模型得以建立的基础,也是持续改进的方向。本章将依据关键基础设施升级项目风险管理模型的四个步骤,从风险识别、风险评估、风险控制以及最终形成的风险报告四个方面,结合具体方法和实际案例,对如何运用模型开展风险管理工作进行详细分析。
某大型银行数据中心为保证主机平台生产系统的稳定运行,满足业务增长及系统运维的资源需求,实施了核心银行系统主机硬件升级项目。本次升级项目存在板卡线缆复用、老旧机房作业、原地变更替换、防疫政策收紧等潜在风险点,使得风险管理成为项目成功推进的关键。
2.模型之始
项目组根据风险识别的横向和纵向两个维度,共计十六个交叉节点,依次进行了风险点的细化,整合统计结果形成风险清单框架,如表5所示。
项目的风险清单框架,作为第一阶段风险识别的输出结果,共涉及风险细分领域50个,为后续项目风险的继续分析提供了充足的依据。
3.模型之眼
项目组结合实际情况,采用专家评分的方式,邀请乙方支持专家、甲方项目管理人员、现场施工人员、软硬件工程师组成专家小组,对风险的威胁性、脆弱性和影响系数三个属性赋予评分,展开定量统计分析。
此处以实施窗口紧张这一风险点为例,进行风险评估。
专家小组参照风险属性的数值对应关系,分别独立对该项风险的属性进行了定量评估,经过数据整理,该项风险的评估统计分数如表6所示。
根据表6的评估结果,计算风险得分如下:
由此得到风险得分专家评分矩阵。
对矩阵内的数值进行加和平均化处理:
最终得到该项风险的评分为66.5分,为4级风险,需高度关注。
4.模型之手
本部分将结合该银行主机硬件升级项目的实际数据,针对项目中,部分影响系数较高的风险点,探讨具体控制措施,如图3所示。
1)场地资源:z13型号主机为特殊定制专用机柜,而z15型号主机则由4个标准42U位机柜组成,经现场测量得到原z13占地面积2.38m2,z15主机设备尺寸如表6所示,按照配置需求和制冷要求,需并排放置4个机柜,则占地面积最小需求为3.23m(1.448m×825.5m×4m),综上,相较Z13场地空间需求增加约35%。
风险处置:清空机房内Z13,为Z15入场安装做准备。按照Z15机柜面积加上人员维护作业场地面积计算,预留出200%的场地空间,即单机柜场地预留6m2。
2)场地承重:单台z13型主机重量约为2448kg,单台z15型主机重量约为2876kg,详细数据参见表7所示。整机来看,z15较z13重约430kg。换算为单位面积对地板及支撑结构的承重要求,z13单位面积承重约为1020kg/m2,z15单台主机单位面积承重约为890kg/m2,z15较z13单位面积承重轻130kg/m2。
风险处置:根据总体承重增加,单位面积承重减少的情况,对地板和支架等支撑结构进行定点加固,并提前对加固支架进行承重的压力测试,确保加固结构满足承重要求。
3)配电资源:z15与z13主机在配电接入方式上是一致的,均为4路3相、380V交流电源接入。采用原地替换的实施方式时,可以复用工业连接器,原有配电资源能够满足新安装需求。
风险处置:经分析,本次升级并未引入新的配电资源风险。遂采用硬件安装标准要求的电源匹配测试,对z15的电缆工业连接器实施本地化改造,与机房内供电连接进行适配测试,确保电源属性匹配。
4)运行环境:主机运行环境需满足美国ASHARE数据中心机房环境级别标准,z13型号主机需满足A2标准,具体要求参见表8所示;而z15型主机降低了一个级别,需满足A3标准,具体要求参见表9所示。采用原地替换的实施方式时,机房原A2级别以上标准能够满足Z15安装要求。
风险处置:经分析,本次升级并未引入新的运行环境风险。在Z15安装时,根据主机设备放置位置,相应调整冷热通道温湿度传感器位置,实时监测设备运行环境。
5)制冷模式:z15主机与z13主机均采用内外部双制冷方式,即设备内部为水冷循环,设备外部为前冷后热的风冷循环,风冷示例如图4所示。采用原地替换的实施方式时,机房原环境能够满足Z15制冷环境要求,
风险处置:经分析,本次升级并未引入新的制冷模式风险。结合主机z15设备安装方式,重新调整可开口地板位置和方向,确保充分匹配设备的气流组织形式,最大限度发挥制冷效率。
6)运输要求:根据z15主机机柜规格及重量,规划新到设备入场运输路线。本次升级中生产机房和灾备机房同步升级安装,其中灾备机房楼电梯为非货运电梯,电梯门较矮,无法满足z15主机单柜205cm、含包装箱体230cm的高度要求,引入运输风险。
风险处置:灾备机房采用楼体外架设吊车运输入场的方式,即吊车运输至4楼卸货平台,再转移至机房预定位置。其中机房定位区域,为原z13主机区域,进行区域承重加固改造后开始安装z15新设备。
7)线路故障:按照设备高可用特性和系统业务性能要求,在Z15安装调试时,若单台主机有超过总量3/8的通道由于故障导致不可用,将产生设备无法满足承载业务的性能需求问题,进而增加维护风险。
风险处置:申请故障维修应急时间窗口,以备紧急维护需求;同时申请备用线缆和额外备件入库,在需大面积更换硬件时能快速获取。
8)流程操作:由于项目实施关键路径的窗口时间有限,流程合理性及人员操作的熟练程度,直接决定了项目实施的风险大小。
风险处置:先后开展三次现场演练,逐渐深化、细化、验证计划流程,增加人员熟练度。第一轮演练,熟悉场地环境,根据场地评估情况,完成初步实施流程演练。第二轮演练,细化实施方案至Runbook级别,在现场对Runbook内容进行模拟推演。第三轮演练,借鉴其他升级经验,根据专家建议,开展临期演练,重点演练实施各环节间的衔接过程,确保衔接阶段的平稳交接。
风险控制作为风险管理模型的落地抓手,是在风险发生时,切实的行动预案;是在风险尚在萌芽期的消除手段,也可以是在风险发生后的接受范围。
5.模型之实
如图5风险分级统计汇总所示,风控清单收集到案例中某行主机硬件升级项目风险及其应对措施,共计52个,相比风险清单框架的50个风险点,项目组在风险控制阶段经细化分析,根据控制方式不同,在原有基础上新增2个风险点,一并评估放入风控清单。其中高等级风险(分线等级是1-5,其中5为高等级风险)共17个,占比32%。表10中展示了本次项目实施的风控清单。
通过风险管理模型的建立,主机硬件升级项目中各个环节的风险,得到了充分认识和评图5风险分级统计汇总估,尤其是精准定位了存在的高等级风险(往往存在于项目的关键路径),协商内外部相关人员和部门对风险进行控制,消除风险,制定预案,为项目的成功实施打下良好的基础。
三、总结
金融行业数据中心关键基础设施升级项目的风险管理,输入往往涉及多个领域,既包括基础设施和系统架构,也涉及管理、安全、运维制度等多个方面,这导致了风险范围往往涉及广泛。风险管理模型作为每个IT项目都应认真考虑的核心工具,如果项目人员能够结合实际熟练运用,精准把控项目风险,则必将持续推动更多关键基础设施项目向低风险高价值的提升。
参考文献
[1] IBM《IBM z15 Technical Introduction》. 2020
[2]IBM《z13 Installation Manual for Physical Planning 2964 All Models》.2015
[3]沈建明.项目风险管理[M](第三版). 北京:机械工业出版社,2018
[4]卢友杰,卢家仪.项目风险管理[M]. 北京:清华大学出版社,2000
作者简介
王鹏龙,天津大学控制科学与工程专业工学硕士,九年数据中心从业经验。现任中国银行总行信息科技运营中心工程师,主要从事金融数据中心
查劲松,中国银行总行信息科技运营中心高级工程师、高级安全经理,计算机用户协会数据中心分会专家委员会委员,全国电源与新能源行业专家智库高级专家。主要从事中国银行总行数据中心信息安全、规划建设和运维管理工作。
编辑:Harris