1 疫情给金融数据中心带来的变化与挑战
(1)金融业务的变化
①金融线上业务增长迅猛
疫情期间,去银行网点办理业务的客户大幅下降,对此,银行加大了线上金融服务力度,金融业务的办理方式以“屏对屏”(ScreentoScreen)的“非接触银行”取代了“面对面”(Face to Face)的方式,网银、手机银行等线上渠道24h运行,线上服务让人们足不出户就可以办理各种金融业务。并且部分原本依赖线下渠道办理业务的人群,也因为疫情,被动接受了银行的线上服务,完成了线下向线上的迁徙。
截至6月末,中国银行个人手机银行月活跃客户同比增长30%;交易客户数同比增长31%;企业网银登录客户数同比增长25%;企业网银交易客户数同比增长21%。以上这些充分说明了金融线上业务增长迅猛,人们的金融交易行为从线下向线上转移是必然趋势。
线上交易行为很重要的特点就是“随时、随地、随心”,这种特点也就导致了金融交易量的变化从原有的具备一定规律的可预测“波峰”、“波谷”向突发性、无规律、难预测转变,从而也就加剧了信息系统资源统筹调度的困难。
②金融市场跌宕起伏
疫情的发展和蔓延以及世界各国对疫情的处置方法的不同,再加上中美关系的不确定,导致整个金融市场交易跌宕起伏。3月份美股就出现了四次熔断、七天大跌、九天暴涨这种极端行情,4月份原油期货价格甚至暴跌至-37.63美元/桶,还有过山车一样的A股市场,这些充分表明公共突发事件对金融市场交易有着重大影响。
而这些金融市场的剧变直接导致金融信息系统在公共突发事件下,将面临突发的高并发量业务压力、高频的资源调度和部署压力以及安全运行压力等等。
③金融抗疫
在疫情防控期间,金融行业必须要承担起相应的社会责任,因此金融数据中心除了需要面对上述业务场景和金融市场交易变化带来的挑战之外,还需要满足金融行业自身疫情防控任务的要求,例如像大小额支付及其关联系统这类资金汇划业务、客户贷款延期、信用卡账单延期及免息、企业电子银行捐款等等,而这类防控任务往往保障级别要求高、反应要求快,给金融数据中心带来了大量的突发性、临时性的业务变更和投产工作。
(2)疫情对金融数据中心自身运维能力的显著影响
①项目投产延后
由于疫情影响了整个社会、整个产业链,因此采购进度、建设进度的延缓也导致了金融数据中心许多计划内的项目建设和投产纷纷延期。
②操作风险骤升
目前金融数据中心的运维管理模式均采用现场运维模式,但在疫情期间,由于防控措施的要求,运维管理模式采用“现场办公+居家办公”相结合的方式,而这种管理模式必然导致现场运维人员数量大幅减少,造成运维人员工作量倍增。由于人的心理和生理都有一定的负荷极限,因此操作风险也随之急剧上升。
③自主运维压力凸显
同样由于各地的防疫政策和管控措施的影响,疫情期间,外包人员很难及时到位,导致自主运维压力更加凸显。
2 后疫情时代对金融数据中心的能力要求
无论疫情多么严重、无论外界形势多么复杂,金融行业的信息系统始终肩负着安全、稳定、高效、便捷的职责,因此做为金融信息系统基石的金融数据中心必须不断提升安全运行、灵活扩展、快速部署和高效运维的能力。金融数据中心能力如图1所示。
(1)安全运行能力
金融数据中心的安全运行能力主要体现在系统可用性、业务连续性保障、灾备体系建设及自主可控等几个方面。突发公共事件对金融数据中心的安全运行带来了严峻的考验,一方面需要进一步研究信息系统架构和部署方式以提升系统的可用性,另一方面势必需要对数据中心的灾备体系建设、业务连续性保障建设以及自主可控方面做出进一步的发展规划。
(2)灵活扩展能力
金融数据中心是否具备灵活扩展的能力直接表现在资源是否能够按需分配和弹性伸缩。随着“后疫情”时代客户线上交易行为的急剧增长以及线上交易场景的日趋丰富,进一步要求金融数据中心对于资源要做到“按需分配”,才能满足突发的、高并发、无规律、难预测的交易量变化,另外资源的弹性伸缩和资源是否能有效利用也将对“用户体验”带来直接的影响。
(3)快速部署能力
在金融数据中心建设发展过程中,不断增长的业务需求与有限的资源的矛盾一直存在,除了有效利用资源之外,资源的扩充也是解决该矛盾的有效方法之一,但是在资源需要扩充时,如何做到快速部署,如何跟上业务需求增长的步伐是金融数据中心目前面临的重点问题。
(4)高效运维能力
运行维护是数据中心最主要的日常生产活动,随着信息系统日趋复杂,设备数量出现几何级数的增长后,故障定位、故障处理、监控事件的处置等等给运维带来了极大的压力,特别是疫情期间,在人员严重不足的情况下更是严峻的挑战。因此,如何做到高效运维,解决有限的人力资源与运维工作量之间的矛盾是金融数据中心在后疫情时代必须亟待解决的问题。
3 后疫情时代金融数据中心的发展趋势
在后疫情时代,金融数据中心将在以下几个方面发生深刻的变化:
(1)信息系统架构从“集中式”向“分布式”演进
“集中式”架构和“分布式”架构相比,虽然在架构复杂度、运维复杂度和一致性方面具备优势,但是在资源的扩展性、灵活性以及可用性方面却不如“分布式”架构,由于缺乏灵活的资源调配能力,传统的“集中式”架构已很难满足当前复杂多变的业务发展的需求。
“分布式”虽然在架构和运维方面相对更加复杂,但按需分配、弹性伸缩的灵活的资源调配能力却是其优势。“分布式”与“集中式”架构简要对比如图2所示。
由于“分布式”架构是将数据存放在不同的节点,根据CAP理论,即:对于任何一个分布式计算系统,不可能同时满足以下三个特性:一致性、可用性和分区容忍性,而只能同时满足其中两项。一致性通常指数据一致性,即要求所有节点数据保持一致;可用性即要求每个节点在故障时都可以提供服务;分区容忍性,通常是指各个节点之间的网络通信性能,即分布式系统在发生网络分区故障时,仍然需要保证对外提供一致性和可用性的服务,除非整个网络都发生故障。
因此在“分布式”架构各节点间网络通信延迟或抖动等无法避免的情况下,在一致性和可用性之间必然要做出选择。数据一致性按要求可分为强一致性、弱一致性,如果要保障高可用和业务连续性,数据强一致性则很难达到,但是弱一致性又无法满足要求,因此一般就折衷采用最终一致性这种方式,即各个节点的数据被应用修改后,不要求每个节点对数据在同一时刻更新,只要求将更新后的数据发布到整个系统中,这样在保证系统高可用的同时来实现数据的最终的一致性。
对于金融行业来说,不同的金融业务对数据的一致性要求不尽相同,对于除必须保持数据强一致性的核心应用诸如总账、分户账等之外的其他的对数据没有强一致性要求的应用均可对数据采用最终一致性这种处理方式。因此,金融数据中心就可将核心应用继续保持“集中式”的架构,而对于其他非核心应用则采用“分布式”架构,既“集中+分布”这种融合方式,如图3所示。
这种方式既能满足金融行业在账户上对数据强一致性的要求,同时也能利用“分布式”架构来解决高可用、资源效率问题,以处理大规模、多渠道、高并发的海量客户请求和庞大的运算任务,以满足多金融交易融合的复杂的金融业务。
虽然“分布式”架构受CAP理论的一些限制,而且相比传统的“集中式”架构技术更复杂、运维更复杂,但是只有分布式云平台灵活快速的资源调配、高效的数据存储、高性能的海量数据计算等才能支撑今后复杂多变的金融业务和金融交易,因此“分布式”架构是金融信息系统架构演进的必然选择。
(2)灾备体系从“两地三中心”迈向“多地多活”
RTO(恢复时间目标)和RPO(恢复点目标)是衡量信息系统容灾能力的两项重要指标(图4)。RTO是指灾难发生后,从IT系统宕机导致业务中断开始,到业务恢复正常之间的时间段。RPO则是指数据恢复的时间点,即是指灾难发生后,容灾系统能把数据恢复到灾难发生前时间点的数据,用来表示灾难发生后会丢失多少时间段的生产数据,也就是业务能容忍的最大的数据损失。例如某IT系统容灾指标要求为RTO<30min、RPO<15min,假设该IT系统在上午10:00发生宕机造成业务中断,则必须在30min内让业务恢复正常运行,也就是说必须在上午10:30之前恢复业务,同时在恢复业务的同时,数据至少应恢复至上午9:45的数据,而9:45至10:00之间15min的数据就可能损失。
目前金融行业为了业务连续性保障,均普遍采用“两地三中心”的模式建设灾备体系,“两地三中心”是指生产中心+同城备份中心+异地灾备中心的容灾模式,虽然这种模式保障了生产中心同城的高可用以及异地的灾难恢复,但是由于在这种模式下,多个数据中心之间存在着主备关系,因而存在针对灾难的响应与切换周期相对较长,RTO与RPO无法实现业务零中断以及资源利用率低下等缺点。为了降低RTO和RPO,金融行业在“两地三中心”的基础上,又发展了“同城双活+异地灾备”,在这种模式下,虽然可以将同城灾备切换的RTO降低至分钟级,但是其灾备体系架构仍然是“两地三中心”,当在发生全国性大范围的突发公共事件时,“两地三中心”模式必然要面临业务连续性的极大挑战。
近几年,随着技术的进步,金融行业开始探索和研究基于分布式存储、分布式数据库、分布式网络等技术,以“分布式”架构为基础的“多地多活”灾备体系。在“多地多活”模式下各数据中心虽然物理分布在不同的地域,但整个逻辑统一。多个数据中心间实现有机结合与资源共享,跨多中心进行资源调配,各中心以并行的方式一方面为业务访问提供服务,实现了对资源的有效利用;另一方面在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果,RTO和RPO可以达到秒级甚至趋近于零,真正实现用户对故障的无感知。因此对于全国性大范围的突发公共事件,“多地多活”相对“两地三中心”而言更具备优势。
(3)模块化将成为金融数据中心基础设施建设的主流方式
模块化产品由于具备配置灵活、易于部署、节省空间、方便运维、提升效率等优势,对于提升数据中心安全运行、灵活扩展、快速部署和高效运维的能力有极大帮助,目前已得到了业界的广泛认可。但是从目前来看模块化的发展还有很长的路要走,模块化建设理念并不仅仅是依靠模块化产品的堆积,而更重要的是模块化的设计理念。
模块化的设计理念包括接口标准化、空间区域模块化、功能区域模块化。
模块化的设计需要业主、设计单位、制造企业、施工单位之间打破行业之间、专业之间的壁垒,抛弃各行其是的传统的建设思维,以开放、包容、融合的新思维将数据中心基础设施的建设做为一个产品制造的过程,只有这样,模块化才能让金融数据中心的基础设施走上一个新的台阶,才能让模块化的优势真正的发挥出来。
(4)自主可控全面提速,国产化进程势必加快
金融行业信息系统的自主可控事关国家安全和社会稳定,由于历史原因,我国金融行业信息系统多年来在硬件、存储、操作系统、数据库、中间件等核心设备和组件上均采用诸如IBM、HP、EMC、ORCALE、CISCO等国外公司的产品,这些关键设备、组件的升级和维护均需要依赖于外部,在当前国际形势日益严峻的情况下,外部关键技术的封锁就可能对金融行业业务连续性带来不良影响,因此持续提升自主可控能力,加速国产化进程,是确保金融安全的重要的手段。
为打破国外产品在核心设备、数据库等方面的垄断,早在2014年,银行业就逐步开始了国产化替代工作。一方面通过购买国产品牌服务器以及中低端网络设备来满足国产化率的要求,另一方面持续推进主机下移、小机下移,以减少对外部的技术依赖。随着信息系统架构的转型以及像国产分布式存储、国产分布式数据库等技术的发展,金融数据中心在技术层面真正达到自主可控指日可待。
另外除了在IT设备、数据库、核心网络采用国产品牌之外,不断提升自主运维的能力也是金融行业自主可控的一个重要方面。只有努力提升自身维护人员的专业技能,加强知识储备,全面提升自主实施的能力,才能尽最大可能降低对外部厂商的技术依赖。
(5)智能运维(AIOps)将加速落地(图5)
早期运维工作主要依靠运维人员个人的知识、技能和经验,但随着信息系统日趋复杂,设备越来越多,如果完全依赖人工操作的话,运维效率无法提升,并且很难控制操作风险,因此将部分人工的操作步骤标准化和固化之后利用诸如CMDB、DevOps等自动化工具来实现批量化的自动化运维。虽然自动化运维的出现极大地减少了人力成本,降低了操作风险,提高了运维效率,但是自动化运维的本质依然是人与工具相结合的模式,其运维决策仍然取决于运维人员的知识、技能和经验,因此自动化运维对于多中心的、大规模的、高复杂性的系统难以提升运维质量。
Gartner在2016年提出了智能运维的概念,就是将人工智能融入运维系统中,以大数据和机器学习为基础,对海量的日志数据、业务数据、系统运行数据进行学习和分析,并得出有效的运维决策,然后再通过自动化工具以实现对系统的整体运维。因此智能化运维不仅具备运维自动化的特点,同时还具备了运维无人化和运维远程化的特点。
当新冠疫情这类突发性公众事件发生时,给数据中心的运维带来的最直接的影响就是运维人员严重不足。而要从根本解决这一问题,也只有通过智能运维的落地来实现。因此在后疫情时代,当信息系统向“分布式”架构转型;当灾备体系迈向“多地多活”时,运维工作必然需要从自动化走向智能化,而“分布式”架构的云平台技术也为具备自动化、无人化和远程运维特点的智能化运维提供了技术保障。
(6)业务连续性保障措施将进一步优化和完善
业务连续性管理是金融行业发展战略的重要内容之一。以往金融数据中心在制定业务连续性保障措施的时候特别是在应急场景演练和应急预案的制定中往往针对的是设备故障或系统故障,而对于新冠疫情这种突发性公众事件可能引起的,例如个别员工感染、运维场所(ECC)封闭、楼宇封闭、园区封闭等这类场景的应急预案的准备并不完全充分同时也缺乏相应的应急演练,因此在后疫情时代,像远程运维接管、异地园区接管、多地一体的运维联动机制等应急预案以及多系统联动、跨机构、跨地区等应急联合演练等这类针对突发公共事件的措施必需要纳入到整体的业务连续性管理当中。
4 结束语
后疫情时代,对金融数据中心在安全运行、灵活扩展、快速部署和高效运维四个方面提出了更高的能力要求,而要持续提升这四个方面的能力,真正做到“随需而变”,信息系统架构向“分布式”演进是基础。只有在“分布式”的信息系统架构下,“多地多活”、自主可控、智能运维才能得以逐步实现,同时结合基础设施灵活、快速的模块化建设方式,以及不断加强业务连续性管理,金融数据中心才能在今后当再次面对类似疫情这种突发性公共事件时更加的从容不迫。
作者简介
查劲松,中国银行总行数据中心高级工程师,中国计算机用户协会数据中心分会专家委员会委员,全国电源与新能源行业专家智库高级专家。主要从事中国银行数据中心基础设施的规划、建设和运维。
编辑:Harris