咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
机场信息系统战“疫”中的运维保障模式研究
  • 特殊时期应急保障工作是机场信息化运维工作的重要组成部分。诸如新冠肺炎疫情、地震台风、重大节日等特殊时期的运维保障工作该如何开展,事前、事中、事后该如何准备,实施和总结,这些是对运维能力的检验。

    特殊时期应急保障工作是机场信息化运维工作的重要组成部分。诸如新冠肺炎疫情、地震台风、重大节日等特殊时期的运维保障工作该如何开展,事前、事中、事后该如何准备,实施和总结,这些是对运维能力的检验。
      
      1 特殊时期运维工作的分析
      
      自从新型冠状病毒首次出现在公众视野,至今已演变为全国乃至全球范围的重大疫情,在此特殊时期深圳机场信息化运维人员坚守岗位保障系统正常运作,对支撑疫情防控工作起着重要作用。该时期事前、事中、事后的相应保障措施对运维应急响应有着举足轻重的意义。
      
      (1)适用范围
      
      特殊时期(自然灾害、事故灾难、公共卫生安全、重大节假日时期等)信息化运维保障事前、事中、事后的应急响应的基本过程和管理方法,为机场行业特殊时期信息化运维保障实施和管理工作提供借鉴意义,确保各类信息化系统事件的处置达到“三个五分钟”(五分钟发现、五分钟定位、五分钟处置)的既定目标。
      
      (2)特殊时期运维保障环节
      
      ①事前
      
      随着IT技术的高速发展,机场行业内相关单位对信息化建设的重视度和投入在不断提高,并依托信息化的建设成果不断提升机场行业的用户体验、效率和价值。经过多年信息化投入和建设,机场行业相关单位在信息化建设上已经是初具规模,并在逐步深入,对信息化依赖程度越来越高,运维应急响应工作应做到有组织、有预案、有培训、有演练、有保障,为特殊时期运维保障工作的开展奠定良好基础。
      
      ②事中
      
      疫情就是命令,坚守就是使命,保障就是责任。在特殊时期,运维保障工作就是通过相关的技术及流程手段确保生产环境稳定、高效、成本可控的运行。该时期运维保障工作应做到反应快、处置快、沟通快、调整块、报告快,多措并举保障运维工作稳定有序开展。
      
      ③事后
      
      特殊时期运维保障工作结束后,应快速总结分析特殊时期应急响应情况,总结亮点与不足,分析故障,积极查找原因,并提出改善方案和建议,形成文档,为以后的运维保障工作提供重要依据。
      
      2 事前运维保障工作,有备无患
      
      运维保障工作应做好未雨绸缪、提前谋划,做好应对各种特殊情况的准备工作,做到有组织、有预案、有培训、有演练和有保障。
      
      (1)事前有组织
      
      ①建立应急响应组织
      
      在日常的运维保障工作中,应建立应急响应组织,该组织主要由甲方、乙方、分包方、供应商等组成,最高领导人由甲方信息化运维一把手担任。该组织负责组织、部署和指挥特殊时期的运维保障工作,统筹协调、指导落实运维保障方案和政府、企业应对特殊时期发生的重大事件相关的应对措施,组织对运维保障工作情况进行督导检查,解决工作中遇到的重大问题。
      
      ②建立应急响应制度
      
      在日常的运维保障工作中,应建立健全应急响应制度,明确特殊时期应急响应的目标、原则、范围以及各项管理制度,并定期组织人员对应急响应制度进行评审。在实际环境、业务流程、业务要求等发生重大变化时对运维相关的应急响应制度进行动态调整。
      
      (2)事前有预案
      
      应急预案体系中的各专项预案应根据信息系统的重要程度、影响范围和程度、信息系统服务时段、损失情况等,明确划分应急事件的预警和警报分级,应急处置部门或人员应根据应急事件等级的要求制定并实施相应的应急处理预案,根据应急事件级别配置响应的保障措施,如人员、资金和设备等。
      
      ①事件级别
      
      参考要素:系统重要程度、影响范围和程度等重要参数是事件级别划分的重要依据。
      
      a.系统重要程度
      
      系统重要程度主要是考虑信息系统对正常生产业务系统支持的重要程度。
      
      b.影响范围和程度
      
      影响范围和程度主要是考虑信息系统对正常生产业务系统影响的范围和程度。级别划分:可根据上面划分应急事件级别的参考要素并结合自身业务要求可以进行如下划分:
      
      a.系统重要程度进行划分可以根据系统重要程度对信息系统进行重要性的划分,一般可分为生产系统和非生产系统。
      
      b.影响范围和程度进行划分
      
      可以根据信息系统的影响范围和程度不一进行划分,一般可分为低、一般、高、紧急。
      
      ②应急预案
      
      应急预案制定和评审:在日常的运维保障工作中,应根据不同的特殊时期和事件级别制定不同的应急预案。预案要求明确、简洁,易于在紧急情况下执行。预案的内容包括编制目的、依据和适用范围;具体的组织体系结构及人员职责;应急响应的监测和预警机制;应急响应预案的启动;应急事件级别及对应的处置流程、方法;应急响应的保障措施等。应急预案可分为总体应急预案和专项应急预案。
      
      应急响应组织应组织相关人员对应急预案进行评审,并形成一致意见。应急预案发布:经过评审确定后的应急预案,由预案制定部门发布实施。各部门应急预案应当向本部门从业人员公布,对于需要多部门配合的应急预案应当主动向相关部门公开。
      
      (3)事前有培训
      
      为了确保应急预案起到作用,应将特殊时期应急预案列入安全生产培训工作计划,并组织实施应急预案培训工作。应制定有关应急预案培训计划,定期组织相关人员开展应急预案相关培训,使相关人员了解应急预案内容,熟悉应急职责、应急程序和岗位应急处置方案。培训应至少每年举办一次。
      
      (4)事前有演练
      
      为了检验应急预案的有效性和实施效果,提高应急预案的针对性、实用性和操作性,增强事故防范和应急处置能力,确保预案的充分性和应急设备的保障能力及应急人员的操作能力,应建立健全应急预案演练制度,制定应急演练计划,适时组织有关单位和人员开展针对各种突发事件应急管理活动的桌面演练、专项演练和综合性演练等。应开展演练评估工作,撰写应急预案演练评估报告,分析存在的问题,并对应急预案提出修订意见。
      
      (5)事前有保障
      
      事前做好保障工作,对特殊时期运维保障工作起着至关重要的作用。应从物资储备、隐患排查、消缺整改和智能技术应用4个方面做好事前保障工作。
      
      ①物资储备
      
      在日常的运维保障工作中,要建立健全物资储备体系,科学调整储备的品类、规模、结构,提升储备效能。备足生产系统备品备件、能源、药品、基础医疗器械等物资,还需加强人员防护用品、防疫消毒用品、应急食品储备等,确保各种物资储备充足。
      
      ②隐患排查
      
      在日常的运维保障工作中,应加强对运维保障应急管理范围内的软硬件设备、基础网络、业务系统、灾备系统、信息安全状态等进行实时监控和排查,及时消除隐患。建立健全安全生产管理制度,持续开展隐患排查,检查各项安全措施落实情况,对已经发现的问题和隐患,及时采取措施消除隐患,防止再次发生。
      
      ③消缺整改
      
      对隐患排查过程中发现问题,应建立相应的消缺整改工作方案和计划,明确责任人和整改完成时限,确保消缺整改工作的落实。
      
      ④智能技术应用
      
      云技术和云计算:
      
      云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。基于云计算模式的应用可以组成资源池,按需所用,灵活便利。在特殊时期,“云办公”、“云课堂”、“云开会”等依托各类“云”终端连接工作、学习和生活,实现灵活复工复产。
      
      双活容灾:
      
      双活容灾即灾备系统中使主生产端系统和备机端系统同时在线运行,处于可读可查询的状态的技术。可以实现数据容灾和应用容灾,缩短主机Down机切换备机时间,真正达到秒级瞬间切换。
      
      灾备技术:
      
      灾难备援,指利用科学的技术手段和方法,提前建立系统化的数据应急方式,以应对灾难的发生。内容包括数据备份和系统备份、业务连续规划、人员架构、通信保障、危机公关、灾难恢复规划、灾难恢复预案、业务恢复预案、紧急事件响应、第三方合作机构和供应链危机管理等等。
      
      双活容灾和灾难备援技术的提前部署,在特殊时期,将会对运维保障工作发挥举足轻重的作用,让灾难不再是不可逾越的坎。远程接入技术:
      
      远程接入是指普通用户通过Internet远程连接到办公室网络的相关技术,如VPN,堡垒机等技术的使用。连接成功的用户就像直接连接到办公室网络一样,可以使用办公网上的网络资源。可以很好的满足特殊时期运维保障人员远程办公的需求。
      
      远程视频会议:

      远程视频会议系统指的是视像会议系统,将语音和视频图像远程交互共享。特殊时期,有大量的信息需要快速高效的进行交流、讨论和学习,远程视频会议系统可以很好的满足这些需求。相比其他沟通方式,远程视频会议更为直接、高效、稳定有保障。
      
      统一视频监控系统:

       统一的视频监控是安全防范系统的重要组成部分,视频监控以其直观、准确、及时和信息内容丰富而广泛应用许多场合,为特殊时期安全防范发挥着不可替代的作用。
      
      巡检机器人技术:
      
      随着人工智能技术的不断发展,智能机器人应用也在各领域不断深入。巡检机器人就是人工智能技术的一种应用,在特殊时期,可以代替人去执行巡检任务,可有效缓解特殊时期人力不足的矛盾,也大幅有效降低了运维人员的危险性和工作强度,有效的提高了信息的准确性,避免了人为失误。
      
      3 事中运维保障工作,严防死守
      
      (1)事中反应快
      
      ①应急保障小组
      
      在应急响应组织下设快速各应急保障小组,由具体的部门领导担任组长,落实特殊时期有关的系统巡检、物资保障、资源调配、系统保障、信息通报等工作。
      
      ②检测与预警
      
      加强特殊期间监测活动,实施快速有效预警,对运维对象的运行情况进行监测与预警,以跟踪和判别运维的对象(应用系统、支撑应用系统运行的系统软件、工具软件、网络及网络设备、安全设备、主机、存储、外设、终端等设备、电力、空调、消防等基础环境)的容量、可用性和连续性,同时对信息系统所承载的业务数据进行监测,以跟踪和判别业务数据是否超出了预警条件。
      
      ③应急预案启动
      
      应急预案的启动可根据先期处置要求进行应急响应预案的自动启动,或由应急响应责任人或现场负责人启动预案,应记录应急响应预案启动的过程和结果。应急事件现场负责人,应该向相关组织、单位告知预案启动信息,内容大致如下:预案启动的原因;事件级别;事件对应的预案;要求采取的技术应对措施或处置的目标;实现目标所应采取的保障措施,如人员、资金和设备等;对应急处置过程及结果的报告要求,如报告程序、报告内容、报告频率等。
      
      (2)事中处置快
      
      ①应急调度
      
      按照预案,快速开展统一的应急调度,包括人员、资金和设备等。应急调度中应获取现场信息,组织必要人员进行勘察、分析,下达调度命令并保持跟踪,保护可追查的相关信息。
      
      ②物资保障
      
      全面保障特殊期间值班人员应急物资,快速备足生产系统备品备件、药品、基础医疗器械等物资,加强人员防护用品、防疫消毒用品、应急食品储备等,确保各种物资供应充足,以保障系统稳定运行。实行每日盘点,保证物资充足。
      
      ③排查与诊断
      
      组织相关专项应急保障小组成员,对现场进行快速故障排查;排查故障时,可使用各类工具,包括应用软件、电子分析工具、知识库等;在排查故障中,对于无法解决和确定的故障类别,需要及时联系相关厂商,进行问题定位;快速向应急保障小组汇报故障排查情况、诊断信息、故障定位结果等;将故障排查诊断过程与结果进行整理归纳,提交服务台;应急保障小组应快速与相关运维人员进行沟通,沟通的内容主要包括系统故障点、造成故障的原因、排查诊断状况等;应急保障小组应组织相关人员对问题进行确认。
      
      ④处理与恢复
      
      基于应急响应预案、配置管理数据库、知识库等进行快速故障处理和系统恢复。处理与恢复的原则包括:应在满足事件级别处置时间要求的前提下,尽快
      
      恢复服务;采用的方法、手段不应造成次生、衍生事件的发生;必要时可启用备品备件、灾备系统等;应该对过程及结果信息进行记录,并及时告知相关运维人员;现场负责人应组织对处理与恢复的结果进行初步确认。
      
      (3)事中沟通快
      
      应急响应作为应对突发事件的关键核心,沟通发挥着重要的作用,通过快速高效的沟通,能够快速展开有效的应急响应行动。
      
      突发事件发生时,应急响应小组快速召开会议对突发事件进行分析,预估影响范围、定级、启动相应的应急预案。应急处置过程中对新出现问题、情况进行快速沟通,调整应急方案,并把相关信息快速传达到应急保障相关的人员,避免信息不对称,从而保障应急保障有序进行,降低人员伤害和设备损失。
      
      (4)事中调整快
      
      应急响应组织应快速建立、审议应急事件升级的策略和程序,以控制应急事件升级的授权和实施。当实际处置时间超过事件级别处置时间要求时,应作为事件升级的参考要素。应急响应组织应该对事件升级可能造成的影响进行评估、确定。升级内容应包含预案调整、人员调整、资金调整以及设备调整。事件升级的实施授权应由现场应急事件响应小组负责人启动。应该对事件升级的过程和结果信息进行整理与归档。
      
      (5)事中报告快
      
      ①信息通报
      
      切实加强信息快速报送,指定专人负责每日收集、整理、汇总和分析最新工作进展,每日及时上报。信息通报应选取适当的方式,如电话、邮件、传真、书面文件等。所有相关人员应快速对收到的通报信息进行确认和反馈。
      
      ②宣传教育
      
      做好特殊时期相关知识宣贯工作,通过手机微信、海报、重点区域防护标识等,多渠道快速宣传引导,加强人员安全意识及对特殊时期防控知识的了解。
      
      4 事后运维保障工作,总结提升
      
      特殊时期运维保障工作结束后,应组织相关人员对特殊时期运维保障工作进行分析和回顾,找出亮点、肯定成绩、鼓舞士气、激励奋进,并要发现不足,总结经验教训。
      
      事后总结快应急保障结束后,应急响应组织应快速牵头组织参与本次应急保障相关人员进行事后总结分析。切实参照“五有五快,平战结合”的应急工作策略,找出应急保障工作存在的亮点与不足,再针对性的提出相应的解决措施和方案,最终形成报告,为完善信息系统,深化应急准备工作提供重要依据。
      
      作者简介
      
      林勤康,某部数据中心工程技术人员,具有20余年的机场信息化系统运维管理经验及全面的弱电、通信和信息技术等专业知识。先后从事产品研发、系统建设和运维、信息化规划等工作,积累了丰富的实践经验。精通机场航班运行、旅客服务、安防、货运和管理等业务。
      
      温华山,某部数据中心工程技术人员,具有20余年大型机场信息化系统建设、运维管理实施经验。负责机场生产网络的建设和运维。精通计算机网络,从网络技术方向主导某大型机场旅客wifi系统建设项目。拥有国家信息安全工程师CISP、网络工程师、H3CNP等认证证书。
      
      李中伟,某部数据中心工程技术人员,具有10年的ITIL运维管理、IT服务管理和运维项目管理经验等,拥有丰富的运维体系规划建设经验及超过百人的运维团队管理经验。拥有ITSS项目经理、ITILIT服务经理、安全运维专业级等证书。
      
      编辑:Harris
      
      

    特殊时期应急保障工作是机场信息化运维工作的重要组成部分。诸如新冠肺炎疫情、地震台风、重大节日等特殊时期的运维保障工作该如何开展,事前、事中、事后该如何准备,实施和总结,这些是对运维能力的检验。