上海市电力公司数据中心全方位应急演练获得了圆满成功,宣示EMC协助建立的上海市电力公司信息化建设水平达到了一个全新的高度。分析上海市电力公司应急系统的建设经验,对电力行业、以及其它公共服务事业有很好的借鉴意义。归纳起来说,方法论、技术平台和防患于未然的演练是数据中心应急系统的三个关键点。
关键一:成熟的方法论
上海市电力公司在数据应急系统建设中,选择了EMC公司作为重要的合作伙伴。EMC在数据容灾系统建设方面,具有非常丰富的经验,并在经验的基础上提练、总结出一套系统化的方法论——EMC业务连续性服务集成方法论(Business Continuity Solution
Integration,简称BCSI)。上海市电力在选择合作伙伴时,非常看重供应商的规划、咨询能力。选择正确的合作伙伴,为整个项目的成功打下了坚实的基础。
EMC BCSI在全球众多相关项目中广为使用并得到验证,它包括规划(Plan)、建立(Build)、和管理(Manage)三个阶段的咨询和技术服务。
EMC的BCSI方法论,包括这些要点:评估当前的服务水平;定义业务需求;评估可用性和恢复技术;基础架构设计;建立实施规划;技术测试及实施;开发恢复及切换计划;集成测试和演习;业务连续性更新;资源管理、改进及衡量。
上海市电力公司借鉴EMC BCSI,并广泛学习国际灾难恢复协会(DRII)《Professional Practices for Business
Continuity Planners》、国务院信息办《重要信息系统灾难恢复规划指南》、《国家电网公司信息系统应急预案》等指导性文件,对自己的业务情况进行了全面的风险分析、业务影响分析、IT系统现状分析,最终制定出上海市电力公司的业务连续性策略,写出了长达75页的《业务连续性策略报告》,作为整个项目实施的指南。
关键二:先进的技术平台
根据《策略报告》,上海市电力在浦东和浦西分别设立数据中心,实现同城异地的数据应急容灾。上海市电力在主、备数据中心选择了统一的IBM P570主机设备,主数据中心选用2台EMC DMX-3存储阵列作为主中心CIS、PMS、ERP应用系统存储设备,其中1台为CIS专用设备,另1台为ERP、PMS共用。原CIS数据仓库采用了EMC
DMX2000存储系统,本次将数据仓库应用迁移到DMX-3以后,DMX2000便作为应急系统备份中心CIS、PMS、ERP应用系统存储设备。主、备中心之间采用DWDM设备通过2条不同方向的光纤实现两地SAN的高速级联,进行存储阵列2对1数据复制。在数据管理方面,用到EMC的三个重要软件:EMC SRDF异地复制软件、EMC TimeFinder本地复制软件和EMC Control Center管理软件,实现浦东数据中心和浦西数据中心之间的数据复制。
通过以上平台,可以确保生产系统和备份系统的数据完全一致,可以透明地切换业务。换句话讲,用户无需任何专门的停机时间,即可完成业务的启动,真正实现用户业务系统的连续性。用户可以利用该功能,非常轻松地实现应急演练和日常计划性停机维护等工作。
结合本地数据复制软件EMC TimeFinder,上海市电力可以克隆生产数据或对生产数据执行快照,或者用于数据仓库系统的数据挖掘和抽样等,还可以在灾备端对灾备磁盘执行同样的功能,克隆数据可以作为应急演练的环境。快照数据可以在链路中断等故障、需要数据再同步时,对灾备数据实现二次保护。
关键三:防患于未然的演练
正如上海市电力公司副总经理阮前途在验收会上所说,“某种意义上讲,安全的最大隐患是对安全的估计不足。信息系统尤其是电力部门的信息系统,要把它提高到电网安全层面上来考虑。真正发生事故的时候,专家们并不在场,紧急状况下还有可能出现其他的突发事件。所以今后这方面的演练我们要经常做,信息系统也要像电网事故的演练一样要经常进行。不可能靠事故的发生来积累经验,只能通过不断地演练来积累自己的经验。同时,需要充分借鉴其他行业的经验。”
在10月25日的演练中,模拟场景是:浦东数据中心的ERP系统出现严重故障,预计4小时内难以恢复。于是立即采取措施,启动浦西数据中心的应急系统,ERP、CIS、PMS三大应用系统切换到浦西数据中心。从应用处理到主机处理、存储处理,切换顺利完成,接着就是最为紧张的业务切回和数据恢复,由于整套系统遵循EMC的BCSI方法论进行了全套流程的规范和完善,一系列步骤快而不乱,不知不觉,主机恢复、应用恢复、接口恢复、应用内部测试、DNS修改、业务测试一气呵成,演练成功完成。
由于整个技术平台设计先进、科学、合理,使得演练过程对正常业务开展几乎没有影响,演练也得以经常进行。
据上海市电力公司科技信息部评价,总体来说,整个应急系统的建设是成功的。上海市电力数据中心应急系统实施后的效果与前期做的总体设计及BCP计划完全一致,也就是说主中心在出现主机故障、网络故障、甚至火灾情况下,公司业务中断时间可以控制在2小时之内,可以保证数据零丢失,RTO、RPO指标完全满足业务连续性需求,同时可有效提高一定区域内灾难(如地理灾害、电力故障、故意破坏等)的应对能力。
整个项目的成功实施充分体现了上海市电力的执行能力,EMC公司的方法论和技术解决方案也经受住考验。项目相关各方通过几个月的努力,基于成熟的方法论、先进的技术平台、经常的演练,对异外故障作好了充分的准备,为我国的关键业务应用树立了又一个成功的信息化案例。