English 服务热线: 400-610-7333

[小型机 服务器]上海电力数据中心应急系统案例分析 2008-07-04 09:20  作者或来源:unknow

上海市电力公司数据中心全方位应急演练获得了圆满成功,宣示EMC协助建立的上海市电力公司信息化建设水平达到了一个全新的高度。分析上海市电力公司应急系统的建设经验,对电力行业、以及其它公共服务事业有很好的借鉴意义。归纳起来说,方法论、技术平台和防患于未然的演练是数据中心应急系统的三个关键点。

  关键一:成熟的方法论

  上海市电力公司在数据应急系统建设中,选择了EMC公司作为重要的合作伙伴。EMC在数据容灾系统建设方面,具有非常丰富的经验,并在经验的基础上提练、总结出一套系统化的方法论——EMC业务连续性服务集成方法论(Business Continuity Solution Integration,简称BCSI)。上海市电力在选择合作伙伴时,非常看重供应商的规划、咨询能力。选择正确的合作伙伴,为整个项目的成功打下了坚实的基础。

  EMC BCSI在全球众多相关项目中广为使用并得到验证,它包括规划(Plan)、建立(Build)、和管理(Manage)三个阶段的咨询和技术服务。

  EMCBCSI方法论,包括这些要点:评估当前的服务水平;定义业务需求;评估可用性和恢复技术;基础架构设计;建立实施规划;技术测试及实施;开发恢复及切换计划;集成测试和演习;业务连续性更新;资源管理、改进及衡量。

  上海市电力公司借鉴EMC BCSI,并广泛学习国际灾难恢复协会(DRII)Professional Practices for Business Continuity Planners》、国务院信息办《重要信息系统灾难恢复规划指南》、《国家电网公司信息系统应急预案》等指导性文件,对自己的业务情况进行了全面的风险分析、业务影响分析、IT系统现状分析,最终制定出上海市电力公司的业务连续性策略,写出了长达75页的《业务连续性策略报告》,作为整个项目实施的指南。

  关键二:先进的技术平台

  根据《策略报告》,上海市电力在浦东和浦西分别设立数据中心,实现同城异地的数据应急容灾。上海市电力在主、备数据中心选择了统一的IBM P570主机设备,主数据中心选用2EMC DMX-3存储阵列作为主中心CISPMSERP应用系统存储设备,其中1台为CIS专用设备,另1台为ERPPMS共用。原CIS数据仓库采用了EMC DMX2000存储系统,本次将数据仓库应用迁移到DMX-3以后,DMX2000便作为应急系统备份中心CISPMSERP应用系统存储设备。主、备中心之间采用DWDM设备通过2条不同方向的光纤实现两地SAN的高速级联,进行存储阵列21数据复制。在数据管理方面,用到EMC的三个重要软件:EMC SRDF异地复制软件、EMC TimeFinder本地复制软件和EMC Control Center管理软件,实现浦东数据中心和浦西数据中心之间的数据复制。

  通过以上平台,可以确保生产系统和备份系统的数据完全一致,可以透明地切换业务。换句话讲,用户无需任何专门的停机时间,即可完成业务的启动,真正实现用户业务系统的连续性。用户可以利用该功能,非常轻松地实现应急演练和日常计划性停机维护等工作。

  结合本地数据复制软件EMC TimeFinder,上海市电力可以克隆生产数据或对生产数据执行快照,或者用于数据仓库系统的数据挖掘和抽样等,还可以在灾备端对灾备磁盘执行同样的功能,克隆数据可以作为应急演练的环境。快照数据可以在链路中断等故障、需要数据再同步时,对灾备数据实现二次保护。

关键三:防患于未然的演练

  正如上海市电力公司副总经理阮前途在验收会上所说,“某种意义上讲,安全的最大隐患是对安全的估计不足。信息系统尤其是电力部门的信息系统,要把它提高到电网安全层面上来考虑。真正发生事故的时候,专家们并不在场,紧急状况下还有可能出现其他的突发事件。所以今后这方面的演练我们要经常做,信息系统也要像电网事故的演练一样要经常进行。不可能靠事故的发生来积累经验,只能通过不断地演练来积累自己的经验。同时,需要充分借鉴其他行业的经验。”

  在1025日的演练中,模拟场景是:浦东数据中心的ERP系统出现严重故障,预计4小时内难以恢复。于是立即采取措施,启动浦西数据中心的应急系统,ERPCISPMS三大应用系统切换到浦西数据中心。从应用处理到主机处理、存储处理,切换顺利完成,接着就是最为紧张的业务切回和数据恢复,由于整套系统遵循EMCBCSI方法论进行了全套流程的规范和完善,一系列步骤快而不乱,不知不觉,主机恢复、应用恢复、接口恢复、应用内部测试、DNS修改、业务测试一气呵成,演练成功完成。

  由于整个技术平台设计先进、科学、合理,使得演练过程对正常业务开展几乎没有影响,演练也得以经常进行。

  据上海市电力公司科技信息部评价,总体来说,整个应急系统的建设是成功的。上海市电力数据中心应急系统实施后的效果与前期做的总体设计及BCP计划完全一致,也就是说主中心在出现主机故障、网络故障、甚至火灾情况下,公司业务中断时间可以控制在2小时之内,可以保证数据零丢失,RTORPO指标完全满足业务连续性需求,同时可有效提高一定区域内灾难(如地理灾害、电力故障、故意破坏等)的应对能力。

  整个项目的成功实施充分体现了上海市电力的执行能力,EMC公司的方法论和技术解决方案也经受住考验。项目相关各方通过几个月的努力,基于成熟的方法论、先进的技术平台、经常的演练,对异外故障作好了充分的准备,为我国的关键业务应用树立了又一个成功的信息化案例。

服务热线:400-610-7333 | 邮箱:service@gpos.cn | 电话:8610-82564561/71 | 传真:8610-82564561-8025 | 京ICP备18017976号 | 京公网安备 11010802036102号 Copyright © 2005-2024 Beijing Golden Point Outsourcing Service Co., Ltd. All Rights Reserved. | 北京金支点技术服务有限公司保留所有权利。