数据中心领域17年工作经验。精通数据中心园区规划、选址,精通装饰、电气、暖通等专业的系统架构及设计理念。了解IT设备的基本性能、发展趋势,对企业、银行应用有一定了解。数据中心系统架构及整合方面拥有丰富的经验。从事项目的咨询、设计、实施、运维。服务于智能建筑和数据中心领域的客户。
主要技术能力:
多个大型数据中心项目顾问。
带领团队,进行数据中心建筑、暖通、电气、弱电架构设计。
主要负责项目的质量控制、风险控制、项目前期设计、投标、深化设计、变更、实施配合。
第一篇DRP之缘起
无人期盼灾难的来临,但是灾难如守信的信使一般总是遵守墨菲定律,他偏爱在你最不愿意他光临的雨夜敲门。
图片来源于网络
因此我们有必要为时间还来得及的时候,安排好一切。灾难恢复计划Disaster recovery plan以简单描述成DRP就是帮助一个数据中心***或组织,在运营之初就为灾难做好准备计划,这种计划不能避免灾难的发生,但是极为有助于大幅减少灾难发生后的产生的影响和提高在灾难发生过程中,数据中心业务持续运行不受影响。
自2017年以来,我国陆续建成了一批超大型数据中心,面积在一万平米以上或者机柜数量在2000机柜以上。这些数据中心陆续投入运行以后,可以说是资讯迭出,被光缆施工、水患灾难甚至是市政电力系统的升级所影响甚至停业的数据中心案例层出不穷,我们数据中心运营的从业者需要对灾难加以评估、准备和计划,一切尚不晚,而纵观我们多数的数据中心运营者甚至连DRP的概念都还没有形成,因此本文力图在这方面给出一定的提醒和参考。
可能会有人对DRP与EOP两个计划的概念混淆不清,EOP(Emergency Operating Procedure )应急运行计划,是对已知的、已经验证的灾难加以演练并制定已经计划,而DRP则更多关注灾难已经发生,我们应该如何组织自救、恢复生产,确保在在灾难发生过程中生产如何安全、持续的运行。
那么我们将在多大的范围或多高的位置讨论这个计划呢?一个具体的数据中心场地,而不是多个,因为每一个数据中心场地都是不一样的,恢复计划不能简单套用。灾难恢复计划的最高负责人又是谁呢?灾难恢复小组组长,请不要误会这个组长是一个常设的小职务,他通常应该是这个场站的运维经理,在国内可能是一个企业的运维总监或者基础设施总监,他日常的职务可能主管多个支持部门,包括物理设施运维部、IT设施运营部、工程建设部等。
灾难恢复小组组长责任重大(出于某种考虑,可以再设置副组长一名),他决定是否启动或结束灾难恢复计划。
一个灾难恢复计划的模板应该包括如下信息:
(图片来源:施耐德智能家居公众号,侵删)
灾难恢复计划本身的信息必须由DRP恢复小组组长任命的现场经理及时更新,当现场经理发现任何不正确、丢失应立即通知现场相关的管理人员加以纠正直至信息完全准备并记录在案。
我们还需要对灾难这个词本身进行一个定义,这里的灾难指的是导致数据中心的服务遭受损失,灾难的程度可以分级,是数据中心服务减少了?还是根本停止了?以及这个灾难可能导致的后果是什么?比如火灾、水患、恐怖袭击、人为错误还是软硬件故障等等。
一个灾难恢复计划的成功实施,是需要一个数据中心站场内的各个部门相互协同的,一个灾难恢复小组都有哪些人员或组织组成呢?小组成员通常包含以下几个部门:首先是灾难恢复小组组长,通常由场地的运维经理(总监级)担任,在国内也许是这个数据中心的总经理;其次是现场运维组长,国内应该是运维经理,网络小组组长(国内为IT运维经理);物理设施运维组长(国内是主管机电系统的运维经理);总监(国内则应该是集团公司的COO或者IDC公司的COO);异地备份人员(同样包括基础设施和IT)。
(图片来源:施耐德智能家居公众号,侵删)
从上面的组织配置我们应该看出,DRP计划从组织结构的建立上就是一个不依赖任何单人或单体组织的计划,那从组织结构上强调双冗余或双活的机制,强调异地备份和组织镜像。
第二篇DRP大军的组建
现在我们有了一个灾难管理团队的成员,下面一步则是根据不同的工作任务,分成若干的团队并定义每个小组成员的工作职责。
灾难管理团队
Disaster Management Team
(工作地点应设置在数据中心的指挥中心或ECC)
灾难管理团队的主要职责:
1)灾难管理团队负责提供数据中心恢复操作的总体方向;
2)负责确立损坏程度和激活恢复组织,负责通知各团队***;
3)监测和指导恢复工作;
4)负责决定是否需要引入灾难恢复程序。如果决定这么做,那么在程序所定义的实施过程中,灾难管理小组所作出的决定将取代任何现有的行政管理机构。
这里面引用一个香港著名电影《寒战》里面的案例,在电影中香港可能受到了恐怖袭击的潜在威胁,灾难恢复计划由管理小组的几位成员投票决定启动,灾难管理小组有权在程序运行期间,任免警员、调用特警、动用后备资源、管理公共信息发布等等。
灾难管理团队的职责分解如下:
1)为最终用户提供可以量化、可以识别的业务服务水平说明文件,并在文件中说明灾难管理计划中管理团队所肩负的启动灾难恢复计划的职责和可能的处理;
2)管理所有救援团队、联系公司总部、联系用户;
3)在灾难恢复计划执行过程中保持随时审计、安全控制;
4)控制和记录紧急费用和开支。
灾难管理团队的具体责任如下:
1)评估问题的程度和潜在的后果;
2)通知高级管理人员的灾难、恢复进展和问题;
3)启动灾难恢复程序;
4)协调恢复操作;
5)监控恢复操作,并确保计划的进度;
6)记录恢复操作;
7)用户管理;
8)监督授权支出的其它团队;
9)记录紧急非凡的成本和支出;
10)对保险索赔的损害进行了详细会计处理:
①确保在数据中心恢复运营是根据充分的审计控制,记录提供可靠性和一致性;
②监控数据中心的安全标准;
③确保适当的安排,以恢复网站,并恢复在紧急模式处理允许的时间范围内的现状;
④宣布数据中心恢复时,灾难恢复计划不再生效。
运营团队
Operations Team
运营团队的主要职责:
1)负责数据中心环境和IT设施日常运营工作;
2)在灾难恢复计划中承担具体操作任务。
运营团队的职责分解如下:
1)负责所有历史的和当前的数据中心环境所产生的数据和系统,并对系统进行更新,以保持其是最新的版本;
2)按照满足最终客户定义要求,为数据中心的恢复、数据控制、安全防范、磁带或介质存放提供管理和配置人员;
3)支持所有环境关键应用所需的可操作版本,以满足最低运行要求。
运营团队的具体职责如下:
1)为数据中心关键机电系统提供持续技术支持;
2)与IT网络团队合作,恢复本地和广域数据通信服务,以满足最低的处理要求;
3)为异地存储获得所有必要的备份;
4)机电系统重启动服务;
5)重新建立软件库和数据库,及时备份最后版本;
6)为机电系统提供足够的日常操作人员;
7)建立安全防范平台和数据中心控制设施;
8)对设施进行日常管理,以达到客户的要求;
9)安排采购和提供IT设备必要的日常耗材;
10)确保所有文件的标准化、操作记录、维护记录、应用程序都存放在一个安全的环境区域,并配备必要的重建设施。
网络团队
Networks Team
网络团队的主要任务:
负责所有数据中心的网络系统和通讯。
网络团队的职责分解:
1)为关键客户安排所有新的本地或广域网的通信设施和网络搭建;
2)如果需要的话,为客户提供基于网络的语音通讯服务或其他语音通信服务。
网络团队的具体职责:
1)评估语音和网络通讯服务,并负责与电信运营商协调备用通信措施;
2)负责重建网络设施所需的一切操作;
3)与用户定义在网络恢复中的优先事项;
4)与要求订购语音和网络通信设备;
5)提供必要的网络文档;
6)提供持续支持业务的网络设备;
7)灾难恢复后,重新建立网站的网络。
设施团队
Facilities Team
设施团队的主要职责:
负责所有IT房外环境区域,包括建筑本身环境服务,该团队负责安全、健康和建筑设施的更换。
设施团队的职责分解:
1)管理重建现场的环境和运营;
2)管理现场的物流和运输;
3)负责设施所在场地的安全(根据需要,增加物理安全措施)。
设施团队的具体职责:
1)与灾害管理团队一起,进行损害的评估和确定可回收设备;
2)与网络团队合作,准备好快速激活的线路;
3)清理灾难现场,确保该网站,以防止进一步的损害;
4)提供发起保险索赔的信息;
5)确保保险赔偿安排及时满足灾难发生时的情况(即任何可更换设备立即得到更新等);
6)准备重新使用数据中心的网络;
7)保证配置的数据中心符合使用的需要,包括但不限于下面的设施:
空调系统,配电系统,市电供应及连接的有效,隔断和地板,灾难区域的安全控制,各支持办公环境,工作员工的安全和福利、劳保。
通信团队
Communications Team
通信团队的主要职责:
负责对内外的通讯。
通信团队的职责分解:
通信团队负责从灾难管理团队获取通信指令,并在灾难和恢复阶段向员工、供应商、客户和媒体(包括:资讯、电视、广播)传递信息。
通信团队的具体职责如下:
1)从灾难管理团队获得指令,并保持通讯的持续和对外沟通的畅通;
2)适当的向当地、国内、国际披露信息;
3)通知供应商和客户潜在的延误;
4)通知员工恢复进度的时间表;
5)确保没有误解,可能伤害公司形象;
6)其他的公共关系。
其他恢复团队
Other Recovery Team
其他恢复团队的职责:
包括在灾难恢复计划中被认为是必要的其他团队的一部分。确保你描述每个团队的职责和活动。
具体团队描述:
1)人力和采购团队;
2)业务团队;
3)损伤评估小组。
(文章来源:施耐德智能家居公众号,侵删)
当前有2人正在等待…
帮您快速计算加盟施耐德智能家居需要多少钱?
多了解,多咨询获取更多加盟信息