昨天赵SIR接到一个客户机房网络设备维保需求,连夜加班写了一份关于网络机房设备维保方案,仅供大家参考:
1、硬件维保服务概述
1.1 用户现状与需求
随着企业业务现在越来越高度依赖IT基础架构支持,公司机房相关网络设备逐渐老化,有些设备连续运行超过7年,设备出现硬件故障、宕机以及不稳定等一系列潜在问题突出,未来严重影响企业业务正常工作,所以针对以上情况制定出本次硬件维保方案以确保企业公司业务的正常运行,为贵公司提供全面的运行维护保障和相关IT技术支持服务。
1.2硬件维保服务概述
为了保障IT基础网络架构持续稳定运行,保障公司业务正常开展,针对客户机房过保设备提供7*24小时技术支持、定期设备维护、备件替换与安装、应急网络故障处理响应等服务。下表为用户机房过保设备清单:
1.3 IT硬件维保服务目标
天津华赛数联信息技术有限公司可为贵公司提供优质的IT维保维护服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。通过维护服务的有效管理来提升用户信息系统的服务效率,协调各业务应用系统的内部运作,改善网络信息系统部门与业务部门的沟通,提高服务质量。结合用户现有的环境、组织结构、IT资源和管理流程的特点,从流程、人员和技术三方面来规划用户的网络信息系统的结构。将用户的运行目标、业务需求与IT服务的相协调一致。
天津华赛数联信息技术有限公司提供的信息系统服务的目标是,对用户现有的信息系统基础资源进行监控和管理,及时掌握网络信息系统资源现状和配置信息,反映信息系统资源的可用性情况和健康状况,创建一个可知可控的IT环境,从而保证用户信息系统的各类业务应用系统的可靠、高效、持续、安全运行。
2、硬件维保服务方案
2.1 基础维保服务
2.1.1 IT信息资产统计服务
在合作协议生效后,我公司将会派专人到用户现场,对协议范围内的设备进行详细的登记,收集建立用户设备档案所需的资料,包括:设备名称、型号、各部件的产品系列号、设备具体配置、安装日期,操作系统及网络硬件软件版本、当前的资源利用率等。利用这些信息建立一套完善的用户档案系统,以便于故障的诊断和分析、库存备件的准备。此项服务为基本服务,包含在运行维护服务中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。具体服务内容包括:
· 硬件设备型号、数量、版本等信息统计记录
· 软件产品型号、版本和补丁等信息统计记录
· 网络结构、网络路由、网络IP地址统计记录
· 当前网络架构拓扑图梳理与绘制、光纤配线架连接情况梳理
· 其它附属设备的统计记录
2.1.2 网络设备和机房环境巡检服务
通过该服务可使客户获得设备运行的第一手资料,最大可能地发现存在的隐患,保障设备稳定运行。华赛数联工程师将定期(每月一次)对指定的系统硬件设备做定期的检测和维护,包括系统运行常规状况检测、查看和分析日志文件和报警记录等;对用户的现场机房环境进行检查,内容包括机房电源、温度和湿度,干扰和接地等,为用户提供优化系统运行环境的意见和建议。巡检结束并提交相应的IT系统健康检查报告,巡检报告将评估该IT系统的可用性、安全性、稳定性和性能现状,并就发现的问题或隐患提出我方建议的解决方案。
巡检包括的部分内容如下:
网络设备部分状态巡检:
巡检业务流程图:
2.1.3 硬件维保和备件更换服务
负责在承诺的维保时间内,对客户投保的设备提供风险式维保服务,其中不仅包括电话支持、紧急响应硬件故障诊断、设备预防性检查维护(健康巡检)、还包括维保设备更换、安装、系统升级、补丁升级以及相关的技术咨询服务,以保证客户的硬件系统安全、可靠的运行。作为有着丰富系统集成服务经验的运维服务商,我们有着广泛深入的厂商合作基础,我们的库房长期储备部分常用备品、备件,关键时刻可为客户提供备件更换服务,以解决客户设备紧急故障引起的维修期间的网络或应用停滞问题。
硬件维保业务流程图:
2.1.4 电话和现场技术支持
针对用户的信息系统现有的IT基础构架设施,提供全面的运行维护保障和相关技术支持服务, 公司拥有固定热线电话服务系统,能为客户提供不间断的电话技术支持服务。专业工程师在线为您解答问题;排除故障,专业的服务跟踪系统,确保服务响应时间及服务质量。
服务客户电话呼入后,坐席人员首先会确认用户信息,并根据项目或服务合同号在响应平台数据库中调出合同的详细信息,在了解客户需求后,将按照以下顺序呼叫服务支持人员,第一时间响应客户需求。在转接客户电话后,坐席人员会在系统中创建case,并将相关信息迅速发送给技术负责人以及项目经理,技术人员的响应顺序如下图:
2.2 增值维保服务
2.2.1 网络故障应急响应
对于客户IT系统突发性的故障或突发性的性能下降或应客户请求,派遣工程师第一时间赶往客户现场,查找问题,排除故障。紧急响应支持服务时间为每周7天,每天24小时。
一级故障响应与到达时间表:
故障分级定义:
一级故障:"紧急"(网络无法使用)立即电话支持,接到请求后1.5小时内到达现场。
二级故障:"严重"接到服务请求后15分钟内回电话,在12小时之内到达现场。
三级故障:"不要紧"接到服务请求后15分钟内回电话,根据用户安排,协商到达现场。
2.2.2 网络性能调优及IT系统规划
天津华赛数联根据客户IT具体现状以及定期巡检的状况分析,作为增值服务,每月给客户提供IT信息架构状况及性能优化建议解决方案,具体工作内容:
对系统信息进行收集和分析;
(1)查找引起性能下降的各种原因,制订解决方案;
(2)根据客户业务特点及IT系统状态,制定调优方案;
(3)在业务允许的情况下,对系统做好备份准备;
(4)在业务允许的情况下,对可马上处理的问题,在争求用户同意的情况下,我们可进行当场的调整(这种情况多数在于对系统核心参数的调整);
(5)对可能会产生其他业务影响的问题,或者优化方案需要用户增加资源(如性能瓶颈可能是缺乏某硬件资源)我们将在提交的报告中详细描述问题的成因,影响范围,建议的解决方案,以及解决问题的风险,交予用户评估;
(6)测试系统,保证IT系统的可用性;协助业务测试,检测调优的有效性。
(7)提供今后的IT系统规划、软硬件升级与调整服务
(8)提供应用在系统中的集成支持和咨询服务
(9)提高并建立客户的技术支持力量,定期针对客户进行针对性培训
(10)不断为客户提供新技术、新方法,掌握新的新技术动向
2.2.3重点时间专人值守保障服务
天津华赛数联信息技术有限公司深刻知道保证重要时刻设备稳定运行对客户成功尤为关键,因此,天津华赛数联信息技术有限公司可对客户提供重要时刻的专人现场值守支持,包括客户的重大会议期间、客户的年终结算日、运营商客户的生产网重大割接或其它任何客户认为可能对其业务运营产生重大影响的时刻。
如需专人值守,客户需至少提前3周与天津华赛数联信息技术有限公司技术经理联系。对每位合约客户,天津华赛数联信息技术有限公司均需按事先合同约定提供专人值守服务。客户如需超出合同约定范围的更多值守支持,需额外支付相应人力和差旅费用。
2.2.4 重大故障应急预案
对于重大或者特别重大的系统故障,天津市华赛数联将启动紧急预案,启动紧急预案的情况包括:
(1)不能在约定时间内排除系统故障的情况
(2)系统出现后果严重、影响面广的故障
(3)系统出现业务停顿或者数据丢失的故障
(4)由于其它原因引起的重大故障等
对于出现上述事件,天津华赛数联将启动紧急预案,并指定一位公司领导和技术技术总监共同担任紧急预案的总指挥,负责处理紧急事务和协调公司资源。
紧急应急小组构成:
技术组至少包含2名CCIE认证级别工程师
紧急预案流程:
通过紧急预案的处理,大大的提高了我公司和用户应对各种突发事件的能力,提高了用户系统的可靠性,保证客户应用系统长期稳健的运行。
2.2.5 定制培训
了解客户培训的需求,增强甲方工程师相关IT管理和对应技术能力,针对IT技术制定培训教材和培训方案实施定制的培训服务;
3、服务流程体系
我公司为用户采用的服务方式为定期巡检结合电话远程和故障现场服务。定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:
3.1 服务时间
(1) 接收服务请求和咨询:在5*8 小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。
(2) 在非工作时间设置有专人7*24 小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24 小时机房监控人员的机房突发情况汇报。
(3) 服务响应时间:
技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。对于"系统瘫痪,业务系统不能运转"的故障级别,如果不能于8小时内解决故障,天津华赛数联信息技术有限公司将启动应急预案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。
3.2服务行为规范
(1) 遵守用户的各项规章制度,严格按照用户相应的规章制度办事。
(2) 与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。
(3) 出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。
(4) 现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。接听电话时要文明礼貌,语言清晰明了,语气和善。
(5) 遵守保密原则。对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。
3.3现场服务支持规范
运维服务人员要做到耐心、细心、热心的服务。工作要做到事事有记录、事事有反馈、重大问题及时汇报。严格遵守工作作息时间,严格按照服务工作流程操作。
1. 现场支持工程师应着装整洁、言行礼貌大方,技术专业,操作熟练、严谨、规范;现场支持时必须遵守用户单位的相关规章制度。
2. 现场支持工程师在进行现场支持工作时必须在保证数据和系统安全的前提下开展工作。
3. 现场支持时出现暂时无法解决的故障或其他新的故障时,应告知用户并及时上报负责人,寻找其他解决途径。
4. 故障解决后,现场支持工程师要详细记录问题的发生时间、地点、提出人和问题描述,并形成书面文档,必要时应向用户介绍故障出现的原因及预防方法和解决技巧。
3.4 问题记录规范
根据使用人员提出问题的类别,将问题分为咨询类问题和系统缺陷类问题二类:咨询类问题是指通过服务热线或现场解疑等方式能够当场解决用户提出的问题,具有问题解答直接、快速和实时的特点,该问题到现场支持人员处即可中止,对于该类问题的记录可使用咨询类问题记录模版进行记录。系统缺陷类问题是指使用人员提出的问题涉及到系统相应环节的确认修改,需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要各外包服务项目组的分析确认,问题有解决方案后,将解决方案反馈给用户。具体提交流程如下:
1. 问题提交。应用信息系统的用户发现属于系统缺陷类的问题时,填写系统缺陷类问题提交单,提交服务支持人员。
2. 问题分析。服务支持接到用户提交的问题单,要组织相应人员对问题单中描述的问题进行分析研判,确定问题的类型(技术问题、业务问题或者操作问题)。属于技术问题,提交服务技术人员对存在的问题提出具体的处理意见和建议;属于业务问题,提交服务业务人员进行处理;属于操作问题,可安排相关人员对问题提出人进行解释,并将系统缺陷类问题提交单转为系统咨询类问题提交单。
3. 问题确认、解决。服务的技术人员和业务人员收到系统缺陷类问题提交单后,对提交的问题进行归类汇总和分析、确认。可以解决的,明确问题解决的具体处理建议和措施,经主管签字同意后,交实施人员进行解决方案的实施。服务人员确认是否解决,并将解决方法附在系统缺陷类问题提交单上反馈给问题提出人员。
4. 问题上报。服务人员收到经业务或技术人员确认的系统缺陷类问题提交单后,上报上级部门。
5. 问题回复。服务人员根据提交的问题进行分析,制定解决方案并进行实施解决,同时做好变更记录。将解决方案汇总后及时向问题提交单位或问题交办客户作出回复,并将分析过程和问题产生原因一并提交。
4、应急服务响应措施
天津华赛数联信息技术有限公司已经针对本项目制定了详尽的设计、应急处理预案,整个流程严谨而有序。下面,我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。
4.1、应急基本流程
4.2、预防措施
针对上门服务过程中可能遇到的各种各样的风险,天津华赛数联信息技术有限公司总结自身维护服务经验,针对一些可能出现的情况,制定了一系列预防处理措施。常见的预防措施包括:所有网络设备配置备份、详细网络架构拓扑图准备、主机服务器数据定期备份、备件准备、定期工程师安全操作培训考核等有效措施。
4.3、突发事件应急策略
系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低,天津华赛数联信息技术有限公司设计了完善的突发事件应急策略。
系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
突发事件应急策略服务流程图如下:
天津华赛数联信息技术有限公司不但拥有经验丰富的技术支持工程师,而且根据长期以来的客户服务工作经验,建立了常用知识库,其中包括多种常见技术故障和突发事件的应急策略。当获悉出现突发事件时,技术支持人员可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。
相关标签: