公司
信息系统服务器故障应急处理预案(初稿)
目 录
第一部分 服务器故障的处理响应 ......................................................................................... 2 第二部分 服务器硬件故障的诊断和处理 ............................................................................. 4 第三部分 服务器软件故障的诊断和处理 ........................................................................... 5
第一部分 服务器故障的处理响应
(一)、服务器故障的定义
本预案所指的服务器故障是指公司管理信息系统范围内的网络服务器设备的故障。包括因设备质量原因导致的系统故障、人为因素和网络系统外界因素而导致的系统故障、计算机病毒感染及遭受黑客或恶意代码攻击而导致的应用系统故障等。
涉及本预案的服务器设备包括小型机和PC服务器,设备清册参见附表1。
(二)、服务器故障的分类
以服务器设备的故障性质和故障可能涉及的范围,按照以下的标准进行分类: 服务器硬件故障:服务器硬件故障,包括服务器的底板故障、IO板及IO设备故障、CPU板及CPU故障、内存板及内存故障、磁盘阵列及磁盘故障以及磁带库故障等。这类故障将直接影响服务器的正常运行,情况严重的,将使服务器陷于瘫痪状态,基于该服务器的所有应用将无法正常使用。如果该服务器承担的是网络的控制和管理职能,将对整个管理信息系统造成极为严重的影响;如果该服务器承担的是单个或多个应用系统的运行和管理,那么,这些应用系统将无法提供正常的服务。
服务器系统软件故障:服务器的系统软件故障,包括操作系统故障、网络控制和管理系统故障、集群管理系统故障等等。严重的服务器系统软件故障,同样会使服务器陷入瘫痪状态。故障造成的影响,视该服务器承担的应用系统的不同而不同,如果该服务器承担了网络的控制管理或关键应用职能,将有可能造成非常严重的后果。
关键应用服务故障:关键应用服务故障,包括Oracle数据库故障、SQL Server数据库故障、PI数据库故障、OA故障、WEB服务故障、邮件服务故障等。这些应用服务软件的故障,对于相关的应用系统将产生一定的影响,其影响范围和损害程度随故障的性质和严重程度而定,严重的,将引起系统瘫痪。
(三)、服务器故障响应处理流程
服务器 硬件故障 故障发现人员 信息中心 信息中心按预案第二部分内容即故障的分析和诊断进行处理 根据故障性质和类型分类处理 服务器系统软件故障 关键应用 服务故障 是否 保修期 y n 操作系统 能启动? 病毒和入侵扫描检查 n 故障 部件确定 y 病毒和入侵扫描检查 事件日志和服务检查 n y 事件日志和服务检查 备份 重要数据 更换部件 备份 重要数据 能否自行处理? n y 恢复或重装 操作系统 联系相关软件服务商提供技术支持 要求制造厂维修服务部 维修 恢复或重装相应的系统 恢复或重装相应的应用软件 第二部分 服务器硬件故障的诊断和处理
一、 硬件故障诊断
硬件故障的诊断一般是在服务器操作系统无法引导启动的情况下进行,可以通过对主机BIOS配置、主板故障指示灯、面板状态屏幕、面板LED指示灯提供的信息进行,如条件允许(如光驱引导启动正常),还应使用设备制造厂家提供的专用诊断软件进行检查和分析。
二、 识别硬件故障的方法
1. 电源故障。电源故障的现象一般为:电源部件开关在“合”状态、指示灯不亮;面板状态屏幕不亮;按电源开关机器无反应、主机电源LCD指示灯不亮;无任何报警声。
2. 如果在开机后出现错误代码或“哔”声错误信息,则应对照该型服务器的用户手册中有关的错误信息列表进行判别。
3. 如果服务器的前面板有显示主机状态的液晶屏幕,应根据屏幕显示的信息对照用户手册中相应的内容进行判别。
4. 如果服务器的底板、CPU板、内存板上有显示状态的LED指示灯,一般都可以在机箱内找到代表指示灯意义的说明贴纸,可依此进行判别。
5. 服务器一般都自带用于对硬件系统进行检测的诊断程序光盘,在服务器可以用该光盘进行引导启动的情况下,应使用该光盘进行系统测试。
三、 故障排除顺序 1. 如果系统无法上电,可按以下步骤进行操作: (1) 检查以确保电缆和电源线都牢固插进相应的插座。 (2) 检查以确保系统所有部分均已打开并已正确调整。
(3) 如果服务器电源线插入带开关的多插座接线盒,应确保接线盒上的开关已打
开。
(4) 将另一个电气设备电缆或电源线插入电源插座,并打开该设备。 (5) 断开电源线,等待20秒,然后再次插入电源线并重新启动系统。 2. 如果系统可以上电,但无法完成开机自检测试,可按以下步骤进行操作: (1) 如果系统发出一系列哔声,则表示系统有错误,应参阅该型服务器的用户手
册中的“错误信息”章节进行判别。或与产品供应商联系维修。
(2) 如果系统无法运行开机自检测试,且屏幕显示错误信息,应参阅该型服务器
的用户手册中的“错误信息”章节进行判别。如果手册推荐的方法无法解决问题,应与产品供应商联系维修。 3. 如果系统通过开机自检测试,但不运行,可按以下步骤进行操作: (1) 检查以确保服务器在安装实用程序中配置正确。 (2) 如果服务器仍无法工作,应关机并卸下除显示器和键盘以外的所有外围设备。
测试服务器,并注意现在是否正常工作。
(3) 如果服务器仍不工作,应关闭显示器、服务器和所有外围设备,然后按(4)条
执行。
4. 检查内置硬件:
(1) 断开的电源线,卸下服务器主机盖。
(2) 检查所有附件板是否牢固地固定在各自的插槽中。
(3) 确保所有磁盘驱动器电源电缆和数据电缆已牢固并正确地联接。使用机内配
置的布线和开关配置图,查对海量存储器配置。
(4) 检查并确保内存条和内存扩展板牢固地固定在各自的插槽中,且添加的内存
条符合要求。
(5) 重新装上服务器盖板,并锁定系统。 (6) 重新装上所有电源线和电源电缆。 (7) 打开服务器电源,查找错误信息。 (8) 经以上步骤检查,仍无法得到有意义的错误信息,应与产品供应商联系维修。
第三部分 服务器软件故障的诊断和处理
一、 服务器软件故障分析和诊断
软件故障分析和诊断主要通过对主机运行状况、服务与进程、网络连接状况、系统端口、事件日志记录进行检查,这种检查的必要条件是服务器操作系统可以引导启动,并可以提供相应的检查界面。
1. 主机运行状况的检测 服务器主机的CPU、内存、磁盘的使用情况对服务器的性能影响很大,如果出现问题,将直接影响到服务器的正常运行,进而对服务器上正在运行的重要的应用系统带来不可预料的后果。因此,处理服务器软件故障前,对主机的CPU、内存、磁盘资源使用情况进行检测是一个非常重要的步骤,往往可以在第一时间发现主机基本性能的状态异常。
在Windows平台上,一般使用任务管理器中的“性能”选项卡检测主机CPU和内存的运行状况,使用资源管理器检查磁盘的使用情况,检查要点为:
CPU使用值,一般不会持续超过50%;
内存“认可用量总数”持续超过“物理内存总数”会引起系统性能下降; 内存“认可用量峰值”持续接近“认可用量限制”,系统将有崩溃的危险; 任何装有运行系统的磁盘的可用空间趋近于零,系统将停滞或有崩溃的危险。 装有操作系统的磁盘(一般为C:\\)的可用空间不应低于磁盘分区总容量的15%,
根据实际的运行观察,当服务器C盘可用空间小于50 M 时,系统的运行将进入不稳定状态。
2. 服务、进程管理的检测
服务器主机上的服务和进程主要来自二个部分,一是操作系统本身提供的系统服务和进程,这些服务的功能和状态在Windows的服务列表中有比较详细的描述,这些服务的异常,系统一般会给出比较明确的错误提示。
另一部分是应用系统的服务,服务器上往往运行着非常重要的应用系统,例如大型的数据库系统、Mail系统、Web Server或特殊业务的应用系统等。应用系统的进程和服务是否正常运行是判断应用系统是否正常的关键,如果这些关键的进程和服务已经停止,则应用系统肯定无法正常工作。
监测服务器上的进程和服务是服务器管理的一个重点,对于进程的监测尤其重要,检查的要点为:
有无可疑的进程活动;
有无不显示进程标识符(PID)的进程活动; 有无不显示映象名称的进程活动;
有无不显示用户名或显示非法用户名的进程活动; 有无大量占用CPU的进程; 有无大量占用内存的进程;
有无GDI对象异常的进程。 3. 网络状况检测
服务器网络组件的运行状况是服务器能否维持正常的网络访问和提供正常的网络服务的一个关键。在服务器运行异常时必须检测服务器网卡的配置情况是否正常,最简单的测试是在DOS提示符下运行ipconfig /all命令,察看各个网络连接当前的配置状态。
使用网络监视器可以获得更多的信息,在网络监视器的实时部分,主要监视网络利用率、每秒帧数、每秒字节数、每秒广播、每秒多播等指标,在捕获统计中,主要监视缓冲区里的帧、当缓冲区超出限制时帧的丢失数、缓冲区利用率、丢失的帧数等指标。
当发现以上指标有异常,应进一步对捕获的数据帧进行分析,此时应特别注意查寻有无源地址或目标地址异常的帧,有无协议异常的帧。
4. 系统端口检测
网络中的服务器系统通常会提供一系列的服务给网络中的其他机器进行访问和使用,这些服务都是通过一些指定的端口进行通讯的,所以系统业务端口的正常与否对于系统业务有直接的影响。
对服务器的系统业务端口的检测可以在DOS提示符下使用netstat命令,该命令随带的参数所表示的意义如下:
-a 显示所有连接和监听端口。 -b 显示包含于创建每个连接或监听端口的可执行组件。在某些情况下已知可
执行组件拥有多个独立组件,并且在这些情况下包含于创建连接或监听端口的组件序列被显示。这种情况下,可执行组件名在底部的 [ ] 中,顶部是其调用的组件,等等,直到 TCP/IP 部分。注意此选项可能需要很长时间,如果没有足够权限可能失败。
- e 显示以太网统计信息。此选项可以与 -s选项组合使用。 -n 以数字形式显示地址和端口号。 -o 显示与每个连接相关的所属进程 ID。 -p proto 显示 proto 指定的协议的连接;proto 可以是下列协议之一: TCP、UDP、
TCPv6 或 UDPv6。如果与 -s 选项一起使用以显示按协议统计信息,proto 可以是下列协议之一:
IP、IPv6、ICMP、ICMPv6、TCP、TCPv6、UDP 或 UDPv6。
-r 显示路由表。 -s 显示按协议统计信息。默认地,显示 IP、IPv6、ICMP、ICMPv6、TCP、
TCPv6、UDP 和 UDPv6 的统计信息;-p 选项用于指定默认情况的子集。
-v 与 -b 选项一起使用时将显示包含于为所有可执行组件创建连接或监听端
口的组件。
Interval 重新显示选定统计信息,每次显示之间暂停时间间隔(以秒计)。按
CTRL+C 停止重新显示统计信息。如果省略,netstat 显示当前配置信息(只显示一次)
对于UNIX服务器,可通过Connect系统业务端口,发送请求,以监测端口是否能够响应。
5. 日志检查
服务器上的应用系统或重要进程运行时会产生大量的日志文件,这些日志文件对于检查程序运行状态、查找程序出错原因很有帮助。
对于Windows平台上,可使用的日志系统是管理工具中提供的“事件查看器”,其中
包括了系统日志、应用程序和安全性日志,需要重点关注的是“错误”和“警告”。
另外,服务器上运行的应用程序也会提供相应的日志系统,其提取日志的方法因应用系统的不同而不同,可参照相关的用户手册进行。
在UNIX平台上,日志是以文件的形式存放,不同版本的Unix日志文件的目录是不同的,在Solaris下一般是在Unix /var/log,在AIX下,需要关注的日志文件有: 文件 core和snapcore nohup.out .xerrors mbox smit.log 和 smit.script /var/adm/wtmp /etc/security/failedlogin /var/adm/sulog /var/adm/cron/log /var/tmp/snmpd.log /var/tmp/dpid.log /var/tmp/dpid2.log /var/tmp/hostmidb.log /var/tmp/muxatmd dead.letter trcfile trace /var/adm/messages /etc/shutdown.log
二、 服务器软件故障的处理
服务器的故障中,大部分是软件故障。软件故障对于服务器稳定运行的影响很大,严重时将引起整个系统崩溃。一般常见的软件故障主要有操作系统文件损坏或丢失、设备驱动程序错误或损坏、服务进程不能启动、网络地址配置错误或丢失,以及应用系统软件方面的程序出错等等。
1. 操作系统故障的处理
对于Windows系统,如果操作系统故障前对操作系统有过不适当的修改而无法复原,或发现系统提示缺少必须的文件、提示某些文件错误等情况,在排除服务器感染病毒的可能以后,应即使用升级安装对操作系统进行恢复。
升级安装之前,应对重要的配置文件和数据文件进行备份或加适当的保护。 一般情况下,重要的数据文件不宜置于安装操作系统的磁盘(如C:盘)。在备份时,
描述 由应用产生的dump文件,可用于诊断错误 nohup命令的输出结果 X11的输出结果 用户邮箱中的邮件 用户使用smit 命令后的日志 记录用户的登录信息,是二进制文件,用who 命令来阅读其内容 建议 可删除 可删除 可截短 可截短 可适当保留最后1000行,或删除 根据需要保留60天中有用的内容,其余删除 记录用户失败的登录信息,是二进制可根据需要保留60天中文件,用who 命令来阅读其内容 有用的内容,其余删除 用户使用su 命令的日志 cron 的日志 snmp 监控进程日志 snmp 子系统日志 可根据需要保留60天中有用的内容,其余删除 可截短 可截短 可截短 未成功的邮件 实用程序的输出 用于记录syslog进程的日志 可删除 可删除 可适当保留最后1000行,或删除 系统关机过程日志,用shutdown -l 可适当保留最后1000行,命令产生 或删除 应尽量将这些重要文件置于具有安全保护的机器上。
当升级安装无法恢复系统时,可以考虑全新安装操作系统,安装完成应注意打好补丁。然后进行应用系统的恢复。
对于UNIX操作系统的故障,当无法在短时间内找到故障原因和处理方法时,应立即与系统服务商的技术支持人员联系。
对由于病毒感染引起的操作系统故障,可参照《反病毒处理预案》处理。 2. 系统服务进程的故障处理
系统服务进程故障时,应检查“服务”中相应的服务项,检查要点有:状态、启动类型、登录身份、服务失败时计算机的反应,以及该服务所依赖的系统组件是否已经正常启动。如有异常,应根据情况作相应处理。无异常后,可启动该进程,并作进一步检查。
如该进程的状态在“已启动”,检查上述项目无异常的,可重新启动该服务,并作进一步检查。
经上述处理仍无法消除故障时,可进入“控制面板/添加或删除程序/添加或删除Windows组件”,检查与故障的服务相对应的组件是否被钩选,如已被钩选,可先将其取消后,再次钩选重装。
对于应用系统的服务故障,应检查分析该软件的错误日志,根据分析的结果采取相应的措施。必要时,应重装应用系统。
3. 设备驱动程序故障处理
设备驱动程序故障时,将引起相关设备的异常运行,其故障现象类似于硬件故障,情况比较复杂,需要认真鉴别。一般的处理过程为:
检查设备管理器,是否有“!”和“?”出现,如果没有任何这样的标记,则大多为硬件故障。对于可以拆卸的设备,可以将设备拆下,装入当确认设备无故障后,应使用“更新驱动程序”重新安装设备驱动程序。;
当服务器的主板芯片驱动未正确安装时,设备管理器中会出现一些未知设备,此时即使使用正确的设备驱动程序安装,某些设备还是不能被驱动起来。对于这种情况,应首先找到这台服务器的配置光盘或下载合适的主板驱动程序,安装主板驱动程序,再安装设备驱动程序。
对于即插即用的设备,也须检查其驱动程序是否正确安装,无法确认或设备运行异常时,可使用“更新驱动程序”重新安装设备驱动程序。
在处理设备驱动程序故障的过程中,应注意检查系统日志的记录,并根据日志记录的情况采取相应的措施。
对于UNIX的小型机系统,一旦发生设备驱动程序故障,又无法在短时间内找到故障原因和处理方法时,应立即联系系统服务商的技术支持人员,以尽快得到技术支持。
附件1 服务器一览表
附件2 HP NetServer LH服务器“哔”声错误信息
1-2-2-3 BIOS ROM检测 1-3-1-1 DRAM更新测试 1-3-1-3 8742键盘控制器检测 1-3-3-1 DRAM测试 1-3-4-1 测试64K基本地址列 1-3-4-3 测试64K基本内存 1-4-1-1 测试64K基本内存(16位) 2-1-2-3 版本检测 其中: P = 检查和更换处理器板
S = 检查和更换系统板 M = 检查和更换内存模块 R = 更换ROM芯片
R S、P S、P M M、P M、P M、P R
因篇幅问题不能全部显示,请点此查看更多更全内容