IT故障排查工作中的六条不变法则

IT运维大师是每个人寻找的愿望，他们那敏锐的嗅觉好像总能揪出核算体系毛病的根本原因。这种快速反应、精确定位的才能源自多年来处理杂乱数据中心基础设施难题的阅历堆集与个人常识储藏，并且其成功很难被仿制。明显还没有哪家组织愿意为这种近乎“超自然”的神级判别才能颁布认证资质。

尽管如此，高强度毛病排查作业往往会遵从一些通用且不成文的实践规矩。在本文中，我将结合本身阅历总结出六条不变规律，期望能为咱们的实践作业带来助益。请留意，这些规律只适用于大多数--而非悉数--情况。

1、永久不要对当时衔接的服务器或许网络设备接口进行修正

尽管这种做法听起来十分愚笨，但某些人的确会频频对正在用于设备通讯的网络接口进行修正，这也是许多毛病产生的根本原因。尽管有时候如此处理也是逼不得已，但咱们完全能够使用其它机制消除这种潜在缺点。在必要时为接口装备辅佐IP，并暂时将其与其它设备、子网、串行控制台或许KVM之类相连。关于那些坐落长途作业环境中且周遭没有IT人员的设备，这种处理方式就显得更为必要。

有时候我会偷个小懒，使用写好的脚本在Linux设备中更改IP、进行ping测验并在呈现过错时撤销改变。但这其实有点做弊嫌疑。

2、确保一切操作都具有康复地步

只需有或许，请有必要为自己的操作预备一套康复机制。这或许意味着咱们需求在处理毛病磁盘之前备份整个目录结构下的一切文件，尽管看似费事，但这能协助咱们保有悉数存在潜在价值的数据。别的，咱们也能够在处理损坏的操作体系前直接从物理服务器的RAID 1阵列中取出一块磁盘。当然，这一切在虚拟机环境下将愈加轻松，只需保存一份快照即可搞定。

3、记载、记载再记载

在今日提到的各项规律中，这一条恐怕是最难遵从的。能够必定的是，在一片紊乱傍边平心静气地记载下问题与判别的确有点不切实践。但即使如此，咱们依然需求在作业完毕之后为自己保存一份剖析材料，记载下处理过程中的履行过程以及处理途径。请记得把记载保管在安全的当地，最好是由企业内网保管的维基条目--并在其它方位多备份几份。

4、IT作业不相信魔法，但却仰仗命运

正如托马斯·杰斐逊所说，"我发现自己作业得越尽力，走运女神就越是垂青于我。"相同的道理也适用于IT范畴。咱们在基础设施研讨方面投入的时刻越多、对路由器、交换机、服务器的运作情况越了解，实践办理时也就越轻松。定时做好这项功课能协助咱们培育出敏锐的嗅觉，在问题前期就做出精确判别，并在呈现问题时更快做出呼应。培育IT好运的方法还有许多。举例来说，使用东西对网络设备装备进行自动化备份能在交换机无法作业时协助咱们在几分钟内布置好代替计划，而不再需求花费几个小时。

5、在进行修正前对每个装备文件做好备份

这条规矩一般只适用于Unix服务器及网络设备，因为其装备文件简直存在于设备装备体系中的各个环节。在咱们改动灵敏装备之前，最好先在交换机闪存或许TFTP主机中保存一份副本。在Unix体系方面，只需将*.conf以别的保存为*.conf.orig即可。

如此一来，咱们就能在紧要关头轻松将服务康复至原先的正常运转状况--将文件仿制回去并重新启动服务，就这么简略。但这种做法在Windows环境中就帮不上忙了，注册表的存在与Windows的体系特性大大增加了简略概念的实践杂乱程度。即便如此，咱们依然能够在着手修正前导出一份注册表，这样费事呈现时咱们也能做到手中有粮、心里不慌。留意：因为Windows注册表如此要害，对其做出改变等于是将服务器的命脉握在手中，千万大意不得。

6、监控、监控再监控

所谓防备胜于医治，每月找个周末仔细查看一遍事务环境十分必要。咱们应该仔细监控数据中心的每个方面，从室内温度开端、到机架、再到服务器--别的，服务器进程查看、正常运转时刻查看等等，这是一项无穷无尽、略显单调但却极为要害的作业。咱们还需求对一切网络设备进行集中式体系日志收拾，并经过趋势及图形东西监控带宽使用率、温度、磁盘分区用量以及其它重要数据目标。一切这些监控机制都应当在数据超越合理阈值时向咱们提出正告。

当某个磁盘分区空间缺乏而导致数据库损坏时，提早一小时发来的电子邮件或短信很或许协助咱们脱节噩梦般的紧迫加班与体系停机。咱们没有理由不在数据中心内充分使用监控这一利器。

今日的规矩汇总就提到这儿。它们不只应该被严格遵守，更有理由成为IT作业中根深柢固的指导性准则。关于深刻理解IT作业内在的技术人员，这六条规律只不过是有必要据守的观念；但在其他人看来，它们则好像IT大师一般仅仅个可望而不可即的神话。