活动与资讯

助力企业逐步实现自动化

活动与资讯

活动与资讯

助力企业逐步实现自动化

活动与资讯

关于嘉为

19年行业积淀,嘉为助力企业从运维走向运营

关于嘉为
搜索
搜索
搜索
/
/
/
无把握不动作!那些年,我们经历的IT运维事故

无把握不动作!那些年,我们经历的IT运维事故

2019-07-29 09:50

系统建设完以后,以为从此就高枕无忧啦?

年轻人,不要太天真!

系统搭建完毕,快(Ku)乐(Bi)之旅才刚刚开始,IT运维世界欢迎你的加入。

IT运维的核心是确保信息系统安全、高效、平稳的运行,IT运维是IT管理非常核心和重点的部分,也是内容最多、最繁杂的部分。没有经历过系统宕机、数据异常、数据丢失、删库跑路等事故的运维,不配谈人生。

经过我多年的观察和总结,诸如技术细节理解不够、风险意识及控制不足,还有像“误操作”这种看似非常低级的错误所导致的IT事故时有发生,很常见却又很难避免,每每说起,运维小伙伴都会掬一把辛酸泪。故此我整理了近年来身边曾经发生的一些运维事故,并从中挑选出有代表性的三种类型的案例与大家分享。

一、技术错误

事件1

在VMware虚拟化平台vSphere Web Client界面针对Linux系统发送Ctrl+Alt+Del 。

事件回顾:

工程师原计划在vSphere Web Client使用Ctrl+Alt+Del组合显示出服务器的登陆界面,在发送vSphere Web Client使用Ctrl+Alt+Del没有进行系统版本的确认,误以为Linux下使用Ctrl+Alt+Del命令与Windows一样,结果导致系统重启。

事件反思:

1.所有的操作要按照标准流程来做,针对不确定的技术问题不要想当然,需要抱有敬畏之心;

2.对生产系统进行操作前,必须清晰的知道每个操作带来的预期结果,无把握不操作,宁可不做也不能不确定的去做,IT运维不可心存侥幸。

事件2

删除RODC,选择了与实际操作目的无关的多余选项。

事件回顾:

工程师删除分支机构RODC,勾选了重置RODC上缓存的用户账户的所有密码,导致几百个AD用户的账号密码被修改为未知。

事件反思:

1.本案例中操作人员未充分评估并未意识到对DC等角色服务器进行变更的风险,对技术细节理解不够;

2.对于不熟悉的技术领域需辅助于工具及技术进行操作确认、测试;

3.谨小慎微、三思而后行。

二、风险意识及控制不足

事件1

一个“:”的缺失导致大批量用户邮件被误删除。

事件回顾:

按照用户要求,在Exchange management shell中删除用户已经完成发送的特定主题的邮件。删除命令中-subject缺少“:”,且删除命令未限定搜索范围,导致删除了全公司不确定用户对象、不确定邮件主题、不确定邮件内容的邮件。

事件反思:

1.充分评估执行删除命令时模糊搜索等不可控风险;

2.面临不可控风险时,进行删除前的备份,确保操作可回退;

3.进行高危操作时,提前识别风险、并做到事前预防、事中控制。

事件2

Exchange DAG服务器重启时未关注副本的状态,重启后数据库异常,导致邮箱服务中断。

事件回顾:

管理员按计划进行服务器重启,服务器为双副本的数据库,重启之前其中一个副本已经损坏无法正常切换,但未能得到管理员的重视且强制执行了重启,强制重启后原本正常的副本也无法挂载,整个数据库上的数百用户无法使用邮件,时长达到2天,最终通过数据库修复的方式将数据库恢复。

事件反思:

1.发现副本故障时及时修复,重启主节点时此问题也未引起管理员的重视,管理员风险意识及控制严重不足;

2.严格按照流程进行服务器重启,本次事件中,重启服务器节点时应先对数据库进行切换再重启,数据库无法切换时不应强制重启服务器。

三、无防备的不确定性低级错误

事件1

测试数据库与生产数据库两个命令执行窗口同时连接,误将测试库删除操作执行到了生产库。

事件回顾:

管理员原计划删除测试库的数据,在操作过程中打开了两个命令执行窗口(一个正式窗口、一个测试窗口),在本地拷贝好删除命令准备切换到测试窗口执行,鼠标在经过正式窗口时,误点击鼠标右键,导致命令直接在正式窗口执行,导致误删除生产库的部分用户数据。

事件反思:

1.凡是涉及到增、删、改的动作,都要再三确认后执行,而且要准备好回滚措施;

2.当同时连接多台服务器时,变更操作是需要反复确认,更需谨小慎微。

事件2

远程连接操作卡顿,拖影,工程师意图为点击“备份”按钮,却点击到了“还原”按钮。

事件回顾:

技术人员通过远程工具连接客户方电脑进行远程支持,排查备份系统备份任务失败问题,因网络连接状态不佳,鼠标操作经常卡顿、漂移、出现拖影,画面反馈延迟,但未能引起技术人员的重视,依然连续多次不断点击鼠标,在管理控制台“备份”和“还原”按钮相邻,试图点击“备份”按钮,却点击到了“还原”按钮,导致执行了数据恢复操作。

事件反思:

1.无把握不动作;

2.远程操作时,尽量放慢速度,网络状况不佳,当鼠标出现拖影,操作时更当谨慎。

从每一起事故的发生我们可以看出,事故之所以发生,它与技术细节理解不够、风险意识及控制不足、操作人员安全意识不高、麻痹大意心存侥幸心理、IT运维管理有漏洞都有直接关系。

IT运维担负的责任和使命是极其重要的,各类事故发生后,我们需要不断反思,思索下次如何才能避免这种事故的发生。回顾这些IT事故,希望这些曾经出现过的事件或者事故带给我们更多启迪,让这些已然发生无法挽回的IT事故发生的更有价值,以防更多悲剧的发生。

虽然上述案例中的IT事故,客观上永远无可避免,但只要有足够的敬畏之心,将安全风险意识、运维操作谨小慎微的文化理念渗透到每个IT运维人员的心中,提高防范意识,警钟长鸣,必将可以有效减少IT事故的发生。

二维码
广州总部 电话:020-38851616
深圳嘉为 电话:0755-83668518
北京嘉为 电话:010-51705705
上海嘉为 电话:021-61269880
© Power by Tencent
© 2019 广州嘉为科技有限公司. All rights reserved. 粤ICP备19059200号
  • 嘉为
  • 嘉为
    嘉为
  • 嘉为

    服务热线:
    广州总部 020-38851616
    深圳嘉为 0755-83668518
    北京嘉为 010-88578622
    上海嘉为 021-61269880

  • 嘉为
  • 嘉为