工作总结
发表时间:2026-03-30个人工作总结。
今年就这么过来了。回过头看,最大的感受就一个字:累,但不是瞎累,是那种每分每秒都在跟机器、跟代码、跟时间较劲的累。手上的活其实挺杂的,核心业务系统的稳定性得盯着,故障来了得扛着,机房那些服务器该换的换、该升的升,还有那些乱七八糟的工单,一个都别想跑。说白了,干运维这行,不出事没人记得你,出事了所有人第一反应都是“赶紧找那谁”。所以我这一年,就干了一件事:让自己成为那个“那谁”,但不是因为老出事,而是因为出了事能顶得住。
先说几个硬指标。核心业务系统全年可用性99.99%,故障总时长27分钟。这个数字看着漂亮,但我知道是怎么来的——是去年年底那几起故障堆出来的教训。去年这个时候,光P1级故障就翻了七八起,最长一次断了快一个小时,整个部门的脸都被我丢光了。今年我把MTTR从28分钟压到了15分钟,靠的不是什么灵丹妙药,就两招:第一,把常用的故障处理命令全部整理成速查表,打印出来贴在工位上,半夜接到告警脑子一片空白的时候,眼睛扫一眼就知道该敲什么;第二,每次复盘必须出一个“傻瓜式操作手册”,哪怕是个实习生,照着敲都不会出错。你懂的,有时候人一慌,连ls和ll都能敲反了。
今年最大的一仗是双十一前夜那回。那天晚上11点40,我正准备收拾东西撤了,监控突然炸了——核心交易系统响应超时,错误日志刷得飞起,全是“connection pool exhausted”。我当时的反应其实不是“冷静分析”,而是“卧槽又来”。扫了一眼CPU,不高;再看数据库连接数,爆了,比上限还多出20%。第一个念头是重启大法,但我犹豫了——这个库没做读写分离,重启起码两分钟,这两分钟业务全挂,明天就是全公司批斗会。硬着头皮先看慢查询日志,发现有个新上线的营销接口,SQL里少了个索引,走的是全表扫描,每个请求从20毫秒变成3秒,线程全堵在数据库门口排队,把连接池活生生干崩了。
知道根因了就好办了。我先手动Kill掉那些跑了超过30秒的异常会话——这一步其实挺冒险的,因为我不确定哪些是正常业务,哪些是死锁。当时我边Kill边盯着另一块屏幕上的业务监控曲线,看到交易量跌了一下又弹回来,心里才算踏实。整个过程用了不到两分钟,系统恢复了,但我一晚上没睡着。第二天拉着开发复盘,我说这事不能就这么完了,以后所有涉及SQL变更的上线,必须把执行计划截图附上来,否则运维这边直接打回。开发一开始不乐意,觉得我事多,我说你想想昨晚那个场景,你愿意半夜被叫起来吗?后来他们也就认了。
这件事之后我还加了两道保险:一是给这个接口配了Nginx单IP限流,哪怕索引又失效,也不会把整个库拖垮;二是拉上运维组的兄弟做了一次故障演练,专门模拟连接池耗尽的情况,确保下次不管谁值班,第一反应不是懵圈,而是知道先去Kill会话、再去查慢日志、最后再考虑要不要扩容。这套东西走下来,其实已经不是单纯处理故障了,是把整个系统的免疫力往上提了一截。
再说说那些不起眼但特别磨人的事。机房布线这事,我以前觉得差不多就行,光纤稍微弯一下无所谓,网线标签手写一个也能认出来。结果今年夏天被狠狠打了脸。有一根光纤,因为弯曲半径太小导致光衰过大,业务抖动了一个星期,我们愣是排查了三天才找到这根线。三天,你知道那三天我怎么过的吗?每天晚上盯着日志看,白天跟机房师傅一根一根线地测,最后测出来的时候,那根光纤的标签已经模糊得看不清了,只隐隐约约能看到一个“主”字,鬼知道是哪个机柜的主干。
那次之后我定了个规矩,说白了就是自己给自己找麻烦:光纤弯曲半径不能小于5公分,所有网线标签必须机打,标清楚源端口和目的端口,还得覆膜防水。变更操作必须双人复核,哪怕只是改个密码,也得两个人同时在场,一个人敲命令,一个人盯着屏幕念。这套规矩执行下来,速度确实慢了,但今年下半年的故障率直接降了六成。我觉得值,因为人的记忆是会出错的,但流程和清单不会。
也有做得不够的地方。最头疼的是文档沉淀。我们团队有个毛病,故障处理完了,群里发个复盘报告,大家看一眼,过段时间就忘了。上个月有个同事遇到一个连接池告警,明明我半年前处理过,命令都在聊天记录里,他翻了两个小时才翻到,重头排查花了半天。我当时就觉得自己失职了——这些东西如果不整理成文档,就等于没发生过。所以我明年打算强制自己干一件事:每个故障单关闭之前,必须关联到Wiki上的具体操作文档,否则不算完。我想把那些藏在脑子里的“土办法”和“避坑指南”都变成白纸黑字,让新人来了能照着做,让老人不用重复踩坑。
明年的目标其实很简单,就一个:把MTTR从15分钟压进10分钟。这事儿光靠手快不行,得靠工具。我盘了一下,目前还有几个中间件的重启依赖手动敲命令,明年要把这些操作全部脚本化,扔到平台上,哪怕凌晨三点出问题,也能一键自愈。另外我想搞点“破坏性实验”,定期随机把一台应用服务器拔掉,看系统能不能自己扛住、能不能自动摘流。这个想法跟领导提过,他说你胆子不小,我说趁现在没出事多练练,真出事的时候才知道该往哪儿跑。
这一年没干什么惊天动地的大事,就是把该修的机器修好了,该堵的漏洞堵上了,该快的响应变快了。明年就盯着MTTR这一件事干,别的先放一放。
-
需要更多的工作总结网内容,请访问至:工作总结