导航栏

×
你的位置: 心得体会大全 > 心得范文 > 导航

工作总结

发表时间:2026-03-30

个人工作总结。

今年就这么过来了。回过头看,最大的感受就一个字:累,但不是瞎累,是那种每分每秒都在跟机器、跟代码、跟时间较劲的累。手上的活其实挺杂的,核心业务系统的稳定性得盯着,故障来了得扛着,机房那些服务器该换的换、该升的升,还有那些乱七八糟的工单,一个都别想跑。说白了,干运维这行,不出事没人记得你,出事了所有人第一反应都是“赶紧找那谁”。所以我这一年,就干了一件事:让自己成为那个“那谁”,但不是因为老出事,而是因为出了事能顶得住。

先说几个硬指标。核心业务系统全年可用性99.99%,故障总时长27分钟。这个数字看着漂亮,但我知道是怎么来的——是去年年底那几起故障堆出来的教训。去年这个时候,光P1级故障就翻了七八起,最长一次断了快一个小时,整个部门的脸都被我丢光了。今年我把MTTR从28分钟压到了15分钟,靠的不是什么灵丹妙药,就两招:第一,把常用的故障处理命令全部整理成速查表,打印出来贴在工位上,半夜接到告警脑子一片空白的时候,眼睛扫一眼就知道该敲什么;第二,每次复盘必须出一个“傻瓜式操作手册”,哪怕是个实习生,照着敲都不会出错。你懂的,有时候人一慌,连ls和ll都能敲反了。

今年最大的一仗是双十一前夜那回。那天晚上11点40,我正准备收拾东西撤了,监控突然炸了——核心交易系统响应超时,错误日志刷得飞起,全是“connection pool exhausted”。我当时的反应其实不是“冷静分析”,而是“卧槽又来”。扫了一眼CPU,不高;再看数据库连接数,爆了,比上限还多出20%。第一个念头是重启大法,但我犹豫了——这个库没做读写分离,重启起码两分钟,这两分钟业务全挂,明天就是全公司批斗会。硬着头皮先看慢查询日志,发现有个新上线的营销接口,SQL里少了个索引,走的是全表扫描,每个请求从20毫秒变成3秒,线程全堵在数据库门口排队,把连接池活生生干崩了。

知道根因了就好办了。我先手动Kill掉那些跑了超过30秒的异常会话——这一步其实挺冒险的,因为我不确定哪些是正常业务,哪些是死锁。当时我边Kill边盯着另一块屏幕上的业务监控曲线,看到交易量跌了一下又弹回来,心里才算踏实。整个过程用了不到两分钟,系统恢复了,但我一晚上没睡着。第二天拉着开发复盘,我说这事不能就这么完了,以后所有涉及SQL变更的上线,必须把执行计划截图附上来,否则运维这边直接打回。开发一开始不乐意,觉得我事多,我说你想想昨晚那个场景,你愿意半夜被叫起来吗?后来他们也就认了。

这件事之后我还加了两道保险:一是给这个接口配了Nginx单IP限流,哪怕索引又失效,也不会把整个库拖垮;二是拉上运维组的兄弟做了一次故障演练,专门模拟连接池耗尽的情况,确保下次不管谁值班,第一反应不是懵圈,而是知道先去Kill会话、再去查慢日志、最后再考虑要不要扩容。这套东西走下来,其实已经不是单纯处理故障了,是把整个系统的免疫力往上提了一截。

再说说那些不起眼但特别磨人的事。机房布线这事,我以前觉得差不多就行,光纤稍微弯一下无所谓,网线标签手写一个也能认出来。结果今年夏天被狠狠打了脸。有一根光纤,因为弯曲半径太小导致光衰过大,业务抖动了一个星期,我们愣是排查了三天才找到这根线。三天,你知道那三天我怎么过的吗?每天晚上盯着日志看,白天跟机房师傅一根一根线地测,最后测出来的时候,那根光纤的标签已经模糊得看不清了,只隐隐约约能看到一个“主”字,鬼知道是哪个机柜的主干。

那次之后我定了个规矩,说白了就是自己给自己找麻烦:光纤弯曲半径不能小于5公分,所有网线标签必须机打,标清楚源端口和目的端口,还得覆膜防水。变更操作必须双人复核,哪怕只是改个密码,也得两个人同时在场,一个人敲命令,一个人盯着屏幕念。这套规矩执行下来,速度确实慢了,但今年下半年的故障率直接降了六成。我觉得值,因为人的记忆是会出错的,但流程和清单不会。

也有做得不够的地方。最头疼的是文档沉淀。我们团队有个毛病,故障处理完了,群里发个复盘报告,大家看一眼,过段时间就忘了。上个月有个同事遇到一个连接池告警,明明我半年前处理过,命令都在聊天记录里,他翻了两个小时才翻到,重头排查花了半天。我当时就觉得自己失职了——这些东西如果不整理成文档,就等于没发生过。所以我明年打算强制自己干一件事:每个故障单关闭之前,必须关联到Wiki上的具体操作文档,否则不算完。我想把那些藏在脑子里的“土办法”和“避坑指南”都变成白纸黑字,让新人来了能照着做,让老人不用重复踩坑。

明年的目标其实很简单,就一个:把MTTR从15分钟压进10分钟。这事儿光靠手快不行,得靠工具。我盘了一下,目前还有几个中间件的重启依赖手动敲命令,明年要把这些操作全部脚本化,扔到平台上,哪怕凌晨三点出问题,也能一键自愈。另外我想搞点“破坏性实验”,定期随机把一台应用服务器拔掉,看系统能不能自己扛住、能不能自动摘流。这个想法跟领导提过,他说你胆子不小,我说趁现在没出事多练练,真出事的时候才知道该往哪儿跑。

这一年没干什么惊天动地的大事,就是把该修的机器修好了,该堵的漏洞堵上了,该快的响应变快了。明年就盯着MTTR这一件事干,别的先放一放。

    需要更多的工作总结网内容,请访问至:工作总结

文章来源://www.xd63.com/xindefanwen/190567.html

猜你喜欢

  • 会计个人工作总结 总结就是把一个时间段取得的成绩、存在的问题及得到的经验和教训进行一次全面系统的总结的书面材料,它在我们的学习、工作中起到呈上启下的作用,为此我们要做好回顾,写好总结。那么总结要注意有什么内容呢?以下是小编精心整理的会计个人工作总结,欢迎大家分享。会计个人工作总结 篇1一、主要工作目标完成情况...
  • 工委个人工作总结 总结是对某一特定时间段内的学习和工作生活等表现情况加以回顾和分析的一种书面材料,它能使我们及时找出错误并改正,让我们好好写一份总结吧。那么如何把总结写出新花样呢?下面是小编为大家收集的个人工作总结,欢迎大家分享。工委个人工作总结 篇1为总结好今年各级工会开展女职工工作的情况,对明年工作做出务...
  • 大修个人工作总结 总结是对某一特定时间段内的学习和工作生活等表现情况加以回顾和分析的一种书面材料,它是增长才干的一种好办法,为此我们要做好回顾,写好总结。那么总结要注意有什么内容呢?下面是小编精心整理的年度大修工作总结,仅供参考,希望能够帮助到大家。大修个人工作总结 篇120xx年,维修厂在公司的正确领导下,...
  • 农行个人工作总结 不知不觉间一年就快结束了,在经过一年的努力后,我们终于可以说自己在不断的成长中得到了更多的进步,不如来个总结以对过去工作做个分析和借鉴。年终总结可是让你获得升职加薪的机会喔,以下是小编收集整理的农行员工年终个人工作总结范文,仅供参考,大家一起来看看吧。农行个人工作总结 篇1时光荏苒,转眼间一...
  • 转正审批个人工作总结 进了公司这几个月,说实话,我主要就是在现场和设备、规范、还有各种突发状况打交道。之前干过产品那块,所以顺手也把用户反馈和产品迭代的建议收集了一下。转正了,把这段时间干的活捋了捋,挑几件实在的说说,怎么干的、踩过什么坑、最后怎么填上的。 先说那台分拣设备的事。进场第二周,设备就开始抽风,隔一个多小...
  • 装饰公司个人工作总结 今年差点栽在一个阳台上。 去年九月份,那个平层项目做到墙地砖铺贴,样板间做完,观感不错,我签字同意大面积施工。结果大面铺到三分之一,带着质检员随机敲,阳台和卫生间区域空鼓率直奔15%。这简直让人火大——水泥砂浆盯过了,甩浆也做了,怎么还出这种事? 撬开几块砖,蹲那儿看了半个多小时,总...