独家-BAT试用期工作心得(运维方向)
试用期间,不断工作,不断学习,能时刻保持很大的提升。
1、 主要工作:
试用期间,首先是继续学习日常接触的xxx系统知识,其次在接手xxx业务运营,日常处理xxx系统的相关问题,同时进行运营效率提升方面的开发工作。
a) 运营效率提升开发工作与提升:
i. 日报
ii. 巡检告警,容灾告警,机器缺漏模块软件每日扫描补装,移动运维工具开发(python为主)
iii. 运维系统页面开发(最好附上链接)
iiii. 自动化运维工具,原由,出现,问题克服与处理,效率比原先提升多少,比预期提升多少,改进与提升等……
- 其间,开发能力不仅在工作中得到提升(能均衡性能,空间),并且前端知识也在页面开发工作中实现了从小白到入门的突破,且完整的实现了页面各项需求。自动化工具以shell实现,也是将脚本能力得到极大提升,主要是能规避系统运行的各种坑,比如while中保留变量、等待read变量等。
b) 运维工作及提升:
i. 日常线上告警及运维相关问题的学习与处理(尤其是监控系统的学习,算是运维重中之重),由于在接业务初期,还会每日对业务增量及负载都进行excel记录,能大致明白每天每个业务的增量情况(周内,周末,节日),并对日常容量及负载相关问题能及时处理,对业务方的各种需求也都进行跟进处理与记录。
- 其间,容量方面,最需要保持敬畏心。因为存储层面,最不能出错的就是用户上传的成功率,所以及时扩容,时刻预留每个业务应有的buffer是最需要敏感的。另外对于监控的重要性与理解使用都更加深入,并且类似在处理xxx告警时,一定需要对每个维度所能表达的含义需要有明确的判断,因为不是一个页面就能表达,而是系统间级联,所以自上而下一步一步进行分析排查才能找到原因。
ii. 对业务过节期间容量预估报备(评估,分析,均衡计算,核对,报备),在跟进中也极快的了解到名下业务的特性与各自的增长瓶颈与报备计算方式;
- 其间,尤其在计算某具体业务时,什么业务时瓶颈在请求,需要算上内外部cdn的命中率,什么业务瓶颈在流量,计算时需要根据不同系统类型的运营流量值、上传下载比例以及系统设定与运维的柔性容灾等维度共同计算运营扩容量,需要对业务特性很深的理解。
iii. 底层运维会遇到的裁撤等相关问题,进行计划制定,实施,不断改进与效率提升;
- 在小集群运营下,时间推进会产生非常多死掉的机器,这时就需要人工将数据进行搬运。由于原本制定计划从取数据到整合需要花费大量人工精力,故在制定中也通过开发工具使其变为半自动化,后续更好是能用均衡算法进行自动定制。
iiii. 运维工作涉及的方面很多,在底层时,不仅要理解架构,还需要对数据保持敏感,对系
统,环境,现状都需要有很深的考虑,完善运维能力,才能将业务更加具有保障的运营
c) 相关wiki文档梳理:(工具,日常问题,系统架构,新问题处理与思考等wiki总结,需要附上实际链接)
d) 学习分享:
i. PPT组内分享系统的架构(包含发展,演进,分类,特性,运营);
ii. 参加公开课:(架构师方向,运维方向,专业技术方向)
- 文档梳理与学习分享是对学习能力最大的提升,将听到思想实时总结,思考,尤其在自己所属环节的运维工作中,能明白每一步的意义与重要性,包括哪些问题应该用哪些思路处理,不仅学习的快,也能理解的深,从而诞生的很多优化的思想提给对应业务也会被更加重视。
2、 一些总结思想
a) 小集群架构的海量运营方式:遇到异常情况,只要是出了问题不能马上恢复,第一时间要隔离故障。隔离之后在跟进修复。先隔离再升级,尽量保存现场是必要的思想。
b) 机器一般按模块划分,处理模块时,一定将模块梳理清晰明了,这可能没有当前瞬间的改变,但长期整体业务会规避掉非常多历史遗留问题,也能更加方便运营,其实是提升效率的点、遇到问题,尽量将问题想透彻,以不同角度去理解运维与业务之间的联系,包括从着手眼前,到熟悉流程,最后还能提升到思考流程与架构,方便更好的运营。
c) 期间也遇到了一些感觉可优化的点,感觉还是需要有勇气提出来,也非常nice的是同事大都不会规避,而是能对真正的良好的点进行配合,方便更好的协作。也其实在运维效率提升上面也是这样,组内讨论有哪些可以自动化的方向进行产出,运维效率提升非常大。
3、 不足与改进
a) 首先还是存在很多不足的地方,最多的就是经验不足。感觉一定多接触各项运维工作,才能见识到各种各样的问题,也能具备处理的能力,更加熟悉运维的系统,也能更加理解业务的各方面问题。
b) 其次就是开始接手业务之后,还是有一些生疏,对很多问题能处理,但是要花费时间长,还是不熟悉不熟练。虽然慢慢已经有在改进,但加上日常的裁撤,等运维任务,就导致手上新的开发任务进行延后,后面还是需要在提升运维能力的同时,调整好开发与运维之间的工作比例,保障业务的同时,尽量有时间思考流程上的痛点,多输出提升效率的工具,也更方便运维。
c) 后续对于新系统加强学习,有些公开课能让自己理解大存储集群的架构思想,还是得配合实践才能更深的运用到运维中。
这里可能会有运营与运维的概念,其实在本人看来,运维工作保证业务稳定发展是唯一的诉求,没有业务也就没有运维。运营也在于对业务在技术层面的统筹,所以是有共通的。伴随业务稳步增长,运维的体量,工作量,遇到的挑战也会指数上升,但这样技术的提升与总结,新鲜血液的加入与创新思想才显得格外重要。海量运维之道,持续学习,共勉。
本文暂时没有评论,来添加一个吧(●'◡'●)