试用期间,首先是继续学习日常接触的xxx系统知识,其次在接手xxx业务运营,日常处理xxx系统的相关问题,同时进行运营效率提升方面的开发工作。
a) 运营效率提升开发工作与提升:i. 日报
ii. 巡检告警,容灾告警,机器缺漏模块软件每日扫描补装,移动运维工具开发(python为主)
iii. 运维系统页面开发(最好附上链接)
iv. 自动化运维工具,原由,出现,问题克服与处理,效率比原先提升多少,比预期提升多少,改进与提升等……
i. 日常线上告警及运维相关问题的学习与处理(尤其是监控系统的学习,算是运维重中之重),由于在接业务初期,还会每日对业务增量及负载都进行excel记录,能大致明白每天每个业务的增量情况(周内,周末,节日),并对日常容量及负载相关问题能及时处理,对业务方的各种需求也都进行跟进处理与记录。
其间,容量方面,最需要保持敬畏心。因为存储层面,最不能出错的就是用户上传的成功率,所以及时扩容,时刻预留每个业务应有的buffer是最需要敏感的。另外对于监控的重要性与理解使用都更加深入,并且类似在处理xxx告警时,一定需要对每个维度所能表达的含义需要有明确的判断,因为不是一个页面就能表达,而是系统间级联,所以自上而下一步一步进行分析排查才能找到原因。ii. 对业务过节期间容量预估报备(评估,分析,均衡计算,核对,报备),在跟进中也极快的了解到名下业务的特性与各自的增长瓶颈与报备计算方式;
其间,尤其在计算某具体业务时,什么业务时瓶颈在请求,需要算上内外部cdn的命中率,什么业务瓶颈在流量,计算时需要根据不同系统类型的运营流量值、上传下载比例以及系统设定与运维的柔性容灾等维度共同计算运营扩容量,需要对业务特性很深的理解。iii. 底层运维会遇到的裁撤等相关问题,进行计划制定,实施,不断改进与效率提升;
在小集群运营下,时间推进会产生非常多死掉的机器,这时就需要人工将数据进行搬运。由于原本制定计划从取数据到整合需要花费大量人工精力,故在制定中也通过开发工具使其变为半自动化,后续更好是能用均衡算法进行自动定制。iv. 运维工作涉及的方面很多,在底层时,不仅要理解架构,还需要对数据保持敏感,对系
统,环境,现状都需要有很深的考虑,完善运维能力,才能将业务更加具有保障的运营
i. PPT组内分享系统的架构(包含发展,演进,分类,特性,运营);
ii. 参加公开课:(架构师方向,运维方向,专业技术方向)
这里可能会有运营与运维的概念,其实在本人看来,运维工作保证业务稳定发展是唯一的诉求,没有业务也就没有运维。运营也在于对业务在技术层面的统筹,所以是有共通的。伴随业务稳步增长,运维的体量,工作量,遇到的挑战也会指数上升,但这样技术的提升与总结,新鲜血液的加入与创新思想才显得格外重要。海量运维之道,持续学习,共勉。