分类 随想 下的文章

作为一个从事运维工作十多年的“行业老人”,深感技术的进步是令人激动的,甚至惶恐的。从传统自建机房、配置基础服务、网络,拥抱开源,到2014年云厂商发力,其中阿里云一年经历6次降价,哪怕当时的云厂商稳定性堪忧,彻底使“上云”成了主旋律。革了传统运维的命,淘汰掉一批底层技术人员。技术“耐久度”越来越短,近期的云原生、AI、大数据技术,使运维能从传统运维到当下的业务运维再到数字化运维,从而不断探索运维的的价值。

转型一、运维的研发化。让运维人员进行研发,人创造机器,再由机器取代人来做维护,这个落地就是DevOps,基于显性化的运维能力,各个专业领域都要自治。

转型二、运营的数字化。从故障的发现、定位到处置操作,要做到感知的泛在化、认知的智能化和操作的无人化(这就是AIOps的落地)。

  • 手动时代,标准化 弊端:人手一套脚本,功能单一,无法传承,无法应对大规模
  • 自动化时代,逐步成体系,沉淀出部分方法论,可能有运维系统,DevOps、ChatOps逐步落地,有着仅适用于本企业的运维系统。把人训练为机器
  • 智能时代?

聊AIOps前,包括我自己,都有困惑。把机器训练成人,再淘汰掉人?

    - AIOps是不是伪命题、炒概念,

    - “有人说运维转型势在必行,技术、规模升维带来的问题和挑战只能用技术能力发展解决,一定要用机器解决机器的问题”

    - “很难形成体系的AiOps‘银弹’,最大的问题,训练数据源”

    - “AIOps 的核心主要集中在数据算法、机器学习技术方面。不止运维专家要了解业务架构,负责平台研发,决策分析的闭环执行;更需要AI算法专家对比方、层次聚类、随机森林、时序数据分解、DNN、RNN 等算法方面的技能,所以一个完整的 AIOps 实践需要多团队 & 技能协同运营等相关多维度能力要求。一个完整的 AIOps team 会是需要一个多方面综合技术能力的集中“


企业转型AIOps,对”顶端“以下的运维伙伴都会带来致命冲击,配置变更、环境部署升级、性能分析、troubleshooting,可以被分析、处理、治愈、训练,以前只有人能做的”决策“动作也会被机器算法取代。我们不是在想象《黑客帝国》中的剧情,AI已在围棋、星际争霸大幅领先人类。趋势就是这样,我相信在短时间内,AI只能呈现选项供人决策,不断学习后最终自己完成闭环。

关键字:混沌

想解决某台服务器的安全问题,却触发了以往的配置的bug,导致生产事故,被追责。执行人觉得很冤枉。

这个世界的运行,并不是最优状态,只是在各种因素下产生的平衡,这本身也是种”精妙”的设计。这时,“局部”的对策比问题本身更糟糕。

要能理解、认同这一状态

这时,就要引入系统性思考了,那什么是系统性思考

站在高点,看见整体。当你站在地面时发现有河流、山丘、峡谷,坑洼不平,当你在大气层以外,发现地球已经变成光滑的球体。做技术,不能只做技术

理清关系,我们要看的,不只是系统中的元素,更要理解其中的关系。比如一个常见的例子,小公司往往发展到一定阶段,想要引入大厂高P同学,妄图用飞机引擎带动一辆汽车。没有理解,高P同学只有在大厂这个完整的体系下才能发挥作用,要把目光拉到一个整体,从系统的角度去改善

系统性思维是一种变化的视角。你所做的每件事,都在持续影响结果,而且是多个结果。比如你努力工作,得到晋升,薪资职级得到调整,面临更大责任,不得不利用加班时间学习,陪伴家人的时间减少,导致妻子对你心生不满,你却觉得冤枉,家庭关系出现矛盾,幸福感反而下降


前两天看到个段子,怎么区分一个运维同学是否资深。普通运维接到需求时:”很简单,直接用A方法,半天搞定”

资深运维:“为什么这么做,需求上下文都告诉我。这事我预计有ABCDE这五个变量,还不包含未知变量,结合我手头的优先级,一周时间。并且其他方法有”
未完