2021年7月

作为一个从事运维工作十多年的“行业老人”,深感技术的进步是令人激动的,甚至惶恐的。从传统自建机房、配置基础服务、网络,拥抱开源,到2014年云厂商发力,其中阿里云一年经历6次降价,哪怕当时的云厂商稳定性堪忧,彻底使“上云”成了主旋律。革了传统运维的命,淘汰掉一批底层技术人员。技术“耐久度”越来越短,近期的云原生、AI、大数据技术,使运维能从传统运维到当下的业务运维再到数字化运维,从而不断探索运维的的价值。

转型一、运维的研发化。让运维人员进行研发,人创造机器,再由机器取代人来做维护,这个落地就是DevOps,基于显性化的运维能力,各个专业领域都要自治。

转型二、运营的数字化。从故障的发现、定位到处置操作,要做到感知的泛在化、认知的智能化和操作的无人化(这就是AIOps的落地)。

  • 手动时代,标准化 弊端:人手一套脚本,功能单一,无法传承,无法应对大规模
  • 自动化时代,逐步成体系,沉淀出部分方法论,可能有运维系统,DevOps、ChatOps逐步落地,有着仅适用于本企业的运维系统。把人训练为机器
  • 智能时代?

聊AIOps前,包括我自己,都有困惑。把机器训练成人,再淘汰掉人?

    - AIOps是不是伪命题、炒概念,

    - “有人说运维转型势在必行,技术、规模升维带来的问题和挑战只能用技术能力发展解决,一定要用机器解决机器的问题”

    - “很难形成体系的AiOps‘银弹’,最大的问题,训练数据源”

    - “AIOps 的核心主要集中在数据算法、机器学习技术方面。不止运维专家要了解业务架构,负责平台研发,决策分析的闭环执行;更需要AI算法专家对比方、层次聚类、随机森林、时序数据分解、DNN、RNN 等算法方面的技能,所以一个完整的 AIOps 实践需要多团队 & 技能协同运营等相关多维度能力要求。一个完整的 AIOps team 会是需要一个多方面综合技术能力的集中“


企业转型AIOps,对”顶端“以下的运维伙伴都会带来致命冲击,配置变更、环境部署升级、性能分析、troubleshooting,可以被分析、处理、治愈、训练,以前只有人能做的”决策“动作也会被机器算法取代。我们不是在想象《黑客帝国》中的剧情,AI已在围棋、星际争霸大幅领先人类。趋势就是这样,我相信在短时间内,AI只能呈现选项供人决策,不断学习后最终自己完成闭环。