2021年8月

混沌工程(Chaos Engineering)到底是啥?

现实世界比demo更复杂,系统的正常运行需要网络、存储、虚拟化层、OS、中间件、数据、应用的多项配合,每天都会遇到各式各样的故障,这些真实世界的故障信息就是最好的混沌工程变量。
我认为的混沌工程,和安全领域的零信任颇为类似,无论处于网络边界之内或之外,都不应该自动信任任何事务。任何组件都有发生故障的可能。

混沌工程是测试工作的超集,虽然混沌工程和传统测试通常会有很多共性,比如都使用“错误注入故障注入”,测试是使用测试工具都某块进行测试,混沌工程更像实验,通过不断模拟故障,观察系统的”反应”,追求在真实环境中演练。
在真实世界中,常见的故障:
硬件,硬盘老化、电源掉电、内存ECC等
网络,延迟、丢包、阻断等
系统,资源耗尽、内核bug等
拜占庭错误,集群脑裂、影响选举制度等
上下游服务故障,比如三方接口故障、服务循环依赖等

没必要对所有的风险点进行测试,要考虑故障比例,把较为频繁的故障列为第一优先级。比如没必要测试内网间的延时、OSS的文件损坏、SLB的转发失效等,应该模拟自身服务调用延迟、依赖厂商的支付接口、外部被墙等,这样的模拟是非常有效果。

接下来是争议最大的部分,混沌工程追求在生产环境模拟,大部分厂商是没魄力的,传说网飞就很猛,有自信直接停掉aws的一个可用区(个人觉得夸张)。常见的做法是录制线上流量,成倍数、倍速回放到测试环境、或者在金丝雀环境。失效也仅影响一小部分用户。btw,阿里云的AHAS年初已经正式版,全自动的故障模拟,包装了大部分复杂度👍🏻

给自己定个OKR,下半年把以往做过的故障注入、流量管理串起来形成文字💪🏻

回顾近期的一些想法
1.“挖洞有奖”,提供入口给外部黑客报告bug,提供奖励
公司没有投入安全,应该是要等到故障后才能重视,投入。
大厂都有挖洞有奖,下面链接是谷歌在过去10年,它一共向11,055个软件漏洞,支付了29,357,516美元的奖金,平均每个漏洞2656美元(约1.8万元人民币),共有84个国家的2,022名程序员拿到奖励。
这其实非常划算,一年费用不到300万美元,就能发现1000多个漏洞。如果其中任何一个漏洞被人利用,对谷歌造成的损失,可能都远远大于这个数字。
这就是为什么大型软件公司都悬赏开发者,向它报告软件漏洞。
https://security.googleblog.com/2021/07/a-new-chapter-for-googles-vulnerability.html
2.对部门的教育激励,属于公司首例,申请了8K的培训经费。用于购买书籍,考试通过发放现金奖励
3.内部钓鱼系统,由IT同学发送🎣邮件,看谁中招
4.IT监控大屏

在商米也两年了,运维工作也理顺了。随着接手IT部,责任和压力一并来了。
前几个月,更新过一波猎聘(纯纯个人习惯,并不是干的不开心),简历也一直处于“不找工作”状态。有几个猎头还是推荐了几个有意思的职位,记录一下
一.初创公司运维负责人,组建团队,汇报对象CTO。
对运维的理解,怎么做运维体系,CTO对运维系统执念颇深。我从业务层和他讲起,大意是运维不能只做基础的维护工作,也没有一招鲜式的银弹。我对初创公司搞运维系统持反对意见。
1.初创期间,我们图快,这时候更应该走敏捷提高效率,CICD上多花点心思,让大家的编码能够尽快可能流畅的上线
2.指定符合当前的规范,比如根据业务天然分库,使用各自独立的库账号,分支规范、配置中心、监控等
头开好再去搞体系化,当然前两条也属于。搞更加深入的体系化
最终CTO认为对他公司意向性不强。无下文了
总结:时长40分钟,准备不够充分,紧张,表达不够简练,啰嗦

二.猪厂,近期没落了,某游戏块的运维负责人
问题大同小异,同样没怎么问技术问题,可能我的简历偏技术,没空话套话黑话。问了些容器、网格的问题,分享了几个典型的排错场景,从沟通来看,对方起码这块的技术是缺失的。问了些管理类、当前的优劣势,面试官是此项目负责人。态度亲切
总结:视频面一小时,仍然有点“怯场”,可能习惯了大厂的光环。觉得大厂如何如何牛逼。同样,发挥一般,自身的亮点没讲出来

三.鹅厂,云原生架构师,不涉及管理,有点像运维专家、顾问类,干活,解决难题的
这次就非常正规了
1.一面视频面,应该是同组的人,估计没看我简历,问了些怎么确保在跨云迁移中数据一致性问题,包含mysql、redis,这块我没答好。容器网格技术初级,没问到什么关键点。全程我开视频,看对方没开,感觉有点不爽,半小时结束。 结束后我还小吐槽一波“明显没看我简历,jd中提到的容器简单问了两项,感觉没受到尊重”给猎头
2.没想到第二天受到了通过短信,深圳的号码约我二面,很快收到短信,还是视频面,都约的很晚。这次的同学主要给我讲了工作内容,不过我没太听进去,琢磨问题去了。简单问了我卖课的经历。面试时间也很快 半小时。我直接问,你觉得我有哪些不足的地方,对方回:“你太想知道答案了”,结束
3.心里是有感觉的,马上收到了“通道面试”邀请,这次的面试官更像研发,追问了一些容器和具体排错案例,我已经明显放开了,准备的也更充分了,好像讲述职一样,洋洋洒洒聊了一小时(PS:这位同学迟到很久,不断的道歉说互联网人要理解,有个紧急的会议冲突了,让我来了也有个心理准备,要加班到很晚- -,我在想和我个面试者说这个不怕吓走吗)由于我已经说的放飞自我,基本没啥问题能难得住我了。面试官必须得上hard了,
“父进程和子进程读取的内存内容是否一致?” 直言不会
“简述tcp3次握手过程?” 大概记得,描述个大概
“1亿个乱序整数,怎么最快取最小的前100个?” 就知道排序有个分治法,切分成很多组。当然我不是研发,这块没深究,就说不会了
确认是研发同学了,当然面试官必须不能让面试者全答对,表示理解
4.收到终面邀请,主动开视频的,我也开了,就十分钟,应该是这条线的leader,问了我为啥两年一换,我也直言,感觉没挑战,坑排完了,薪资没跟上。说我太简略。我还是围绕这个展开,一共10来分钟
如果过,可能有hr来聊薪资,不过就当历练。偶尔被猎头推着面试也是个锻炼过程,未完待续

update:收到offer,职级比预期的低,但总包的薪酬还可以。最终各种原因,当前的领导对我还是很信任。婉拒