Ops doesn't need to work overtime~

konga的致命bug

作者: 季兴
时间: 2022-09-08
分类: 踩坑实录
评论

最近忙于处理安全事故，在政府的白帽行动中，发现了误暴露在公网的konga，通过发送post请求，能够成功注册管理员进而管理所有规则。我试过两个版本都成功

postman创建.jpg

屏蔽公网访问避免95%的安全问题！

近一周安全问题频发，明显是针对性的精准渗透行为，钓鱼邮件、ERP服务器被拿下、线上kubernetes集群被拿到部分权限成功部署反弹shell。从入侵轨迹来看，未做破坏但有明显的扫描内网行为，对方对安全、运维都有比较深入的了解。与政府组织的“磐石行动”时间点吻合，推测是对我们的白帽行为
云安全中心提醒还是很精准的，以容器中被运行反弹shell为例。从kubernetes审计日志，“黑客”使用被泄露账号通过暴露在公网的k8s api server进来，在进行了一系列尝试后发现有A命名空间的管理权限，具有onl的namespace 权限，查看了cm发现免密登陆，推送镜像，创建deployment ，镜像中传输数据。已关服务，wifi api server取消外网监听

过程中用到的命令
pstree -p -a #查看
docker inspect #查看pod信息
docker run -it --entrypoint /bin/sh xxxxx #启动疑似容器
查看kubernetes 审计日志
kubernetes get rolebinding -n xxx -o yaml

最新战报：
内部员工已中招，对方社工客服运行了可执行文件，导致在OA内向其他用户发送病毒文件
ERP服务器沦陷，有扫描内网的行为
CRM服务器中毒
🏳️

一次&&引发的重大事故

作者: 季兴
时间: 2022-07-19
分类: 踩坑实录
1 条评论

在一次常态的EMQ集群巡检时发现，有非周期的CPU超过80%毛刺，按照预案新增了如下防火墙规则限流（此规则验证过多次），当天为了方便使用&&将多行语句连接成一行。执行后发现连接数立刻下降，通过监控发现大量连接都变成了non-establish

# 清空INPUT链，标记RELATED,ESTABLISHED，对超出限速的REJECT
iptables -F INPUT
iptables -t filter -A INPUT -p tcp -m multiport -m state --dport 1883,8883 --state RELATED,ESTABLISHED -j ACCEPT
iptables -t filter -A INPUT -p tcp -m multiport -m state -m limit --dport 1883,8883 --limit 200/second --limit-burst 600 --state NEW -j ACCEPT
iptables -t filter -A INPUT -p tcp -m multiport --dport 1883,8883 -j REJECT --reject-with tcp-reset
service iptables save
# 当天为批量执行，简化为一条
iptables -F INPUT && iptables -t filter -A INPUT -p tcp -m multiport -m state --dport 1883,8883 --state RELATED,ESTABLISHED -j ACCEPT && iptables -t filter -A INPUT -p tcp -m multiport -m state -m limit --dport 1883,8883 --limit 200/second --limit-burst 600 --state NEW -j ACCEPT && iptables -t filter -A INPUT -p tcp -m multiport --dport 1883,8883 -j REJECT --reject-with tcp-reset && service iptables save

微信截图_20220719211616.png
黄色为non-establish

经排查，在执行标记流量 --state RELATED,ESTABLISHED 会将连接当前状态写入系统内核文件 /proc/net/nf_conntrack，当时每台机器均有100000左右连接，写入磁盘需要2-3秒。用&&将命令合并=没有间隔马上执行下条命令，未写完的连接未标记完成，命中了第三条REJECT tcpreset。陷入取消限速集群扛不住，增加限速丢弃连接死循环，通过SLB限速后，原厂删除集群信息后重建恢复。结论：iptables标记流量需要考虑写盘IO，执行时慢一些

win10蓝牙音响的小bug

作者: 季兴
时间: 2022-07-17
分类: 踩坑实录
评论

家中台式机win10,连接的小爱蓝牙音响。使用中有个小bug查了好久，当使用chrome播放视频关闭标签页后，电脑声音消失，必须打开蓝牙重新连接。
今天偶然搜到 chrome浏览器输入: chrome://flags/#hardware-media-key-handling 把Hardware Media Key Handling设置成disable ,重启浏览器.解决
微信截图_20220717122206.png

运维系统开发日记

作者: 季兴
时间: 2022-05-29
分类: 工作日志
评论

在家隔离的2个多月，重新捡起了运维开发工作

已实现or改进：

物理资产自动采集，通过DRF上报
通知功能*
长周期任务异步
密码管理
密码操作审计
使用了新的前端模板，耳目一新

待实现or改进

异步任务通知
DASHBOARD功能
资产要关联应用，应用管理
kubernetes的报表功能
权限管理

附几张效果图
资产管理.png 审计管理.png 模态对话框js.png

奇怪的DNS知识

作者: 季兴
时间: 2022-04-22
分类: 工作日志
评论

今天在排错时遇到个奇怪的现象，相同名称添加多条A记录超过512字节时，就会影响部分递归DNS的记录同步。
测试域名 liyang.sunmi.com 添加了36条A记录，大小610字节
A记录.jpg

必现部分递归DNS无法更新、解析失败
解析失败.jpg

1.查阅了DNS的RFC1035，udp包有512字节的长度限制，超出部份会被截断原文
2.超过限制后使用tcp协议进行解析
3.公共DNS中，只有114.114.114.114会把超长结果截断在509字节，其他DNS都会原样返回

疫情宅家生活

作者: 季兴
时间: 2022-04-13
分类: 随想
3 条评论

疫情在家一个月了，记录一下

api网关调研，测了限流、认证、更改返回内容等插件，就是简化的nginx，以往改配置文件的事，现在应用插件。https://www.yuque.com/books/share/44e4c02e-5ffb-43cc-ab51-ac2bf885913a/ssrwps
apisix初体验，看到腾讯内部有些业务使用，从他们测试结果来看性能有较大提升，而且是apache基金会项目，不至于烂尾
18年搞的运维系统做了部分功能迭代，升级到django4.0。登录功能从装饰器改为中间件，搞清楚了ModelForm。深觉自己不太适合开发，不能静下心思搞
excalidraw神器，用够了一板一眼的visio，返璞归真。附一张成品

全球化+WPS图片打印.jpg

兼容老域名的奇怪需求

作者: 季兴
时间: 2022-03-09
分类: 工作日志
1 条评论

近期接到个古怪需求，历史原因有部分设备在代码中访问废弃接口uat.api.xxx.com，现有接口为 api.uat.xxx.com（顺序变化）。老设备升级rom版本较繁琐，网关不想动了，在外侧加了台nginx转发

# 通过rewrite301跳转
server {
    listen 80;
    server_name uat.api.xxx.com;

    location / {
        root /usr/share/nginx/html;
        if ( $host ~* uat.api.xxx.com ){
            rewrite .* http://api.uat.xxx.com$request_uri permanent;
        }

    }

}

# 方法2
在location中加，更优
    proxy_set_header Host api.uat.xxx.com;
    proxy_pass https://api.uat.xxx.com;

网格奇迹之--屏蔽故障节点

作者: 季兴
时间: 2022-03-09
分类: 工作日志
评论

背景：海外用户投诉我们一个边缘功能失效，定位到程序假死。随着各种复盘会，把这件小事无限放大。
难点：探针改造复杂，尽管已经有了基础的http接口检测，但针对服务连接各种中间件等场景无法一一覆盖
在研发根治此问题前，使用“熔断”来降低此类故障的影响

熔断，是创建弹性微服务应用程序的重要模式。熔断能够使您的应用程序具备应对来自故障、潜在峰值和其他未知网络因素影响的能力

中间方案，通过网关日志，假死会有504超时的信息，SLS已支持触发各种钩子，逐个重启故障服务的pod

优点：配置相对简单，覆盖面广
缺点：按照监控的频率间隔，有几分钟延迟

更优istio方案，使用VirtualService配合DestinationRule对超时或者错误重试，并将故障pod踢出

优点：侦测更快，发现故障后立即生效
缺点：局部配置，所有服务都要写一遍

环境：

kubernetes v1.18.20
istio 1.10.3
后端服务flask，代码如下，sleep5秒用于模拟超时

from flask import Flask
import time

app = Flask(__name__)


@app.route("/", methods=["GET"])
def index():
    time.sleep(5)
    return "Hello World Pyvo 2!"

istio中配置如下

apiVersion: networking.istio.io/v1alpha3
kind: Gateway
metadata:
  name: backend-gateway
spec:
  selector:
    istio: ingressgateway
  servers:
  - port:
      number: 80
      name: http
      protocol: HTTP
    hosts:
    - "*"

---
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: vs-backend-flask
spec:
  hosts:
  - "*"
  gateways:
  - backend-gateway
  http:
  - match:
    - uri:
        prefix: /flask
    rewrite:
      uri: /
    route:
    - destination:
        host: backend-flask
        port:
          number: 80
    retries:
      attempts: 3
      perTryTimeout: 2s

---
apiVersion: networking.istio.io/v1alpha3
kind: DestinationRule
metadata:
  name: dr-backend-flask
spec:
  host: backend-flask
  trafficPolicy:
    outlierDetection:
      consecutive5xxErrors: 1
      interval: 10s
      baseEjectionTime: 30s

熔断.jpg
效果如图，访问出现上游服务超时错误后，在30秒内不会再调度到故障节点

阿里小号20元/年续费方法

作者: 季兴
时间: 2022-03-01
分类: 工作日志
3 条评论

网购、中介、挪车等不想留真实号码的场景，可以用阿里小号。通过软件方法绑定一个真实号码，可以呼入呼出收发短信。以往的￥40/年，忽然涨价到￥120/年。
咸鱼买到个方法分享出来

【淘宝】https://m.tb.cn/h.fn38Yzz?sm=250fe0?tk=XfzD24SBX0s「阿里小号.普通小号卡券(仅供已有联通小号用户充值使用)」
点击链接直接打开，反馈后就能以20每年的价格购买5年了

401647496361_.pic.jpg

杂谈-20220219

作者: 季兴
时间: 2022-02-19
分类: 随想
1 条评论

无神论者
我是一个坚定的唯物主义者，直到来图书馆，面对一个个空位，旁边的碳基生物（存疑）都说有人！见鬼
文化差异
一副人行道上的镶嵌画。描绘的是年轻的许拉斯（Hylas）被仙女绑架，因为当她们看到他从泉水里取水时，便爱上了他
将自己敬重、喜爱的神镶嵌在人行道，天天被人“踩踏”。

消除演讲紧张的12种方法

作者: 季兴
时间: 2022-01-16
分类: 随想
2 条评论

又是一个在图书馆“消磨”的上午，昨晚追了B站的“房车旅行生活”，缓了一晚上才从梦中走出来，羡慕当今有想法的年轻人，敢于在人生的上半段选择，看着他们在自媒体从业、创业、裸辞、购车、改装、出发种种，心中的小火苗被勾的险些着起来。
回归现实，到图书馆十点，想看的基本技术类书籍都找不到，翻到贺嘉的《表达力》，摘几段有意思的

消除演讲紧张的12种方法（入门），演讲前紧张，大家只会说深呼吸，收获的回复就可能像女朋友不舒服时“多喝热水”得到的反馈一样，只有慢慢的白眼。。。
上台前
准备-准备-充分准备
试讲至少3遍，提前到现场彩排
充分的睡眠
在现场听众中提前认识一些朋友，起码在冷场时有他们和你互动
和亲戚朋友打个电话，聊聊接下来的演讲。和熟人谈论演讲内容能让自己情绪放松
在厕所里，对自己说“我是最棒的”，充分的心理暗示
上台后
把观众想成冬瓜
目光看向稍远处，不直视听众
双手叉腰2分钟。这个肢体动作可以帮助我们提高激素分泌，帮我们更好的消除紧张感
紧张的时候喝口水，用这个时间想词。带瓶水
通过发气泡音来放松自己的心情。啥是气泡音特意查了下，打哈欠时像青蛙一个个吐出的声，存疑，这有啥用
带一个熟悉的道具。比如遥控笔、穿一套最好看的西装

我加了一条，不要把自己放在被评价的位置，重视的前提下爱咋咋，首先要对自己肯定！不断的给自己暗示，大家都是芸芸众生，除了你自己，不会有人记得你的演讲。不要和自己过不去。

markdown常见语法一览

作者: 季兴
时间: 2022-01-14
分类: 工作日志
1 条评论

水一篇，公司从前年上thoughts后，编辑md文档还是很爽的，但也仅限于标题、分割、缩进、引用，今天花了点时间尝试了所有md支持的格式，原来各个编辑器还是有差异，常用的typora居然收费了。
有道云笔记默认的md格式就很好用了。
花10分钟学习工具使用，方便一生 :smile:

一键三连¹，我们再测一个²
把大象放冰箱

打开冰箱
塞进去大象
关上冰箱门

- 阅读剩余部分 -

22年的个人小目标

作者: 季兴
时间: 2022-01-09
分类: 随想
3 条评论

《2002年的第一场雪》已经是20年前的歌了，还真挺让人意外的。小朋友2岁半了，从一出生的惊喜、无感、逃避、苦闷、烦恼、和解、欣喜、期盼，体会了当父亲的不易与责任。
由于工作的关系，每天到家都20:00以后了，吃个热乎饭（在这要感谢我丈母娘，帮我带娃还负责一家人晚上的伙食），陪小朋友玩1小时，给他讲故事，有时还不爱听我讲，必须找妈妈。我太太在教育方面还是非常用心，给娃清淡饮食，不抱自然睡习惯 - -。小朋友各种翻腾、找借口，用着仅会的几个词：“楼上吵”“妈妈抱”折腾到十点半，有时甚至十一点。

11月时，有位国内著名网站的实习编辑，预约我做一些运维自动化课程，我还是比较怀疑的，大牛、专职老师多的是，找我这玩票儿的干啥，随口说要到12月底，没想到对方一口答应了。定了个友情价，网签合同了。要求以平台名义、格式发出，在创作上有点影响，好在只是PPT和课题的要求，大纲没有做过多干涉。录制的时候也是状况频出，麦克风收音太好，小朋友不睡的咿咿呀呀声，楼上厕所洗漱声（吐槽一下老房子的楼板太薄，隔音性差强人意）外加我还不太会剪辑，妄图一遍过，课程短一点还行，长的课程最后收尾阶段，“哇哇一嗓子”全给我干废。看到小朋友又不忍心训，又趁机进去摸摸他，趁机玩他喜欢的我“哼”他“哈”的游戏。也就学乖了，一小节一小节录。哪怕这样，搞到凌晨1点2点时常态，不知道哪来的动力。熬了一周左右，课程通过审核，发布。完成了“云账户”注册，看起来这玩意专门给IT工作者准备的，大概意思是自己注册成个体户，扣税比例很低，同时不影响薪资的扣税额度。
今年的专升本也完成了，还被评为“优秀毕业生”，只是正常完成了练习、课程、毕设自己写。答辩时有个事快赶上段子了，前面哥们的课题大致是“大数据”方面的，老师问到数据来源，说是公司内部机密- -，给老师整懵逼了，自然没给过。
和前同事打赌软考中级，花了不少精力把近十年的真题刷了遍，最后还把选择题当简答题写完了，分数还行，同行的张总没过，这211水货：），当时还约定的谁没过请吃饭。回头想我这一年过的还是很充实的⛽️

22年给自己定两个目标，首先是在口语上要进步，不能再哑巴英语。去年的目标完成度一般，起码阅读英文文档障碍不大。基本每天都能坚持15个单词，百词斩中《专升本》程度已经完成（顺便说一下，我也是以优异的成绩考上了大专：）相应的，职场软技能也要提升；其次，在技术层面也要投精力，暂定的课题是API网关相关，输出文档或者课程。
就俩吧，工作已经很忙了！与君共勉

2021年回顾

作者: 季兴
时间: 2021-12-09
分类: 工作日志
3 条评论

又到年底，回顾一下今年的身边事

初衷很好的分享制度，平日里见不到一篇，最近被密集刷榜。虽然是公司内部的贴吧，大家的帖子质量属实不高。上来没头没尾直接贴代码片段，上下文、解决什么问题都不写清
内部贴吧逐渐沦为吐槽办
正式承接了IT部门，以往的管理水平实在太低。供应商价格不合理，等保做了100多W，服务器、网络设备平均高15%；维保厂商屌的一笔。两个月内全部换掉，拉内审、采购的兄弟与我们制约，防大家碰红线。内部系统完全依赖供应商、缺乏监控，owner连服务宕机的处理规则都不清楚，2个月内梳理个大概，让问题能先于用户报出来- -，虚拟化也启动了
当然也有IT兄弟们不理解离开了，可能是我的管理风格，对以往的“遗产”深恶痛绝，明明能通过公网解析，非要买两台硬件服务器搭建DNS，关键还要线上每一次域名更改手动告诉他，他再手动加到公司内的DNS服务器。这不纯纯脱裤子放屁行为！这类例子不胜枚举！
其次我把采购这肥差变成清水衙门，让大家把自己的供应商都晒出来，同质价低者得。想起某部门要做ISO认证，明明3W能做的事情硬是整成10W+，本来我不想参与的，毕竟没花我部门预算，可IT并过来之后我就必须管：）
每天的时间被各种管理任务、绩效、安全、审计、提供资料等等填满。需求必须经过我，觉得合理之后才会路由给小伙伴，这也是我比较累的根因
近段时间有某网站的编辑付费邀约我录制课程，赶巧嗓子咳嗽，多次拉扯后以5000/2小时成交。每天晚上下班后等小孩睡了才能录，经常搞到1点以后。被这编辑的彩虹屁吹的头晕

淘宝人生账单

作者: 季兴
时间: 2021-11-11
分类: 工作日志
评论

下班途中刷手机，看到抖音有晒淘宝人生，算是淘宝第一批用户了。回想起首次购物在易趣，全程无担保买过mp4，2004年的1500块，大家都说我上当了，直到两周后收到来自广州的邮政快件^_^

finalshell的感人功能

作者: 季兴
时间: 2021-11-11
分类: 工作日志
1 条评论

我的海外主机悉数被墙，每次连接异常麻烦，中转多次才能连接。
在使用finalshell过程中，忽然发现有这个设置，勾选即可连接。分享一下!这种没重点宣传却被用户发现的功能让人印象深刻！

一次折腾的单域名重定向

作者: 季兴
时间: 2021-10-27
分类: 踩坑实录
1 条评论

近期遇到个折腾需求，客户的安全管理制度严格，设备端出方向也需要经过加白才能访问。当我们使用了大量的CDN时，无法告知其准确的IP。
收到这个需求时我是崩溃的，都2021年了，客户防火墙还不能添加域名白名单。

将我们产品本地化部署，我们不支持
针对客户出口IP做智能解析，经验证后，其DNS不支持EDNS，出口IP中有ipv6地址，不支持
我们部署nginx反向代理，针对单域名进行重定向，比如设备仅在访问a.baidu.com 被影响，其余 x.baidu.com正常解析。客户无法支持。

经过一段时间的折腾，发现dnsmasq支持单域名重定向，配置也相当简单。在dnsmasq的 /etc/hosts中添加即可。

192.168.1.10 a.baidu.com web01
192.168.1.20 b.baidu.com web02

第一次和非技术人员聊安全问题

作者: 季兴
时间: 2021-10-21
分类: 随想
评论

忙起来了，沉迷在组织架构升级，对业务支撑。明年的部门规划、预算
早上和产品总监聊了支付业务，这位同学有着非常丰富的创业经历，中途遇到的问题也非常有共鸣，本来是就框架略微展开。最后提了嘴安全，聊到了他在支付行业创业中动了其他厂商的蛋糕，被ddos、CC，被用户要求赔款，在这块非常有感受。我也就以前遇到的相同经历，被刷短信接口、社工、甚至被拖库。安全不能仅靠运维，业务侧的审计日志、安全开发都要跟上，难得能和非技术人员聊到这儿，第一位！
非常欣慰！

关于解决问题的思考

作者: 季兴
时间: 2021-09-16
分类: 随想
1 条评论

产品经理反馈海外某地工厂停工，原因是产线有道环节是设备开机上传key至加密机。经与研发沟通后，链路：客户-CDN-源站api-上海机房加密机。头天凌晨2点出的问题，销售同学帮挡了一道。
第二天上班看了源站日志，下意识以为CDN问题，更换两次节点后，客户反馈仍有问题，视频里桌子上一排商米设备，国内15秒激活，这里要1分钟，还有超时。客户的极度不配合加上已经是半夜1点，群里的产品经理不断催促、强调问题严重性，心烦意乱，还要和他battle。
查看日志，没一条非200的。判断用户网络到CDN间的问题，直接去掉CDN回源

事后产品追着大家要长短解，
我：缩短网络距离，智能解析切换CDN、激活服务就近部署
深圳研发：传key动作后置，不在生产环节做，牺牲一部分设备掌控性
大家畅所欲言时，被批评 “不专业、开会效率低，应该只提痛点，专业的事交给专业的人，不要替其他人做决定！”
CTO：加密机批量生成sn、key对应关系，保存在当地IDC，异步申请key，不再怕弱网、间歇被墙

高下立判，我深陷“知识的诅咒”，完全从自己的视角出发；研发多少带了业务场景，用较低的售后成本避开问题；CTO则结合了技术与业务，创新性的引入“异步前置仓”

优势：
对网络轻车熟路，日志、变量因素，发现多项关键线索，快速定位

反思：
容易被情绪左右，对待“刷存在感”的同学不能无视
还是缺乏系统性思考，只能站在技术的狭小角度