0%

说起运维, 大家可能想到的第一个词就是“苦逼”🤔。 但近些年来, 这个职位发生了翻天覆地的变化: 人肉运维(PE) → 自动化运维(DevOps) → 智能运维(AIOps)。 身为SRE 大军中的一员(什么是 SRE), 也在智能运维的边缘试探: 希望打造监控告警「智能降噪」, 「根因定位」, 「自愈」的处理流程, 终极目标就是让每个人都睡个好觉。

而上述流程中不是核心, 却不可或缺的一部分就是投递告警时, 将隐晦的告警消息(文字)可视化,转化为生动的图片与诊断结果。 由于我们的整个平台是由 Python 搭建的, 关于绘图调研过多个第三方工具, 但不是太慢就是依赖过重, 最终选择了经典的 Matplotlib.

近半年工作,一大部分时间在探索监控报警的智能降噪。用这篇博客整理个人点点滴滴的思考,希望可以不断的持续更新..

背景介绍

监控的重要性不言而喻,它就相当于 SRE 的眼睛。但由于监控系统静态规则的局限性,经常会产生一些误报,e.g. 促销冲高回落(尖刺),小流量波动, 季节性趋势下跌,入口下跌等等。轻则形成针对人的「DDOS攻击」,重则导致真正的故障被忽略(狼来了的故事)。所以如何利用算法自动识别噪音,已成为当务之急,将会大大降低人肉处理报警的成本,为公司节省成本。

每次写完博客后, 需要手动执行自定义的deploy.sh脚本进行手动部署. 虽然已经做到一键发射了, 但作为一名 SRE, 内心还是有几分惭愧的. 特别是每次深夜等待部署的那么两三分钟, 都会陷入无尽的沉思🤔. 毕竟以自动化工具为荣,以人肉操作为耻 XD

所以理想情况下: 当 push 代码成功之后, 就可以合上笔记本呼呼大睡了. 稍微调查了一下, 主要有三个解决方案进入的我的视野, 请容我一一道来.

今日在学机器学习 第八章(Unsupervised learning) 的时候, 开头介绍时讲到了 K-means 应用在大型计算集群的资源分配上(见下图).

突然间一些回忆就猛的涌上心头: 本科跟着老师做的算法研究, 最后毕业论文的名字叫做《基于虚拟机放置策略的数据中心网络节能算法研究》, 其实和刚刚提到的资源分配非常类似. 当时在论文摘要中提到了K-means算法, 可惜并没有深入去了解原理. 惭愧, 趁这个机会好好学习下, 算法并不复杂, 更多的是作为一次记录与反省.

企业天生就是追求利益的, 可生命永远是无价的. 本文记录分享了自如甲醛检测的魔幻之旅, 虽然最后还是放弃了 \doge.

分享一个小故事: 依稀记得人生第一次面试终面的时候, 那家公司的CTO问我数据库中有哪些索引. 正好读书时学过一门课叫做DBMS Implementation, 于是就巴拉巴拉列了一堆. 瞬间面试官就两眼发光的看着我, 说我既然知道bitmap, 一定是个上课认真学习的好孩子, 就兴高采烈的给我发了offer.

所以说年轻人, 认真读了这篇博客之后, 你就可以顺利的拿到offer, 从此走上成为CTO赢取白富美的康庄大道!

用了Hexo的主题一个月了, 本文记录一下我为Hexo Next主题提交的第一个PR: Safari中无法lazyload Disqus的评论框.

背景

Next主题在Disqus评论框的配置中的有一个选项: 开启lazyload. 实现Disqus评论框延迟动态加载的效果.

1
2
3
4
5
6
# Disqus
disqus:
enable: true
shortname: daya0576
count: true
lazyload: true

但在iPhone上打开时, 就算拖动窗口到最底部, 评论框都不会开始加载. 怀疑是浏览器的问题, 果然在电脑上的Safari重现了.