the basic foundations of SRE include SLOs, monitoring, alerting, toil reduction, and simplicity.
最近学了个新的单词:cornerstone,而制定 SLOs,配置监控,以及告警应急可以说是 SRE 的基石。过去几年个人工作也与可用性监控相爱相杀。最近工作遇到一些瓶颈,周末重温 Google SLO 文化《Google's Site Reliability Workbook》,期望激发一些新的灵感~