1. 背景
当前微服务架构下,各个服务间依赖高,调用关系复杂,业务场景很少可以通过一个系统来实现,常见的业务场景实现基本涉及多个上下游系统,要保证整体链路的稳定性,需要尽量减少系统之间的耦合性,避免因为单点失效引起整个链路的故障。
2. 目标
通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现,对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。
3. 演练链路
对真实的业务场景进行混沌演练,就需要对业务场景的相关服务和调用关系进行链路梳理,一般需要根据实际业务场景,画出系统交互图,通过链路串联、数据追踪、和上下游确认等方式整理链路图。
4. 演练计划
混沌演练之前,一定要好可行性评估,评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等,然后决策演练场景,进行实践操作。
5. 内容加载演练实践
5.1 链路梳理
内容加载链路演练,通过内容加载的系统交互梳理出加载链路:摹略引擎执行-AB分流-CMS资源获取-鹰眼内容发送
5.2 接口梳理
根据调链路调用关系用梳理出具体的接口:
5.3 制定演练计划
演练时间:2023.03.28 14:00-22:00
演练攻击人员:孙X英、陈X然; 演练防守人员:张X雷、付X军、刘X、韩X
针对链路接口设计演练场景,一般根据系统特色来设计更容易发生的故障,比如应用偏计算比较消耗CPU的话,故障设计包含CPU满载,应用对于响应的时效有严格的要求的话一般包含方法延迟故障设计。
本次链路故障场景设计如下:
具体演练场景设计可参考:https://mp.weixin.qq.com/s/chdp36g8JwYLvwD57gp_zw 。
5.4 演练执行
目前借助天权自动化运维平台进行混沌攻防演练,进入工具市场—演练类,选择不同的故障方案,点击“立即执行”;
如选择Java进程满载场景演练,选择满载率100%,满载核数为演练应用部署服务的CPU核数,演练时长是执行满载的持续时间,选择演练的具体应用和指定IP,执行演练计划。
演练示例,根据演练的场景配置好故障参数,如下图为精准触达系统-消息触达方法延迟增加30ms参数设定:
演练执行结果检查,下图为分流服务-JAVA进程满载,指定分流进程CPU满载,故障执行结果:
5.5 演练监控
使用监控工具实时收集服务器在混沌演练运行期间的性能状态,如系统层面的 CPU、内存等使用情况,观察方法的响应时间、成功率等指标,一方面验证在混沌场景执行期间系统状态是否达到预期的效果,同时记录演练期间发生的问题,记录现场,另一方面通过监控发现有风险问题进行人工干预,立刻终止演练。
场景一:精准触达系统-消息触达方法延迟增加30ms
演练监控方法执行的成功率和TP 999:
场景二:分流服务-JAVA进程满载,指定分流进程CPU满载
监控平台实时观测系统的CPU使用率:
5.6 演练反馈
检查系统故障发生时候监控手段是否完善,研发人员是否可以根据系统告警,快速的定位并解决问题。检查团队的响应、协同效率。
邮件事故告警:
事故恢复告警:
5.7 环境恢复
场景演练可等待演练时长结束后自行中止,也可根据手工取消、终止演练场景。
演练完成后建议需要重启容器,保证服务恢复正常状态。
5.8 演练复盘
演练结束之后,我们需要对演练进行复盘。不同的故障下,系统的表现以及整体业务场景所受到的影响,演练过程中所发现的问题,需要在复盘报告中呈现出来。
6.总结
链路演练通过提前主动注入故障,发现系统之间的强弱依赖,对链路进行检验,降低生产环境中故障发生的概率。
“居安思危,思则有备,有备无患。”