1. 背景

当前微服务架构下，各个服务间依赖高，调用关系复杂，业务场景很少可以通过一个系统来实现，常见的业务场景实现基本涉及多个上下游系统，要保证整体链路的稳定性，需要尽量减少系统之间的耦合性，避免因为单点失效引起整个链路的故障。

2. 目标

通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现，对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。

3. 演练链路

对真实的业务场景进行混沌演练，就需要对业务场景的相关服务和调用关系进行链路梳理，一般需要根据实际业务场景，画出系统交互图，通过链路串联、数据追踪、和上下游确认等方式整理链路图。

4. 演练计划

混沌演练之前，一定要好可行性评估，评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等，然后决策演练场景，进行实践操作。

5. 内容加载演练实践

5.1 链路梳理

内容加载链路演练，通过内容加载的系统交互梳理出加载链路：摹略引擎执行-AB分流-CMS资源获取-鹰眼内容发送

5.2 接口梳理

根据调链路调用关系用梳理出具体的接口：

5.3 制定演练计划

演练时间：2023.03.28 14:00-22:00

演练攻击人员：孙X英、陈X然；演练防守人员：张X雷、付X军、刘X、韩X

针对链路接口设计演练场景，一般根据系统特色来设计更容易发生的故障，比如应用偏计算比较消耗CPU的话，故障设计包含CPU满载，应用对于响应的时效有严格的要求的话一般包含方法延迟故障设计。

本次链路故障场景设计如下：

具体演练场景设计可参考：https://mp.weixin.qq.com/s/chdp36g8JwYLvwD57gp_zw 。

5.4 演练执行

目前借助天权自动化运维平台进行混沌攻防演练，进入工具市场—演练类，选择不同的故障方案，点击“立即执行”；

如选择Java进程满载场景演练，选择满载率100%，满载核数为演练应用部署服务的CPU核数，演练时长是执行满载的持续时间，选择演练的具体应用和指定IP，执行演练计划。

演练示例，根据演练的场景配置好故障参数，如下图为精准触达系统-消息触达方法延迟增加30ms参数设定：

演练执行结果检查，下图为分流服务-JAVA进程满载，指定分流进程CPU满载，故障执行结果：

5.5 演练监控

使用监控工具实时收集服务器在混沌演练运行期间的性能状态，如系统层面的 CPU、内存等使用情况，观察方法的响应时间、成功率等指标，一方面验证在混沌场景执行期间系统状态是否达到预期的效果，同时记录演练期间发生的问题，记录现场，另一方面通过监控发现有风险问题进行人工干预，立刻终止演练。

场景一：精准触达系统-消息触达方法延迟增加30ms

演练监控方法执行的成功率和TP 999：

场景二：分流服务-JAVA进程满载，指定分流进程CPU满载

监控平台实时观测系统的CPU使用率：

5.6 演练反馈

检查系统故障发生时候监控手段是否完善，研发人员是否可以根据系统告警，快速的定位并解决问题。检查团队的响应、协同效率。

邮件事故告警：

事故恢复告警：

5.7 环境恢复

场景演练可等待演练时长结束后自行中止，也可根据手工取消、终止演练场景。

演练完成后建议需要重启容器，保证服务恢复正常状态。

5.8 演练复盘

演练结束之后，我们需要对演练进行复盘。不同的故障下，系统的表现以及整体业务场景所受到的影响，演练过程中所发现的问题，需要在复盘报告中呈现出来。

6.总结

链路演练通过提前主动注入故障，发现系统之间的强弱依赖，对链路进行检验，降低生产环境中故障发生的概率。

混沌演练实践（二）-内容加载链路演练