开发者社区 > 博文 > 混沌演练实践(二)-内容加载链路演练
分享
  • 打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

混沌演练实践(二)-内容加载链路演练

  • jd****
  • 2023-05-26
  • IP归属:北京
  • 306浏览

    1. 背景

    当前微服务架构下,各个服务间依赖高,调用关系复杂,业务场景很少可以通过一个系统来实现,常见的业务场景实现基本涉及多个上下游系统,要保证整体链路的稳定性,需要尽量减少系统之间的耦合性,避免因为单点失效引起整个链路的故障。

    2. 目标

    通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现,对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。

    3. 演练链路

    对真实的业务场景进行混沌演练,就需要对业务场景的相关服务和调用关系进行链路梳理,一般需要根据实际业务场景,画出系统交互图,通过链路串联、数据追踪、和上下游确认等方式整理链路图。

    4. 演练计划

    混沌演练之前,一定要好可行性评估,评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等,然后决策演练场景,进行实践操作。

    

    5. 内容加载演练实践

    5.1 链路梳理

    内容加载链路演练,通过内容加载的系统交互梳理出加载链路:摹略引擎执行-AB分流-CMS资源获取-鹰眼内容发送

    

    5.2 接口梳理

    根据调链路调用关系用梳理出具体的接口:

    5.3 制定演练计划

    演练时间:2023.03.28 14:00-22:00

    演练攻击人员:孙X英、陈X然;    演练防守人员:张X雷、付X军、刘X、韩X

    针对链路接口设计演练场景,一般根据系统特色来设计更容易发生的故障,比如应用偏计算比较消耗CPU的话,故障设计包含CPU满载,应用对于响应的时效有严格的要求的话一般包含方法延迟故障设计。

    本次链路故障场景设计如下:

    具体演练场景设计可参考:https://mp.weixin.qq.com/s/chdp36g8JwYLvwD57gp_zw 。

    5.4 演练执行

    目前借助天权自动化运维平台进行混沌攻防演练,进入工具市场—演练类,选择不同的故障方案,点击“立即执行”;

    如选择Java进程满载场景演练,选择满载率100%,满载核数为演练应用部署服务的CPU核数,演练时长是执行满载的持续时间,选择演练的具体应用和指定IP,执行演练计划。

    演练示例,根据演练的场景配置好故障参数,如下图为精准触达系统-消息触达方法延迟增加30ms参数设定:

    演练执行结果检查,下图为分流服务-JAVA进程满载,指定分流进程CPU满载,故障执行结果:

    5.5 演练监控

    使用监控工具实时收集服务器在混沌演练运行期间的性能状态,如系统层面的  CPU、内存等使用情况,观察方法的响应时间、成功率等指标,一方面验证在混沌场景执行期间系统状态是否达到预期的效果,同时记录演练期间发生的问题,记录现场,另一方面通过监控发现有风险问题进行人工干预,立刻终止演练。

    场景一:精准触达系统-消息触达方法延迟增加30ms

    演练监控方法执行的成功率和TP 999:

    场景二:分流服务-JAVA进程满载,指定分流进程CPU满载

    监控平台实时观测系统的CPU使用率:

    5.6 演练反馈

    检查系统故障发生时候监控手段是否完善,研发人员是否可以根据系统告警,快速的定位并解决问题。检查团队的响应、协同效率。

     邮件事故告警:

    

     事故恢复告警:

    


    5.7 环境恢复

    场景演练可等待演练时长结束后自行中止,也可根据手工取消、终止演练场景。

    演练完成后建议需要重启容器,保证服务恢复正常状态。

    5.8 演练复盘

    演练结束之后,我们需要对演练进行复盘。不同的故障下,系统的表现以及整体业务场景所受到的影响,演练过程中所发现的问题,需要在复盘报告中呈现出来。

    

     

    


    6.总结

    链路演练通过提前主动注入故障,发现系统之间的强弱依赖,对链路进行检验,降低生产环境中故障发生的概率。



    居安思危,思则有备,有备无患。”





    文章数
    2
    阅读量
    919

    作者其他文章

    01 混沌演练实践(一)