如何保证MySQL和Redis的数据一致性？10分钟带你搞定！-京东云开发者社区

### 1 什么是数据一致性

“数据一致”一般指的是：缓存中有数据，缓存的数据值=数据库中的值。但根据缓存中是否有数据为依据，则“一致”可以包含两种情况：

- 缓存中有数据，缓存的数据值=数据库中的值
- 缓存中本没有数据，数据库中的值=最新值（有请求查询数据库时，会将数据写入缓存，则变为上面的“一致”状态）

“数据不一致”：

- 缓存的数据值≠数据库中的值；
- 缓存或者数据库中存在旧值，导致其他线程读到旧数据（即不只是缓存的数据值≠数据库中的值）。

## 2 数据不一致性情况及应对策略

根据是否接收写请求，可以把缓存分成读写缓存和只读缓存：

- 只读缓存：只在缓存进行数据查找，即使用“更新数据库+删除缓存”策略。
- 读写缓存：需要在缓存中对数据进行增删改查，即使用“更新数据库+更新缓存”策略。

#### 2.1 针对只读缓存（更新数据库+删除缓存）

只读缓存：新增数据时，直接写入数据库；更新（修改/删除）数据时，先删除缓存。后续访问这些增删改的数据时，会发生缓存缺失，进而查询数据库，更新缓存。

1）新增数据时，写入数据库；访问数据时，缓存缺失，查数据库，更新缓存（始终是处于“数据一致”的状态，不会发生数据不一致性问题)

![](//img1.jcloudcs.com/developer.jdcloud.com/e9a93c93-175b-49e4-8a28-f9d3e115e77320220406141435.png)

2）更新（修改/删除）数据时，会有个时序问题：更新数据库与删除缓存的顺序（这个过程会发生数据不一致性问题）

在更新数据的过程中，可能会有如下问题：

- 无并发请求下，其中一个操作失败的情况。
- 并发请求下，其他线程可能会读到旧值

因此，要想达到数据一致性，需要保证两点：

- 无并发请求下，保证A和B步骤都能成功执行。
- 并发请求下，在A和B步骤的间隔中，避免或消除其他线程的影响。

接下来，我们针对有/无并发场景，进行分析并使用不同的策略。

##### 2.1.1 无并发的情况

无并发请求下，在更新数据库和删除缓存值的过程中，因为操作被拆分成两步，那么就很有可能存在“步骤1成功，步骤2失败” 的情况发生（由于单线程中步骤1和步骤2是串行执行的，不太可能会发生 “步骤2成功，步骤1失败” 的情况）。

**1）先删除缓存，再更新数据库**

![](//img1.jcloudcs.com/developer.jdcloud.com/ea8785c0-c1b5-44d8-a479-aa258958928420220406141538.png)

2）先更新数据库，再删除缓存

![](//img1.jcloudcs.com/developer.jdcloud.com/f37967d6-74e2-4998-a248-35e081d3742020220406141602.png)

![](//img1.jcloudcs.com/developer.jdcloud.com/0511f879-0b01-452d-a1ad-c50cf4db415220220406141608.png)

**解决策略：**

① 消息队列+异步重试

无论使用哪一种执行时序，可以在执行步骤1时，将步骤2的请求写入消息队列，当步骤2失败时，就可以使用重试策略，对失败操作进行“补偿”。

![](//img1.jcloudcs.com/developer.jdcloud.com/862a62f4-437f-44bf-81a1-a3b7dda4207220220406141637.png)

具体步骤如下：

- 把要删除的缓存值或者是要更新的数据库值暂存到消息队列中（例如使用Kafka消息队列）
- 当删除缓存值或者是更新数据库值成功时，把这些值从消息队列中去除，以免重复操作。
- 当删除缓存值或者是更新数据库值失败时，执行失败策略，重试服务从消息队列中重新读取这些值，然后再次进行删除或更新。
- 删除或者更新失败时，需要再次进行重试，重试超过的一定次数。向业务层发送报错信息。

② 订阅Binlog变更日志

- 创建更新缓存服务，接收数据变更的MQ消息，然后消费消息，更新/删除Redis中的缓存数据。
- 使用Binlog实时更新/删除Redis缓存。利用Canal，即将负责更新缓存的服务伪装成一个MySQL的从节点，从MySQL接收Binlog，解析Binlog之后，得到实时的数据变更信息，然后根据变更信息去更新/删除Redis缓存。
- MQ+Canal策略，将Canal Server接收到的Binlog数据直接投递到MQ进行解耦，使用MQ异步消费Binlog日志，以此进行数据同步。

不管用MQ/Canal或者MQ+Canal的策略来异步更新缓存，对整个更新服务的数据可靠性和实时性要求都比较高，如果产生数据丢失或者更新延时情况，会造成MySQL和Redis中的数据不一致。因此，使用这种策略时，需要考虑出现不同步问题时的降级或补偿方案。

##### 2.1.2 高并发的情况

使用以上策略后，可以保证在单线程/无并发场景下的数据一致性。但是，在高并发场景下，由于数据库层面的读写并发，会引发的数据库与缓存数据不一致的问题（本质是后发生的读请求先返回了）

1）先删除缓存，再更新数据库

假设线程A删除缓存值后，由于网络延迟等原因导致未及时更新数据库，而此时，线程B开始读取数据时会发现缓存缺失，进而去查询数据库。而当线程B从数据库读取完数据、更新了缓存后，线程A才开始更新数据库，此时，会导致缓存中的数据是旧值，而数据库中的是最新值，产生“数据不一致”。其本质就是，本应后发生的“B线程-读请求”先于“A线程-写请求”执行并返回了。

![](//img1.jcloudcs.com/developer.jdcloud.com/ce2119b5-49f3-4701-9a7f-01da0a3f2cfc20220406141729.png)

或者

![](//img1.jcloudcs.com/developer.jdcloud.com/aef250b5-a24d-476a-9071-531a14c1b5e820220406141741.png)

**解决策略：**

① 设置缓存过期时间+延时双删

通过设置缓存过期时间，若发生上述淘汰缓存失败的情况，则在缓存过期后，读请求仍然可以从DB中读取最新数据并更新缓存，可减小数据不一致的影响范围。虽然在一定时间范围内数据有差异，但可以保证数据的最终一致性。

此外，还可以通过延时双删进行保障：在线程A更新完数据库值以后，让它先sleep一小段时间，确保线程B能够先从数据库读取数据，再把缺失的数据写入缓存，然后，线程A再进行删除。后续其它线程读取数据时，发现缓存缺失，会从数据库中读取最新值。

```
redis.delKey(X)
db.update(X)
Thread.sleep(N)
redis.delKey(X)
```

sleep时间：在业务程序运行的时候，统计下线程读数据和写缓存的操作时间，以此为基础来进行估算。

![](//img1.jcloudcs.com/developer.jdcloud.com/bcae4950-c4d8-46e1-b7bd-8aff71cd8b4c20220406141847.png)

注意：如果难以接受sleep这种写法，可以使用延时队列进行替代。

先删除缓存值再更新数据库，有可能导致请求因缓存缺失而访问数据库，给数据库带来压力，也就是缓存穿透的问题。针对缓存穿透问题，可以用缓存空结果、布隆过滤器进行解决。

2）先更新数据库，再删除缓存

如果线程A更新了数据库中的值，但还没来得及删除缓存值，线程B就开始读取数据了，那么此时，线程B查询缓存时，发现缓存命中，就会直接从缓存中读取旧值。其本质也是，本应后发生的“B线程-读请求”先于“A线程-删除缓存”执行并返回了。

![](//img1.jcloudcs.com/developer.jdcloud.com/0787e43d-83b9-470c-bc82-2ef1a6d04e7d20220406141914.png)

或者，在“先更新数据库，再删除缓存”方案下，“读写分离+主从库延迟”也会导致不一致：

![](//img1.jcloudcs.com/developer.jdcloud.com/ce9166ad-d435-45b7-af70-52c14bcd16c820220406142041.png)

**解决方案：**

① 延迟消息
凭借经验发送「延迟消息」到队列中，延迟删除缓存，同时也要控制主从库延迟，尽可能降低不一致发生的概率。

② 订阅binlog，异步删除
通过数据库的binlog来异步淘汰key，利用工具(canal)将binlog日志采集发送到MQ中，然后通过ACK机制确认处理删除缓存。

③ 删除消息写入数据库
通过比对数据库中的数据，进行删除确认，先更新数据库再删除缓存，有可能导致请求因缓存缺失而访问数据库，给数据库带来压力，也就是缓存穿透的问题。针对缓存穿透问题，可以用缓存空结果、布隆过滤器进行解决。

④ 加锁
更新数据时，加写锁；查询数据时，加读锁。

![](//img1.jcloudcs.com/developer.jdcloud.com/c6f56bb5-248c-4799-a836-51e7b4633f3620220406142123.png)

建议：

优先使用“先更新数据库再删除缓存”的执行时序，原因主要有两个：

- 先删除缓存值再更新数据库，有可能导致请求因缓存缺失而访问数据库，给数据库带来压力。
- 业务应用中读取数据库和写缓存的时间有时不好估算，进而导致延迟双删中的sleep时间不好设置。

#### 2.2 针对读写缓存（更新数据库+更新缓存）

- 读写缓存：增删改在缓存中进行，并采取相应的回写策略，同步数据到数据库中。
- 同步直写：使用事务，保证缓存和数据更新的原子性，并进行失败重试（如果Redis本身出现故障，会降低服务的性能和可用性）
- 异步回写：写缓存时不同步写数据库，等到数据从缓存中淘汰时，再写回数据库（没写回数据库前，缓存发生故障，会造成数据丢失）
- 该策略在秒杀场中有见到过，业务层直接对缓存中的秒杀商品库存信息进行操作，一段时间后再回写数据库。
- 一致性：同步直写>异步回写，因此，对于读写缓存，要保持数据强一致性的主要思路是：利用同步直写，同步直写也存在两个操作的时序问题：更新数据库和更新缓存。

##### 2.2.1 无并发情况

![](//img1.jcloudcs.com/developer.jdcloud.com/3e3c3509-a42b-45a2-bf3f-3b3382c8730f20220406142333.png)

##### 2.2.2 高并发情况

有四种场景会造成数据不一致：

![](//img1.jcloudcs.com/developer.jdcloud.com/71915c41-340e-4d91-8a4f-092b6cc6684120220406142400.png)

针对场景1和2的解决方案是：保存请求对缓存的读取记录，延时消息比较，发现不一致后，做业务补偿 针对场景3和4的解决方案是：对于写请求，需要配合分布式锁使用。写请求进来时，针对同一个资源的修改操作，先加分布式锁，保证同一时间只有一个线程去更新数据库和缓存；没有拿到锁的线程把操作放入到队列中，延时处理。用这种方式保证多个线程操作同一资源的顺序性，以此保证一致性。

![](//img1.jcloudcs.com/developer.jdcloud.com/986ac814-c6f5-49db-8854-061c73c6087e20220406142422.png)

其中，分布式锁的实现可以使用以下策略：

![](//img1.jcloudcs.com/developer.jdcloud.com/cea84a22-bcf7-49e9-a436-7b23a358b60820220406143630.png)

#### 2.3 强一致性策略

上述策略只能保证数据的最终一致性。要想做到强一致，最常见的方案是2PC、3PC、Paxos、Raft这类一致性协议，但它们的性能往往比较差，而且这些方案也比较复杂，还要考虑各种容错问题。如果业务层要求必须读取数据的强一致性，可以采取以下策略：

- 暂存并发读请求：在更新数据库时，先在Redis缓存客户端暂存并发读请求，等数据库更新完、缓存值删除后，再读取数据， 从而保证数据一致性。
- 串行化：读写请求入队列，工作线程从队列中取任务来依次执行
- 修改服务Service连接池，id取模选取服务连接，能够保证同一个数据的读写都落在同一个后端服务上。
- 修改数据库DB连接池，id取模选取DB连接，能够保证同一个数据的读写在数据库层面是串行的。
- 使用Redis分布式读写锁

将淘汰缓存与更新库表放入同一把写锁中，与其它读请求互斥，防止其间产生旧数据。读写互斥、写写互斥、读读共享，可满足读多写少的场景数据一致，也保证了并发性。并根据逻辑平均运行时间、响应超时时间来确定过期时间。

```java
public void write() {
    Lock writeLock = redis.getWriteLock(lockKey);
    writeLock.lock();
    try {
        redis.delete(key);
        db.update(record);
    } finally {
        writeLock.unlock();
    }
}

public void read() {
    if (caching) {
        return;
    }
    // no cache
    Lock readLock = redis.getReadLock(lockKey);
    readLock.lock();
    try {
        record = db.get();
    } finally {
        readLock.unlock();
    }
    redis.set(key, record);
}
```

#### 2.4 小结

![](//img1.jcloudcs.com/developer.jdcloud.com/ddf9a21d-2a3b-4d19-85f9-68e4d1a67db020220406143755.png)

针对读写缓存时：同步直写，更新数据库+更新缓存

![](//img1.jcloudcs.com/developer.jdcloud.com/f6b98408-038d-44f3-8aa9-17ab082e134420220406143809.png)

针对只读缓存时：更新数据库+删除缓存

![](//img1.jcloudcs.com/developer.jdcloud.com/656bb7d2-44ee-4387-9124-b2953edb891b20220406143822.png)

较为通用的一致性策略拟定：

在并发场景下，使用“更新数据库+更新缓存”需要用分布式锁保证缓存和数据一致性，且可能存在“缓存资源浪费”和“机器性能浪费”的情况；一般推荐使用“更新数据库+删除缓存”的方案。如果根据需要，热点数据较多，可以使用“更新数据库+更新缓存”策略。

在“更新数据库+删除缓存”的方案中，推荐使用推荐用“先更新数据库，再删除缓存”策略，因为先删除缓存可能会导致大量请求落到数据库，而且延迟双删的时间很难评估。

在“先更新数据库，再删除缓存”策略中，可以使用“消息队列+重试机制”的方案保证缓存的删除。并通过“订阅binlog”进行缓存比对，加上一层保障。

此外，需要通过初始化缓存预热、多数据源触发、延迟消息比对等策略进行辅助和补偿。【多种数据更新触发源：定时任务扫描，业务系统MQ、binlog变更MQ，相互之间作为互补来保证数据不会漏更新】

### 3 项目应用

我们需要根据不同的业务场景来考虑如何使用缓存+数据库；

举例说明：
我们的oms系统有一个业务场景是在某一个特定的节点，需要针对特定的一些商家做一些特殊处理逻辑，

大体流程如下：

- 将特定商家及特定配置信息落库
- 监听mq消息，判断是否是特定的节点状态（如：妥投）
- 判断此商家是否是特定商家
- 如果是，则根据该商家的特定配置信息，走特殊处理逻辑，否则忽略

此种场景，主要分两部分处理：

1. 在读取的时候使用缓存+数据库的方式并不适用，因为每天都有大量的mq监听消息，而特定的商家只占少数，所以缓存命中率会很低，这样就导致数据库的压力增大，为此，我们只用缓存，而不是缓存+数据库。但缓存的数据是通过数据库得来的，所以我们会创建一个定时任务，每天凌晨定时全量更新缓存数据（定时任务加ump监控），缓存key的过期时间要比定时任务的周期长一些，为了防止定时任务因异常而导致缓存key没有全量更新，之后key过期会直接影响线上业务（我们的定时任务设置的是每天凌晨跑一次，缓存key的过期时间是2天，每次定时任务会重新覆盖缓存key的过期时间）。
2. 对于商家配置的增删改操作，提供了jsf接口，而使用的方式就是上述所说的更新数据库+更新缓存的方式，并且此业务场景并不要求强一致性，可以接受短暂的数据不一致情况

------------

###### 自猿其说Tech-JDL京东物流技术与数据智能部
###### 作者：崔旭