这一年公司服务化如火如荼地进行,经常听到两个团队在讨论系统交互方案时谈到幂等。不过我发现,虽然大家都知道“幂等”这个词,但真正理解幂等的没几个。我收集整理了网上的一些资料成此文,应该算是全网讲解幂等最全的一篇文章了吧。

问题

双十一,零点刚开始,小明就迫不及待地点击提交订单按钮,1秒,2秒,3秒,没反应,小明有点心慌,又快速地点击了两下,提示下单成功。随后小明到我的订单列表中一看,发现有三个相同的订单,小明一脸黑线。

什么是幂等

HTTP/1.1中对幂等性的定义是: Methods can also have the property of “idempotence” in that (aside from error or expiration issues) the side-effects of N > 0 identical requests is the same as for a single request.

这里不讨论学术上如何定义幂等性,而是重点在于如何在分布式环境中提供对外幂等性的接口。对外提供的接口承诺幂等性,其要表达的含义是:只要调用接口成功,外部对接口的多次调用得到的结果是相同的,即执行多次和一次的效果是一样的。

幂等性是系统的接口对外一种承诺(而不是实现), 承诺只要调用接口成功, 外部多次调用对系统的影响是一致的。声明为幂等的接口会认为外部调用失败是常态, 并且失败之后必然会有重试。 幂等性并不属于特定的协议,它是分布式系统的一种特性。

为什么需要幂等

上面小明遇到的问题,就是在防止重复提交的情况上没有做好控制。 业务开发中,经常会遇到重复提交的情况,无论是由于网络问题无法收到请求结果而重新发起请求,或是前端的操作抖动而造成重复提交情况。

在交易系统,支付系统这种重复提交造成的问题有尤其明显,比如:

  1. 用户在APP上连续点击了多次提交订单,后台应该只产生一个订单;(下多个相同的单,我有病啊)
  2. 向支付宝发起支付请求,由于网络问题或系统BUG重发,支付宝应该只扣一次钱。(多付N笔钱,我真有钱啊)

很显然,幂等接口认为,外部调用者会存在多次调用的场景,为了防止重试对数据状态的改变,需要将接口的设计为幂等的。

什么情况下需要保证幂等性

以SQL为例,有下面三种场景,只有第三种场景需要开发人员使用其他策略保证幂等性:

  1. SELECT col1 FROM tab1 WHER col2=2,无论执行多少次都不会改变状态,是天然的幂等。
  2. UPDATE tab1 SET col1=1 WHERE col2=2,无论执行成功多少次状态都是一致的,因此也是幂等操作。
  3. UPDATE tab1 SET col1=col1+1 WHERE col2=2,每次执行的结果都会发生变化,这种不是幂等的。

保证幂等策略

幂等需要通过唯一的业务单号来保证。也就是说相同的业务单号,认为是同一笔业务。使用这个唯一的业务单号来确保,后面多次的相同的业务单号的处理逻辑和执行效果是一致的。

下面以支付为例,在不考虑并发的情况下,实现幂等很简单:

  1. 先查询一下订单是否已经支付过,
  2. 如果已经支付过,则返回支付成功;如果没有支付,进行支付流程,修改订单状态为‘已支付’。

上述的保证幂等方案是分成两步的,第2步依赖第1步的查询结果,无法保证原子性的。在高并发下就会出现下面的情况:第二次请求在第一次请求第2步订单状态还没有修改为‘已支付状态’的情况下到来。 既然得出了这个结论,余下的问题也就变得简单:把查询和变更状态操作加锁,将并行操作改为串行操作。

乐观锁

如果只是更新已有的数据,没有必要对业务进行加锁,设计表结构时使用乐观锁,一般通过version来做乐观锁,这样既能保证执行效率,又能保证幂等。例如:

UPDATE table1 SET col1=1,version=version+1 WHERE version=#version#

不过,乐观锁存在失效的情况,就是常说的ABA问题,不过如果version版本一直是自增的就不会出现ABA的情况。(从网上找了一张图片很能说明乐观锁,引用过来,出自Mybatis对乐观锁的支持

防重表

使用订单号orderNo做为去重表的唯一索引,每次请求都根据订单号向去重表中插入一条数据。第一次请求查询订单支付状态,当然订单没有支付,进行支付操作,无论成功与否,执行完后更新订单状态为成功或失败,删除去重表中的数据。后续的订单因为表中唯一索引而插入失败,则返回操作失败,直到第一次的请求完成(成功或失败)。可以看出防重表作用是加锁的功能。

分布式锁

这里使用的防重表可以使用分布式锁代替,比如Redis。订单发起支付请求,支付系统会去Redis缓存中查询是否存在该订单号的Key,如果不存在,则向Redis增加Key为订单号。查询订单支付已经支付,如果没有则进行支付,支付完成后删除该订单号的Key。通过Redis做到了分布式锁,只有这次订单订单支付请求完成,下次请求才能进来。相比去重表,将放并发做到了缓存中,较为高效。思路相同,同一时间只能完成一次支付请求。

token令牌

这种方式分成两个阶段:申请token阶段和支付阶段。

第一阶段,在进入到提交订单页面之前,需要订单系统根据用户信息向支付系统发起一次申请token的请求,支付系统将token保存到Redis缓存中,为第二阶段支付使用。

第二阶段,订单系统拿着申请到的token发起支付请求,支付系统会检查Redis中是否存在该token,如果存在,表示第一次发起支付请求,删除缓存中token后开始支付逻辑处理;如果缓存中不存在,表示非法请求。

实际上这里的token是一个信物,支付系统根据token确认,你是你妈的孩子。不足是需要系统间交互两次,流程较上述方法复杂。

支付缓冲区

把订单的支付请求都快速地接下来,一个快速接单的缓冲管道。后续使用异步任务处理管道中的数据,过滤掉重复的待支付订单。

优点是同步转异步,高吞吐。不足是不能及时地返回支付结果,需要后续监听支付结果的异步返回。

三个角度讨论幂等控制的实现

HTTP的幂等性

幂等表示:请求服务器一次或是多次,返回的结果均是一样的[select]一般是GET请求 非幂等表示:请求服务器不同的次数,返回的结果将是不一样的[update delete] 一般是POST请求

HTTP协议本身是一种面向资源的应用层协议,但对HTTP协议的使用实际上存在着两种不同的方式:一种是restful,它把HTTP当成应用层协议,另一种是SOA,它并没有完全把HTTP当成应用层协议,而是把HTTP协议作为了传输层协议,然后在HTTP之上建立了自己的应用层协议。

本文所讨论的HTTP幂等性主要针对RESTful风格的,不过正如上一节所看到的那样,幂等性并不属于特定的协议,它是分布式系统的一种特性;所以,不论是SOA还是RESTful的Web API设计都应该考虑幂等性。 | 重要方法 | 安全 | 幂等 | |–|–|–|–| | GET | 是 | 是| | POST | 否 | 否| | PUT | 否| 是 | | DELETE | 否 | 是|

数据库幂等

数据库上的幂等和事务是一体的。

  1. 查询操作 查询一次和查询多次,在数据不变的情况下,查询结果是一样的。select是天然的幂等操作

  2. 删除操作 删除操作也是幂等的,删除一次和多次删除都是把数据删除。(注意可能返回结果不一样,删除的数据不存在,返回0,删除的数据多条,返回结果多个)

  3. 唯一索引,防止新增脏数据 比如:支付宝的资金账户,支付宝也有用户账户,每个用户只能有一个资金账户,怎么防止给用户创建资金账户多个,那么给资金账户表中的用户ID加唯一索引,所以一个用户新增成功一个资金账户记录

  4. 悲观锁 获取数据的时候加锁获取。 select * from table_xxx where id=’xxx’ for update;

    注意:id字段一定是主键或者唯一索引,不然是锁表,会死人的!

悲观锁使用时一般伴随事务一起使用,数据锁定时间可能会很长,根据实际情况选用。

  1. 乐观锁 乐观锁只是在更新数据那一刻锁表,其他时间不锁表,所以相对于悲观锁,效率更高。

客户端幂等控制机制-token

  1. 业务要求 页面的数据只能被点击提交一次

  2. 发生原因 由于重复点击或者网络重发,或者nginx重发等情况会导致数据被重复提交

  3. 解决办法 集群环境:采用token加redis(redis单线程的,处理需要排队) 单JVM环境:采用token加redis或token加jvm内存

  4. 处理流程 数据提交前要向服务的申请token,token放到redis或jvm内存,token有效时间 提交后后台校验token,同时删除token,生成新的token返回

  5. token特点 要申请,一次有效性,可以限流

幂等性接口的不足

  1. 增加了额外控制幂等的业务逻辑,复杂化了业务功能;
  2. 把并行执行的功能改为串行执行,降低了执行效率。

因此除了业务上的特殊要求外,尽量不提供幂等的接口。