Kafka幂等性和事务

幂等性

幂等性值多次执行某个操作,每次执行的结果都和第一次一样。Kafka可以在Producer端设置幂等性,0.11.0.0之后加入的新功能,enable.idempotence = true设置后Producer自动会对你的消息进行去重。但是只能保证单分区上的幂等性,即一个幂等性Producer只能保证某个Topic下的一个分区内不会出现重复数据,无法实现多分区幂等性。还有只能保证单会话幂等性,Producer重启后就不能与之前的数据共享幂等性。

个人认为在消息者端实现幂等性,可以最大程度避免重复消费。

事务

事务Producer可以保证跨会话和跨分区的幂等性。和幂等性设置一样enable.idempotence = true,设置Producer端transcational.id,业务代码中也要手动开启和提交事务。在Consumer端设置isolation.level = read_committed。一般是在Kafka Streams 流处理中使用,保证精确的一次语义。平时一般不会使用因为性能不太高。