幂等性
幂等性值多次执行某个操作,每次执行的结果都和第一次一样。Kafka可以在Producer端设置幂等性,0.11.0.0之后加入的新功能,
enable.idempotence = true
设置后Producer自动会对你的消息进行去重。但是只能保证单分区上的幂等性,即一个幂等性Producer只能保证某个Topic下的一个分区内不会出现重复数据,无法实现多分区幂等性。还有只能保证单会话幂等性,Producer重启后就不能与之前的数据共享幂等性。
个人认为在消息者端实现幂等性,可以最大程度避免重复消费。
事务
事务Producer可以保证跨会话和跨分区的幂等性。和幂等性设置一样
enable.idempotence = true
,设置Producer端transcational.id
,业务代码中也要手动开启和提交事务。在Consumer端设置isolation.level = read_committed
。一般是在Kafka Streams 流处理中使用,保证精确的一次语义。平时一般不会使用因为性能不太高。