Kafka 提供了 3 种提交 offset 的方式
- 自动提交
复制
|
|
- 手动同步提交 offset
复制
|
|
- 手动异步提交 offset
复制
|
|
上面说了既然异步提交 offset 可能会重复消费, 那么我使用同步提交是否就可以表明这个问题呢?
复制
|
|
很明显不行, 因为 insertIntoDB 和 commitSync() 做不到原子操作, 如果 insertIntoDB() 成功了,但是提交 offset 的时候 consumer 挂掉了,然后服务器重启,仍然会导致重复消费问题。
如何做到不重复消费?
只要保证处理消息和提交 offset 得操作是原子操作,就可以做到不重复消费。我们可以自己管理 committed offset, 而不让 kafka 来进行管理。
比如如下使用方式:
- 如果消费的数据刚好需要存储在数据库,那么可以把 offset 也存在数据库,就可以就可以在一个事物中提交这两个结果,保证原子操作。
- 借助搜索引擎,把 offset 和数据一起放到索引里面,比如 Elasticsearch
每条记录都有自己的 offset, 所以如果要管理自己的 offset 还得要做下面事情
- 设置 enable.auto.commit=false
- 使用每个 ConsumerRecord 提供的 offset 来保存消费的位置。
- 在重新启动时使用 seek(TopicPartition, long) 恢复上次消费的位置。
通过上面的方式就可以在消费端实现”Exactly Once” 的语义, 即保证只消费一次。但是是否真的需要保证不重复消费呢?这个得看具体业务, 重复消费数据对整体有什么影响在来决定是否需要做到不重复消费。
来源:oschina
链接:https://my.oschina.net/u/4354994/blog/3418609