Kafka ISR与AR深度解析:副本同步机制核心概念

Kafka ISR与AR深度解析:副本同步机制核心概念

Kafka ISR与AR深度解析:副本同步机制核心概念

🌺The Begin🌺点点关注,收藏不迷路🌺

关键词:Kafka、ISR、AR、副本同步、Leader选举、高可用、数据一致性

在Kafka的分布式架构中,副本机制是保证高可用和数据一致性的基石。而**ISR(In-Sync Replicas)AR(Assigned Replicas)**则是理解副本同步机制的两个核心概念。

今天,我们将深入剖析这两个概念的本质、作用以及它们在Kafka高可用架构中的关键地位。


一、核心概念定义

1.1 AR:分区的所有副本

AR(Assigned Replicas):一个分区分配的所有副本集合,包括Leader和所有Follower。

一个分区的AR

Leader副本
负责读写

AR集合

Follower副本1
同步数据

Follower副本2
同步数据

AR = Leader + 所有Follower

1.2 ISR:与Leader保持同步的副本

ISR(In-Sync Replicas):与Leader保持同步的Follower集合,包括Leader自身。只有ISR中的副本才有资格被选举为新的Leader。

ISR与AR的关系

ISR动态集合

ISR: 副本0,1,2,3
与Leader同步的4个副本

主题分区

AR: 副本0,1,2,3,4
分配的所有5个副本

Leader 0
始终在ISR中

Follower 1
同步正常

Follower 2
同步正常

Follower 3
同步正常

Follower 4
同步落后
不在ISR中

1.3 官方定义

概念全称定义包含
ARAssigned Replicas分区分配的所有副本Leader + 所有Follower
ISRIn-Sync Replicas与Leader保持同步的副本Leader + 同步的Follower

二、ISR的判定标准

2.1 同步的判断条件

// Kafka源码中的判断逻辑(概念性)classReplicaManager{ def isInSync(replica:Replica):Boolean={// 1. 必须是Follower(或Leader)// 2. 必须与Leader保持同步// 主要判断依据:// - Follower的LEO(Log End Offset)要接近Leader的LEO// - Follower的拉取请求要及时// - 在replica.lag.time.max.ms时间内有拉取请求 val maxLagMs = config.replicaLagTimeMaxMs val lastCaughtUpTimeMs = replica.lastCaughtUpTimeMs val currentTimeMs = time.milliseconds()// 如果最后一次追上Leader的时间在允许范围内(currentTimeMs - lastCaughtUpTimeMs)<= maxLagMs }}

2.2 关键参数

# Kafka Broker配置 # 1. 副本落后最大时间阈值 replica.lag.time.max.ms=30000 # 默认30秒 # 如果Follower超过30秒没有拉取消息,就会被踢出ISR # 2. 最小同步副本数 min.insync.replicas=2 # Topic级别或Broker级别配置 # 生产者在acks=all时需要ISR中至少有这么多个副本 

2.3 ISR的动态变化

Kafka ISR (In-Sync Replicas) 动态变化

ISR缩减

正常状态

Follower恢复

Follower4恢复
重新开始同步

追上Leader的offset

重新加入ISR

ISR: [0,1,2,3,4]
恢复完整

ISR作用:
• 确保数据一致性
• 决定可用性
• 影响acks配置

Leader: 0
ISR: [0,1,2,3,4]

参数配置:
• replica.lag.time.max.ms
• min.insync.replicas

ISR: [0,1,2,3]
Follower4被踢出

剩余副本

不同步

Leader 0

Follower 1

Follower 2

Follower 3

Follower4
(非ISR)

Follower变慢

同步请求

超过阈值

Follower4
网络延迟/GC/负载高

Leader 0

Follower4
同步落后

replica.lag.time.max.ms
(默认30秒)

从ISR中移除

副本状态

Leader 0
(接收读写)

Follower 1
(同步中)

Follower 2
(同步中)

Follower 3
(同步中)

Follower 4
(同步中)

ISR: 与Leader保持同步的副本集合


三、ISR的核心作用

3.1 作用一:Leader选举的选民池

Kafka Leader选举流程

选出新Leader

选举过程

故障发生

初始状态

候选人对比

副本状态

数据落后

❌ 宕机

被选为

新Leader 1

Leader 0
(当前Leader)

Follower 1
(ISR中)

Follower 2
(ISR中)

Follower 3
(ISR中)

Follower 4
(不在ISR)

Leader 0 不可用

Controller检测到
Leader故障

开始选举

检查ISR列表

当前ISR: [1,2,3]

Follower 1
✅ ISR中
数据最新

Follower 2
✅ ISR中
数据最新

Follower 3
✅ ISR中
数据最新

Follower 4
❌ 不在ISR
数据落后

更新ISR: [1,2,3]

选举完成

选举规则:
• 优先从ISR中选择
• ISR中所有副本数据一致
• 保证数据不丢失

特殊情况:
• ISR为空时启用脏选举
• 可能丢失数据
• 配合unclean.leader.election

Topic: test
分区: 0
副本: 0,1,2,3,4

基于ISR的Leader选举机制

为什么只能用ISR选举?

  • ISR中的副本数据与Leader基本一致
  • 选它们做Leader不会丢失数据
  • 不在ISR中的副本数据落后,当选会导致数据丢失

3.2 作用二:消息确认的基准

// Producer的acks参数Properties props =newProperties();// acks=0:不等待确认 props.put("acks","0");// 可能丢数据,性能最高// acks=1:Leader确认即可 props.put("acks","1");// Leader写入成功就返回// acks=all:ISR全部确认 props.put("acks","all");// 最安全,性能最低// 或 acks=-1(等同于all)

acks=all的工作原理

Follower3 (非ISR)Follower2 (ISR)Follower1 (ISR)LeaderProducerFollower3 (非ISR)Follower2 (ISR)Follower1 (ISR)LeaderProducermin.insync.replicas=2所以2个ISR确认就够了发送消息写入本地同步同步同步(慢,可能超时)ackack返回成功(所有ISR已确认)

3.3 作用三:保证数据一致性

// 结合min.insync.replicas保证最小同步数// Topic配置 bin/kafka-topics.sh \ --bootstrap-server localhost:9092 \ --alter \ --topic my-topic \ --config min.insync.replicas=2// Producer配置 props.put("acks","all");// 要求所有ISR确认// 当ISR数量小于min.insync.replicas时// 比如:副本数=3,ISR=[0,1](2个),min.insync.replicas=2 ✅ 可用// 如果ISR=[0](1个),min.insync.replicas=2 ❌ 不可用,Producer会收到异常

四、AR与ISR的关系图解

4.1 集合关系图

副本集合关系

ISR: 同步副本集合

Leader

Follower 1

Follower 2

AR: 所有副本

Follower 3
同步落后

4.2 公式表示

AR = {Leader, Follower1, Follower2, Follower3, ...} ISR = {Leader, Follower_i, Follower_j, ...} 其中 Follower 满足同步条件 OSR = AR - ISR # Out-of-Sync Replicas,同步落后的副本 AR = ISR ∪ OSR ISR ∩ OSR = ∅ 

4.3 动态变化示例

# 查看副本状态 bin/kafka-topics.sh \ --bootstrap-server localhost:9092 \--describe\--topic my-topic # 输出示例 Topic: my-topic Partition: 0 Leader: 0 Replicas: 0,1,2,3,4 Isr: 0,1,2,3 # AR: [0,1,2,3,4]# ISR: [0,1,2,3]# OSR: [4]

五、ISR相关的关键配置

5.1 Broker级别配置

# server.properties # Follower落后多长时间被踢出ISR(默认30秒) replica.lag.time.max.ms=30000 # 是否允许不在ISR中的副本被选举为Leader # 如果设为true,可能会丢数据;设为false,提高数据一致性 unclean.leader.election.enable=false # 最小同步副本数(也可在Topic级别设置) min.insync.replicas=1 

5.2 Topic级别配置

# 创建Topic时设置 bin/kafka-topics.sh \ --bootstrap-server localhost:9092 \--create\--topic my-topic \--partitions3\ --replication-factor 3\--configmin.insync.replicas=2# 修改现有Topic bin/kafka-topics.sh \ --bootstrap-server localhost:9092 \--alter\--topic my-topic \--configmin.insync.replicas=2

5.3 Producer级别配置

// Producer配置影响ISR的使用Properties props =newProperties();// 一致性要求高的场景 props.put("acks","all");// 等待所有ISR确认 props.put("retries","3");// 重试次数 props.put("max.in.flight.requests.per.connection","1");// 保证顺序// 性能优先的场景 props.put("acks","1");// Leader确认即可 props.put("retries","0");// 不重试

六、ISR的实际应用场景

6.1 场景一:Leader选举

// 当Leader宕机时,Kafka的选举逻辑publicclassLeaderElection{publicvoidelectNewLeader(Partition partition){// 1. 获取当前ISR列表List<Replica> isr = partition.getInSyncReplicas();// 2. 优先从ISR中选举if(!isr.isEmpty()){// 选择ISR中的第一个作为新LeaderReplica newLeader = isr.get(0); partition.setLeader(newLeader);}else{// 如果ISR为空,根据配置决定if(uncleanLeaderElectionEnabled){// 允许从OSR中选举(可能丢数据)Replica newLeader =chooseFromOSR(); partition.setLeader(newLeader);}else{// 不可用thrownewNoReplicaAvailableException();}}}}

6.2 场景二:生产者的可靠性保证

// 需要高可靠性的生产者配置publicclassReliableProducer{publicstaticvoidmain(String[] args){Properties props =newProperties(); props.put("bootstrap.servers","localhost:9092"); props.put("acks","all"); props.put("retries",Integer.MAX_VALUE); props.put("max.in.flight.requests.per.connection","1"); props.put("enable.idempotence","true");// 开启幂等性// 还需要Topic配置min.insync.replicas=2KafkaProducer<String,String> producer =newKafkaProducer<>(props);// 发送消息 producer.send(newProducerRecord<>("my-topic","key","value"),(metadata, exception)->{if(exception !=null){// 如果ISR不足,会收到NotEnoughReplicasExceptionhandleException(exception);}});}}

6.3 场景三:监控ISR变化

# 监控ISR收缩和扩张 bin/kafka-topics.sh \ --bootstrap-server localhost:9092 \--describe\--topic my-topic \ --under-replicated-partitions # 查看所有未完全同步的分区 bin/kafka-topics.sh \ --bootstrap-server localhost:9092 \--describe\ --under-replicated-partitions 

七、面试高频问题

Q1:ISR和AR分别代表什么?

  • AR:分区的所有副本集合(包括Leader和所有Follower)
  • ISR:与Leader保持同步的副本集合(包括Leader和同步的Follower)

Q2:副本被踢出ISR的条件是什么?

:Follower超过replica.lag.time.max.ms(默认30秒)没有向Leader拉取消息,就会被踢出ISR。这表示该Follower已经落后太多,不能保证数据一致性。

Q3:为什么Leader选举只能从ISR中选?

:因为ISR中的副本数据与Leader基本一致,选它们做Leader不会丢失数据。如果从OSR中选举,选出的Leader可能缺少大量数据,导致数据不一致。

Q4:min.insync.replicas的作用是什么?

:当Producer设置acks=all时,消息必须写入ISR中至少min.insync.replicas个副本才算成功。这个参数保证了最小的数据冗余度,防止在ISR数量不足时仍然写入成功导致数据风险。

Q5:什么是unclean leader election?有什么风险?

:当ISR为空时,是否允许从OSR(不同步副本)中选举Leader。如果允许(unclean.leader.election.enable=true),可能会选出数据落后的副本作为Leader,导致数据丢失。这是用一致性换可用性。


八、总结

8.1 核心概念关系

root(Kafka副本集合)

AR(所有副本)

Leader(读写)

Follower(同步)

ISR(同步副本)

数据一致

可被选举

OSR(落后副本)

数据落后

不能选举

8.2 关键公式

AR = ISR ∪ OSR
ISR ⊆ AR
Leader ∈ ISR

8.3 一句话总结

ISR是Kafka保证数据一致性的核心机制,它圈定了"可用且可靠"的副本集合,是Leader选举和数据确认的基准。

掌握了ISR和AR的概念,你就理解了Kafka高可用架构的精髓!


思考题:在Kafka 2.8+中引入的Raft-based KRaft模式,ISR的概念有什么变化?和ZooKeeper模式下的ISR有什么异同?欢迎在评论区讨论!

在这里插入图片描述

🌺The End🌺点点关注,收藏不迷路🌺

Read more

【STM32项目开源】STM32单片机智能家居安防控制系统

【STM32项目开源】STM32单片机智能家居安防控制系统

目录 一、设计背景和意义 1.1设计背景: 1.2设计意义: 二、实物展示 三、硬件功能介绍 2.1 硬件清单: 2.2 功能介绍: 四、软件设计流程图 五、硬件PCB展示 六、软件主函序展示 七、单片机实物资料 资料获取 查看主页介绍:兆龙电子单片机设计 一、设计背景和意义 1.1设计背景: 在日常家庭财产防护、老人儿童居家安全监护、全屋安防场景联动、独居人群应急保障及别墅庭院周界防范场景中,异常快速监测、警情精准识别、设备联动响应、信息即时推送是核心需求。传统家居安防方式存在明显局限:一方面,高端全屋安防控制系统(如定制化家居安防中控、多协议工业级安防网关、高端品牌成套智能安防设备)功能虽全但成本高昂,部署复杂且需专业人员上门调试与后期维护,难以普及到普通刚需家庭、小户型住宅及租房群体等日常场景,

分布式仓储机器人数据采集物联网解决方案

某智慧仓储设备商从事于各类仓储机器人的生产、制造和销售,产品包括搬运机器人、料箱机器人、堆垛机器人和无人叉车等设备,既支持单机设备的销售,也支持整套智慧仓储系统的搭建。随着项目越来越多,规模越来越大,企业在售后运维付出的时间、精力和成本也越来越高,成为企业数字化转型和降本增效必须解决的问题之一。 痛点分析 1、不同类型、不同型号的仓储机器人所采集的数据格式和接口标准各不相同,缺乏统一的数据采集系统,难以对设备运行数据进行全面、准确的采集和分析, 2、众多仓储机器人分布在不同省市、不同区域,管理粗放,设备出现故障无法及时知晓,难以做到实时、全面的监控,无法及时发现设备故障隐患。 3、大量设备带来繁重的售后工作量,不仅增加了企业的人员成本和差旅成本,而且由于缺乏信息化的运维管理机制,还可能导致运维资源的浪费。 解决方案 通过接入控制器PLC,工业智能网关能够实时采集仓储机器人的运行状态、工作参数、故障信息等数据,并实现5G/4G等方式对接到设备运维管理平台中,生成各种报表和图表,为企业提供直观、全面的设备运行状态展示,从而实现远程监控、故障告警、运维管理、远程维

终极指南:ComfyUI Photoshop插件快速配置与AI绘画工作流实战

终极指南:ComfyUI Photoshop插件快速配置与AI绘画工作流实战 【免费下载链接】Comfy-Photoshop-SDDownload this extension via the ComfyUI manager to establish a connection between ComfyUI and the Auto-Photoshop-SD plugin in Photoshop. https://github.com/AbdullahAlfaraj/Auto-Photoshop-StableDiffusion-Plugin 项目地址: https://gitcode.com/gh_mirrors/co/Comfy-Photoshop-SD Comfy-Photoshop-SD插件作为连接ComfyUI和Photoshop的强大桥梁,让创作者能够在熟悉的Photoshop环境中直接使用AI绘画功能。通过本指南,您将学会如何快速配置这个革命性的插件,实现高效的AI图像生成与编辑工作流。 项目价值定位与核心优势 Comfy-Photoshop-SD插件解决了传统

Vitis AI推理加速实战:从零实现FPGA部署完整指南

从模型到硬件:Vitis AI 实战部署指南,让 FPGA 真正跑起深度学习 你有没有遇到过这样的场景?训练好的 PyTorch 模型准确率高达95%,信心满满地准备上板推理——结果在嵌入式 CPU 上一跑, 一张图要300毫秒 ,帧率不到4 FPS。别说实时检测了,连基本交互都卡顿。 这正是我在做工业缺陷检测项目时踩过的坑。后来我们换了一条路:把模型交给 FPGA + Vitis AI ,最终实现 每张图仅需12ms 的惊人加速。整个系统功耗还从5W降到2.5W,彻底告别风扇散热。 今天我就带你走一遍这条“少有人走却极高效”的路径—— 如何用 Xilinx 的 Vitis AI 工具链,把一个标准 PyTorch/TensorFlow 模型真正部署到 Zynq 或 Versal 芯片上,实现低延迟、