Kafka监控命令有哪些关键指标和常用操作？-菜鸟科技网

Kafka作为分布式消息队列系统,其稳定运行依赖于对集群状态的实时监控，通过命令行工具可以高效获取 broker、topic、consumer 等核心组件的运行指标，及时发现潜在问题，以下从集群状态、Topic 管理、Consumer 监控、日志分析等维度详细介绍 Kafka 监控相关命令及使用方法。

（图片来源网络，侵删）

集群状态监控

查看 Broker 列表及状态

使用 kafka-broker-api-versions.sh（或旧版 kafka-list.sh）可以查看集群中所有 Broker 的信息，包括主机名、端口、支持的 API 版本等。

# 格式：kafka-broker-api-versions.sh --bootstrap-server <broker_list>
./bin/kafka-broker-api-versions.sh --bootstrap-server 192.168.1.1:9092,192.168.1.2:9092

执行后会返回每个 Broker 的 ID、主机、端口、运行的版本号，以及支持的协议（如 Produce、Fetch、Metadata 等），若某个 Broker 连接失败或协议不兼容，会明确标记异常状态。

查看集群元数据

通过 kafka-metadata-quorum.sh（Kafka 2.8+）可以查看 Quorum 控制器的状态，包括当前控制器节点、集群成员列表、日志状态等，确保元数据服务正常。

./bin/kafka-metadata-quorum.sh --bootstrap-server 192.168.1.1:9092 describe

重点关注 Leader 节点是否正常、InSyncReplicas (ISR) 列表是否完整，若控制器频繁切换或 ISR 列表过短，可能存在网络分区或 Broker 性能问题。

（图片来源网络，侵删）

监控 Broker 级指标

使用 kafka-topics.sh 结合 --describe 参数可查看 Topic 的分区副本分布，间接反映 Broker 的负载情况：

./bin/kafka-topics.sh --bootstrap-server 192.168.1.1:9092 --describe --topic test-topic

输出字段包括：

Topic: 主题名称
Partition: 分区 ID
Leader: 负责该分区读写的 Broker ID
Replicas: 副本所在的 Broker ID 列表
Isr: 同步副本列表（与 Leader 保持同步的副本集合）

若某个 Broker 的 Leader 分区数远高于其他节点，说明负载不均；若 Isr 列表长度为 1（仅 Leader），表示副本同步存在风险，需检查副本 follower 的状态。

Topic 级监控

查看 Topic 列表及详细信息

# 列出所有 Topic
./bin/kafka-topics.sh --bootstrap-server 192.168.1.1:9092 --list
# 查看指定 Topic 详细信息（分区数、副本数、压缩方式等）
./bin/kafka-topics.sh --bootstrap-server 192.168.1.1:9092 --describe --topic test-topic

通过输出可判断 Topic 配置是否合理，例如副本数是否满足高可用要求（通常建议 ≥3），Isr 列表是否稳定。

（图片来源网络，侵删）

监控 Topic 生产/消费流量

Kafka 自带 JMX 监控功能，可通过 jconsole 或 visualvm 连接 Broker 的 JMX 端口（默认 9999），获取实时流量指标，关键指标包括：

kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec: 每秒接收消息数
kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec: 每秒接收字节数
kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec: 每秒发送字节数

通过 jconsole 连接后，在 MBean 层级依次展开 kafka.server → BrokerTopicMetrics，即可查看上述指标的实时值。

查看 Topic 消息堆积情况

消息堆积可通过 Consumer 消费速率与 Producer 生产速率对比判断，但更直接的方式是检查 Topic 的 Log End Offset (LEO) 和 High Watermark (HW)：

# 查看分区的 LEO 和 HW
./bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.1.1:9092 --topic test-topic --time -1

--time -1 表示获取最新偏移量，输出格式为 Topic:Partition:Offset。LEO 是日志末端偏移量（最新消息位置），HW 是已提交消息的最大偏移量（Consumer 可消费的最大位置），若 LEO - HW 值持续增大，说明消息堆积严重，需检查 Consumer 消费能力或分区配置是否合理。

Consumer 监控

查看 Consumer Group 列表

# 列出所有 Consumer Group
./bin/kafka-consumer-groups.sh --bootstrap-server 192.168.1.1:9092 --list

查看 Consumer Group 详细状态

# 查看指定 Group 的消费进度、分区分配情况等
./bin/kafka-consumer-groups.sh --bootstrap-server 192.168.1.1:9092 --describe --group test-group

输出字段包括：

GROUP: Consumer Group 名称
TOPIC: 订阅的 Topic
PARTITION: 分区 ID
CURRENT-OFFSET: Consumer 已提交的消费偏移量
LOG-END-OFFSET: 分区最新消息偏移量（LEO）
LAG: 消息堆积量（LOG-END-OFFSET - CURRENT-OFFSET）
CONSUMER-ID: 消费者实例 ID
HOST: 消费者主机地址

重点关注 LAG 值：若某个分区的 LAG 持续增加，说明该分区消费滞后；若 CONSUMER-ID 为空，可能表示消费者实例已退出但 Group 未重新平衡。

重置 Consumer 偏移量（解决消费异常）

当 Consumer 消费异常（如消息丢失或重复消费）时，可通过重置偏移量恢复：

# 重置到指定时间点的偏移量（示例：重置到 1 天前）
./bin/kafka-consumer-groups.sh --bootstrap-server 192.168.1.1:9092 --group test-group --reset-offsets --to-datetime 2023-10-01T00:00:00 --execute --topic test-topic
# 重置到最早/最新偏移量
./bin/kafka-consumer-groups.sh --bootstrap-server 192.168.1.1:9092 --group test-group --reset-offsets --to-earliest --execute --topic test-topic

--execute 参数表示直接执行重置，建议先使用 --dry-run 预览重置结果。

日志与性能监控

查看 Broker 日志

Broker 日志默认存储在 logs/ 目录下，关键日志文件包括：

server.log: Broker 主日志，记录启动、分区分配、请求处理等信息
controller.log: 控制器日志，记录 Controller 选举、分区 Leader 选举等操作
state-change.log: 副本状态变更日志，记录副本同步状态变化

通过 grep 过滤关键字可快速定位问题：

# 查看分区 Leader 选举日志
grep "Leader election" logs/server.log
# 查看 Controller 切换日志
grep "Controller" logs/controller.log

使用 `kafka-producer-perf-test.sh` 和 `kafka-consumer-perf-test.sh` 测试性能

生产环境性能测试可验证集群的吞吐量和延迟：

# 生产者性能测试（发送 100 万条消息，每条 1KB）
./bin/kafka-producer-perf-test.sh --topic test-topic --num-records 1000000 --record-size 1024 --throughput 1000 --broker-list 192.168.1.1:9092
# 消费者性能测试（消费指定偏移量范围的消息）
./bin/kafka-consumer-perf-test.sh --topic test-topic --messages 1000000 --broker-list 192.168.1.1:9092 --offset 0

测试结果会包含平均吞吐量（MB/s）、平均延迟（ms）、P99 延迟等指标，若吞吐量低于预期或延迟过高，需检查 Broker 配置（如 num.network.threads、num.io.threads）或硬件资源（CPU、磁盘 I/O）。

常见监控指标速查表

监控维度	关键指标	获取方式	异常表现
集群状态	Broker 存活状态、Controller 节点	`kafka-broker-api-versions.sh`	Broker 频繁下线、Controller 切换频繁
Topic 级	消息堆积量（LAG）、分区 Leader 分布	`kafka-topics.sh --describe`	LAG 持续增大、Leader 负载不均
Consumer 级	消费偏移量、消费速率、Rebalance 次数	`kafka-consumer-groups.sh --describe`	消费滞后、Rebalance 频繁
性能	吞吐量（MB/s）、延迟（ms）	`kafka-producer-perf-test.sh`、JMX	吞吐量骤降、延迟飙升

Kafka监控命令有哪些关键指标和常用操作？

集群状态监控

查看 Broker 列表及状态

查看集群元数据

监控 Broker 级指标

Topic 级监控

查看 Topic 列表及详细信息

监控 Topic 生产/消费流量

查看 Topic 消息堆积情况

Consumer 监控

查看 Consumer Group 列表

查看 Consumer Group 详细状态

重置 Consumer 偏移量（解决消费异常）

日志与性能监控

查看 Broker 日志

使用 `kafka-producer-perf-test.sh` 和 `kafka-consumer-perf-test.sh` 测试性能

常见监控指标速查表

相关问答 FAQs

tjadmin

成都sort招聘具体是做什么岗位？

Cloudin招聘AIX，是何岗位？有何要求？

网页速度如何优化？

Linux build命令如何正确使用？

招聘 ios webview

ipad如何创建网页连接不上，iPad创建网页为何连接不上？

趣味记忆fruit单词有何妙招？

上海搭建H5网站公司

如何让静态的html在浏览器搜索到啊

iis搭建网站时属于默认文档的是

没技术不可以搭建网站吗

ps如何在折线图中增加一点

pr2020如何使用方正中文字体

俄语网站制作，如何从零开始搭建？

印象命令如何高效提升笔记管理效率？

搭建网站怎么选服务器

Kafka监控命令有哪些关键指标和常用操作？

集群状态监控

查看 Broker 列表及状态

查看集群元数据

监控 Broker 级指标

Topic 级监控

查看 Topic 列表及详细信息

监控 Topic 生产/消费流量

查看 Topic 消息堆积情况

Consumer 监控

查看 Consumer Group 列表

查看 Consumer Group 详细状态

重置 Consumer 偏移量（解决消费异常）

日志与性能监控

查看 Broker 日志

使用 kafka-producer-perf-test.sh 和 kafka-consumer-perf-test.sh 测试性能

常见监控指标速查表

相关问答 FAQs

相关推荐

ipad如何创建网页连接不上，iPad创建网页为何连接不上？

使用 `kafka-producer-perf-test.sh` 和 `kafka-consumer-perf-test.sh` 测试性能