You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@flink.apache.org by xuhaiLong <xi...@163.com> on 2021/07/28 09:45:17 UTC

回复：如何监控kafka延迟

参考下kafka_exporter，获取所有的 group 的消费情况，然后配置不同的规则去监控。


在2021年7月28日 17:39，laohu<23...@qq.com.INVALID> 写道：
Hi comsir

kafka的控制台能力比较弱，想知道延迟只能自己维护。

维护方式：

1. 每个服务的topic的offset 减去 groupid的offset

2. 尽量可以计算出各种消费速度

3. rocketmq控制台，可看到消费进度，可以参照下。


在 2021/7/28 上午11:02, 龙逸尘 写道:
Hi comsir,
采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
group  id 需要自己维护。

comsir <60...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道：

hi all
以kafka为source的flink任务，各位都是如何监控kafka的延迟情况？？
监控这个延迟的目的：1.大盘展示，2.延迟后报警
小问题：
1.发现flink原生的相关metric指标很多，研究后都不是太准确，大家都用哪个指标？
2.怎么获取groupId呢，多个group消费的话，如何区分呀？
3.能通过kafka集群侧的元数据，和当前offset做减法，计算lag吗？
4.有比较优雅的实现方式吗？
非常感谢 期待解答 感谢感谢

Re:回复：如何监控kafka延迟

Posted by RS <ti...@163.com>.

1. metric指标每次都会清0的<br/>2. 数据对账的话, 可以将每次的统计数据按时间点保存起来, 然后查询时间范围的时候, 做sum求和来对账
在 2021-08-09 09:51:43，"Jimmy Zhang" <zh...@163.com> 写道：
>您好，看到你们在用kafka相关metrics，我想咨询一个问题。你们是否遇见过在重启一个kafka sink job后，相关指标清零的情况？这样是不是就无法持续的进行数据想加？我们想做一个数据对账，查询不同时间段的输出量统计，这样可能中间归零就有问题，所以想咨询下，任何的回复都非常感谢！
>
>
>
>
>|
>Best,
>Jimmy
>|
>
>Signature is customized by Netease Mail Master
>
>在2021年07月28日 17:58，jie mei 写道：
>hi，all
>
>我们是通过 grafana 对采集到的 flink kafka 的
>metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。
>
>xuhaiLong <xi...@163.com> 于2021年7月28日周三 下午5:46写道：
>
>> 参考下kafka_exporter，获取所有的 group 的消费情况，然后配置不同的规则去监控。
>>
>>
>> 在2021年7月28日 17:39，laohu<23...@qq.com.INVALID> 写道：
>> Hi comsir
>>
>> kafka的控制台能力比较弱，想知道延迟只能自己维护。
>>
>> 维护方式：
>>
>> 1. 每个服务的topic的offset 减去 groupid的offset
>>
>> 2. 尽量可以计算出各种消费速度
>>
>> 3. rocketmq控制台，可看到消费进度，可以参照下。
>>
>>
>> 在 2021/7/28 上午11:02, 龙逸尘 写道:
>> Hi comsir,
>> 采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
>> group  id 需要自己维护。
>>
>> comsir <60...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道：
>>
>> hi all
>> 以kafka为source的flink任务，各位都是如何监控kafka的延迟情况？？
>> 监控这个延迟的目的：1.大盘展示，2.延迟后报警
>> 小问题：
>> 1.发现flink原生的相关metric指标很多，研究后都不是太准确，大家都用哪个指标？
>> 2.怎么获取groupId呢，多个group消费的话，如何区分呀？
>> 3.能通过kafka集群侧的元数据，和当前offset做减法，计算lag吗？
>> 4.有比较优雅的实现方式吗？
>> 非常感谢 期待解答 感谢感谢
>>
>
>
>--
>
>*Best Regards*
>*Jeremy Mei*

Re:回复：如何监控kafka延迟

Posted by andrew <15...@163.com>.



@Jimmy Zhang
了解下checkpoint/savepoint 中间计算的结果可以间隔时间写入外部hdfs等

在 2021-08-09 09:51:21，"Jimmy Zhang" <zh...@163.com> 写道：
>您好，看到你们在用kafka相关metrics，我想咨询一个问题。你们是否遇见过在重启一个kafka sink job后，相关指标清零的情况？这样是不是就无法持续的进行数据想加？我们想做一个数据对账，查询不同时间段的输出量统计，这样可能中间归零就有问题，所以想咨询下，任何的回复都非常感谢！
>
>
>
>
>|
>Best,
>Jimmy
>|
>
>Signature is customized by Netease Mail Master
>
>在2021年07月28日 17:58，jie mei 写道：
>hi，all
>
>我们是通过 grafana 对采集到的 flink kafka 的
>metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。
>
>xuhaiLong <xi...@163.com> 于2021年7月28日周三 下午5:46写道：
>
>> 参考下kafka_exporter，获取所有的 group 的消费情况，然后配置不同的规则去监控。
>>
>>
>> 在2021年7月28日 17:39，laohu<23...@qq.com.INVALID> 写道：
>> Hi comsir
>>
>> kafka的控制台能力比较弱，想知道延迟只能自己维护。
>>
>> 维护方式：
>>
>> 1. 每个服务的topic的offset 减去 groupid的offset
>>
>> 2. 尽量可以计算出各种消费速度
>>
>> 3. rocketmq控制台，可看到消费进度，可以参照下。
>>
>>
>> 在 2021/7/28 上午11:02, 龙逸尘 写道:
>> Hi comsir,
>> 采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
>> group  id 需要自己维护。
>>
>> comsir <60...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道：
>>
>> hi all
>> 以kafka为source的flink任务，各位都是如何监控kafka的延迟情况？？
>> 监控这个延迟的目的：1.大盘展示，2.延迟后报警
>> 小问题：
>> 1.发现flink原生的相关metric指标很多，研究后都不是太准确，大家都用哪个指标？
>> 2.怎么获取groupId呢，多个group消费的话，如何区分呀？
>> 3.能通过kafka集群侧的元数据，和当前offset做减法，计算lag吗？
>> 4.有比较优雅的实现方式吗？
>> 非常感谢 期待解答 感谢感谢
>>
>
>
>--
>
>*Best Regards*
>*Jeremy Mei*

回复：如何监控kafka延迟

Posted by Jimmy Zhang <zh...@163.com>.

您好，看到你们在用kafka相关metrics，我想咨询一个问题。你们是否遇见过在重启一个kafka sink job后，相关指标清零的情况？这样是不是就无法持续的进行数据想加？我们想做一个数据对账，查询不同时间段的输出量统计，这样可能中间归零就有问题，所以想咨询下，任何的回复都非常感谢！




|
Best,
Jimmy
|

Signature is customized by Netease Mail Master

在2021年07月28日 17:58，jie mei 写道：
hi，all

我们是通过 grafana 对采集到的 flink kafka 的
metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。

xuhaiLong <xi...@163.com> 于2021年7月28日周三 下午5:46写道：

> 参考下kafka_exporter，获取所有的 group 的消费情况，然后配置不同的规则去监控。
>
>
> 在2021年7月28日 17:39，laohu<23...@qq.com.INVALID> 写道：
> Hi comsir
>
> kafka的控制台能力比较弱，想知道延迟只能自己维护。
>
> 维护方式：
>
> 1. 每个服务的topic的offset 减去 groupid的offset
>
> 2. 尽量可以计算出各种消费速度
>
> 3. rocketmq控制台，可看到消费进度，可以参照下。
>
>
> 在 2021/7/28 上午11:02, 龙逸尘 写道:
> Hi comsir,
> 采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
> group  id 需要自己维护。
>
> comsir <60...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道：
>
> hi all
> 以kafka为source的flink任务，各位都是如何监控kafka的延迟情况？？
> 监控这个延迟的目的：1.大盘展示，2.延迟后报警
> 小问题：
> 1.发现flink原生的相关metric指标很多，研究后都不是太准确，大家都用哪个指标？
> 2.怎么获取groupId呢，多个group消费的话，如何区分呀？
> 3.能通过kafka集群侧的元数据，和当前offset做减法，计算lag吗？
> 4.有比较优雅的实现方式吗？
> 非常感谢 期待解答 感谢感谢
>


--

*Best Regards*
*Jeremy Mei*

Re: 如何监控kafka延迟

Posted by jie mei <me...@gmail.com>.

sorry, metrics
项没复制全，应该是taskmanager_job_task_operator_KafkaConsumer_records-lag-max。

我们主要是通过 grafana
的图标来展现来监控延迟等信息，简单的报警页可以通过grafana来配置。细粒度到任务级别的报警，grafana配置起来有点繁琐，不过可能可以通过grafana
的 rest api 自动生成。

jie mei <me...@gmail.com> 于2021年7月28日周三 下午5:58写道：

> hi，all
>
> 我们是通过 grafana 对采集到的 flink kafka 的
> metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。
>
> xuhaiLong <xi...@163.com> 于2021年7月28日周三 下午5:46写道：
>
>> 参考下kafka_exporter，获取所有的 group 的消费情况，然后配置不同的规则去监控。
>>
>>
>> 在2021年7月28日 17:39，laohu<23...@qq.com.INVALID> 写道：
>> Hi comsir
>>
>> kafka的控制台能力比较弱，想知道延迟只能自己维护。
>>
>> 维护方式：
>>
>> 1. 每个服务的topic的offset 减去 groupid的offset
>>
>> 2. 尽量可以计算出各种消费速度
>>
>> 3. rocketmq控制台，可看到消费进度，可以参照下。
>>
>>
>> 在 2021/7/28 上午11:02, 龙逸尘 写道:
>> Hi comsir,
>> 采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
>> group  id 需要自己维护。
>>
>> comsir <60...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道：
>>
>> hi all
>> 以kafka为source的flink任务，各位都是如何监控kafka的延迟情况？？
>> 监控这个延迟的目的：1.大盘展示，2.延迟后报警
>> 小问题：
>> 1.发现flink原生的相关metric指标很多，研究后都不是太准确，大家都用哪个指标？
>> 2.怎么获取groupId呢，多个group消费的话，如何区分呀？
>> 3.能通过kafka集群侧的元数据，和当前offset做减法，计算lag吗？
>> 4.有比较优雅的实现方式吗？
>> 非常感谢 期待解答 感谢感谢
>>
>
>
> --
>
> *Best Regards*
> *Jeremy Mei*
>


-- 

*Best Regards*
*Jeremy Mei*

Re: 如何监控kafka延迟

Posted by jie mei <me...@gmail.com>.

hi，all

我们是通过 grafana 对采集到的 flink kafka 的
metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。

xuhaiLong <xi...@163.com> 于2021年7月28日周三 下午5:46写道：

> 参考下kafka_exporter，获取所有的 group 的消费情况，然后配置不同的规则去监控。
>
>
> 在2021年7月28日 17:39，laohu<23...@qq.com.INVALID> 写道：
> Hi comsir
>
> kafka的控制台能力比较弱，想知道延迟只能自己维护。
>
> 维护方式：
>
> 1. 每个服务的topic的offset 减去 groupid的offset
>
> 2. 尽量可以计算出各种消费速度
>
> 3. rocketmq控制台，可看到消费进度，可以参照下。
>
>
> 在 2021/7/28 上午11:02, 龙逸尘 写道:
> Hi comsir,
> 采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
> group  id 需要自己维护。
>
> comsir <60...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道：
>
> hi all
> 以kafka为source的flink任务，各位都是如何监控kafka的延迟情况？？
> 监控这个延迟的目的：1.大盘展示，2.延迟后报警
> 小问题：
> 1.发现flink原生的相关metric指标很多，研究后都不是太准确，大家都用哪个指标？
> 2.怎么获取groupId呢，多个group消费的话，如何区分呀？
> 3.能通过kafka集群侧的元数据，和当前offset做减法，计算lag吗？
> 4.有比较优雅的实现方式吗？
> 非常感谢 期待解答 感谢感谢
>


-- 

*Best Regards*
*Jeremy Mei*

回复： 如何监控kafka延迟

Re:回复：如何监控kafka延迟

Re:回复：如何监控kafka延迟

回复：如何监控kafka延迟

Re: 如何监控kafka延迟

Re: 如何监控kafka延迟

回复：如何监控kafka延迟