You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by bradyMk <zh...@126.com> on 2020/09/01 08:23:34 UTC

flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

请教一下大家:
我用flink1.9.1,使用Prometheus Pushgateway
监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,您指的定时清理pushgateway里的数据就是定时重启pushgateway么?我这边目前采取的方法就是每天凌晨重启Pushgateway,能请问你这边是怎么重启么?固定时间么?还是有脚本监控任务,当任务挂掉就触发重启Pushgateway?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,可以请教一下如何清理Pushgateway中的数据么?我是想主动调用pushgateway的delete方法来删除pushgetway的metrics,但是Pushgateway中的metrics因为设置了randomJobNameSuffix:true参数,导致Pushgateway中的job名称都是随机生成的,那么该如何清理呢?
<http://apache-flink.147419.n8.nabble.com/file/t802/metric.png> 



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by Yaoting Gong <fa...@gmail.com>.
“  Prometheus 已经采集的历史数据肯定不能清理,有问题还需要用这些数据定位问题。  ”

Yaoting Gong <fa...@gmail.com> 于2020年9月1日周二 下午6:24写道:

> 清理gateway里面的数据,通过他的接口就行。 Prometheus 已经采集的历史数据肯定不能请离开,有问题才需要定位。
>
> 我们是直接定时清理,运行周期和指标采集周期有一定关系,避免数据丢失。如果对flink
> 进行封装,比如我们后期开发计算平台,是可以通过统一入口做封装,关闭、停止任务时精准清理,不过暂时还没有做
>
> bradyMk <zh...@126.com> 于2020年9月1日周二 下午5:41写道:
>
>> 目前我能想到的就是这个办法,但感觉有点曲线救国的意思,不知道还有没有更直接一点的方法
>>
>>
>>
>> -----
>> Best Wishes
>> --
>> Sent from: http://apache-flink.147419.n8.nabble.com/
>
>

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by Yaoting Gong <fa...@gmail.com>.
清理gateway里面的数据,通过他的接口就行。 Prometheus 已经采集的历史数据肯定不能请离开,有问题才需要定位。

我们是直接定时清理,运行周期和指标采集周期有一定关系,避免数据丢失。如果对flink
进行封装,比如我们后期开发计算平台,是可以通过统一入口做封装,关闭、停止任务时精准清理,不过暂时还没有做

bradyMk <zh...@126.com> 于2020年9月1日周二 下午5:41写道:

> 目前我能想到的就是这个办法,但感觉有点曲线救国的意思,不知道还有没有更直接一点的方法
>
>
>
> -----
> Best Wishes
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
目前我能想到的就是这个办法,但感觉有点曲线救国的意思,不知道还有没有更直接一点的方法



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by 972684638 <da...@qq.com>.
那是否可以在kill或者cancel的时候,利用脚本触发一次清理



---原始邮件---
发件人: "Yaoting Gong"<fall.for.you.ffm@gmail.com&gt;
发送时间: 2020年9月1日(周二) 下午5:23
收件人: "user-zh"<user-zh@flink.apache.org&gt;;
主题: Re: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据


pushgateway 我理解是一个数据缓存,丢失并没有影响。所以我们是定时清理里面的数据,当然清理周期和flink发送周期错开

bradyMk <zhbmeng@126.com&gt; 于2020年9月1日周二 下午4:23写道:

&gt; 请教一下大家:
&gt; 我用flink1.9.1,使用Prometheus Pushgateway
&gt;
&gt; 监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么?
&gt;
&gt;
&gt;
&gt; -----
&gt; Best Wishes
&gt; --
&gt; Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by Yaoting Gong <fa...@gmail.com>.
pushgateway 我理解是一个数据缓存,丢失并没有影响。所以我们是定时清理里面的数据,当然清理周期和flink发送周期错开

bradyMk <zh...@126.com> 于2020年9月1日周二 下午4:23写道:

> 请教一下大家:
> 我用flink1.9.1,使用Prometheus Pushgateway
>
> 监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么?
>
>
>
> -----
> Best Wishes
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/