You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by 972684638 <da...@qq.com> on 2020/09/01 08:27:31 UTC

回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

修改grafana模板的查询语句,在promeQL后面加上[1m,1s],这样过期太久的数据,就不会查到了

---原始邮件---
发件人: "bradyMk"<zhbmeng@126.com&gt;
发送时间: 2020年9月1日(周二) 下午4:23
收件人: "user-zh"<user-zh@flink.apache.org&gt;;
主题: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据


请教一下大家:
我用flink1.9.1,使用Prometheus Pushgateway
监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长;
如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样:
flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,我采用了您说的这种方式,但是会报这样的错误:
"invalid expression type \"range vector\" for range query, must be Scalar or
instant Vector"



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,您说的这种方法貌似行不通,因为指标数据是没有被删除的,所以不会出现没数据的情况,按您这么查询,查出的列表将会一直有数据的,只是数据会一直不变



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by 972684638 <da...@qq.com>.
flink_jobmanager_job_uptime[1m:1s]
,意思是在过去一分钟的时间段内,每秒查询一次flink_jobmanager_job_uptime这个指标,查出来是一个列表,如果过去一分钟都没数据,则列表为空。
你可以尝试flink_jobmanager_job_uptime[1m:1s]这个写法,有没有效果我没试过
---原始邮件---
发件人: "bradyMk"<zhbmeng@126.com&gt;
发送时间: 2020年9月1日(周二) 下午4:50
收件人: "user-zh"<user-zh@flink.apache.org&gt;;
主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据


您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长;
如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样:
flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长;
如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样:
flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by 972684638 <da...@qq.com>.
所以,你的根本问题,其实是如何让同一个flink任务的两次运行实例,查出不一样的metrics,而不是拿着任务名,去查出所有实例的metrics,我的理解对吗?



---原始邮件---
发件人: "bradyMk"<zhbmeng@126.com&gt;
发送时间: 2020年9月1日(周二) 下午5:01
收件人: "user-zh"<user-zh@flink.apache.org&gt;;
主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据


您好,这个指标我已经设置了,但是这个指标只是针对cancel或者stop某个作业时生效,但是用kill的方式,是删除不掉Pushgateway内残留的数据的



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,这个指标我已经设置了,但是这个指标只是针对cancel或者stop某个作业时生效,但是用kill的方式,是删除不掉Pushgateway内残留的数据的



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,我之前也想到了这个方法,但是Pushgateway中的metrics因为设置了randomJobNameSuffix:true参数,导致Pushgateway中的job名称都是随机生成的,例如这样:
<http://apache-flink.147419.n8.nabble.com/file/t802/metric.png> 
他的名字是随机的,我该怎么用delete方法删除呢?



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
您好,我已经设置了该参数,但是该参数是针对对cancel或者stop的作业有效,但是对kill掉的作业是不会删除掉Pushgateway中残留的指标数据的



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

Posted by bradyMk <zh...@126.com>.
好的,谢谢您,我看一下~



-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/