You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by zhisheng <ti...@foxmail.com> on 2019/03/28 09:10:25 UTC

回复: Flink Job 监控

你看过 flink ui 上面每个 job 后面对应的这个 job 的状态没?






------------------ 原始邮件 ------------------
发件人: "cheng"<st...@163.com>;
发送时间: 2019年3月28日(星期四) 下午5:08
收件人: "user-zh"<us...@flink.apache.org>;

主题: Re: Flink Job 监控



我们目前是用standalone 模式部署的集群,请问这个job state 有关于job是否挂掉或者重启的指标?我看官方文档好像没找到。

> 在 2019年3月28日,下午4:51,浪人 <15...@qq.com> 写道:
> 
> 如果是使用flink集成cluster可以监控flink的job state,如果是yarn是超脱模式可以监控yarn的状态。
> 
> 
> 
> 
> ------------------ 原始邮件 ------------------
> 发件人: "cheng"<st...@163.com>;
> 发送时间: 2019年3月28日(星期四) 下午4:38
> 收件人: "user-zh"<us...@flink.apache.org>;
> 
> 主题: Flink Job 监控
> 
> 
> 
> 各位好!
> 	请教下各位,Flink Job 在生产上运行时,关于job运行状态的监控和告警一般是采用什么方案处理的? 比如监控job是否在正常运行,如果发现job 挂掉了 或者重启了 就进行告警。我这边有将一些metric 推到prometheus 但是好像没有发现关于job是否挂掉的metric。
> 	希望有做过这种方案的朋友能赐教下,谢谢了!!