You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by "casel.chen" <ca...@126.com> on 2022/09/30 05:50:56 UTC

如何实现flink作业失败实时通知告警?

当flink作业失败时如何第一时间发通知告警到相关方?现有方式
方式一:flink作业本身提供的rest api需要client不断去请求,不是实时不说还浪费资源,而且受网络抖动影响有时候还会超时获取不到,但不代表作业有问题。
方式二:通过作业暴露指标给promemtheus,因为prometheus是周期性(10s~20s) 来pull指标的,所以也达不到实时性要求。


flink作业能否在failure之前调用某个hook去通知相关方呢?如果要自己改的话,是要动哪个类呢?谢谢!

Re:如何实现flink作业失败实时通知告警?

Posted by RS <ti...@163.com>.
Hi,
个人推荐方式二,
1. 部分场景下,有些异常可以自动恢复,任务异常会自动重启,继续运行
2. 告警通知到介入处理,如果是人来介入处理的话,20s通常时间不是问题,到分钟级都可以
3. failure之前调用某个hook去通知相关方,应该是要修改jobmanager的代码,具体就要请教大佬们了。


在 2022-09-30 13:50:56,"casel.chen" <ca...@126.com> 写道:
>当flink作业失败时如何第一时间发通知告警到相关方?现有方式
>方式一:flink作业本身提供的rest api需要client不断去请求,不是实时不说还浪费资源,而且受网络抖动影响有时候还会超时获取不到,但不代表作业有问题。
>方式二:通过作业暴露指标给promemtheus,因为prometheus是周期性(10s~20s) 来pull指标的,所以也达不到实时性要求。
>
>
>flink作业能否在failure之前调用某个hook去通知相关方呢?如果要自己改的话,是要动哪个类呢?谢谢!