You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by yihan xu <x2...@yahoo.com.INVALID> on 2021/07/21 03:32:31 UTC

请教on yarn per job 作业采集日志进行监控方案

原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。
网上初步搜了一下,好像就是prometheus+grafana或者elk。

请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。

发自我的iPhone


发自我的iPhone

Re: 请教on yarn per job 作业采集日志进行监控方案

Posted by cyril cui <cw...@gmail.com>.
source和sink端监控 input/output qps波动,效果还可以,方案也比较成熟

yihan xu <x2...@yahoo.com.invalid> 于2021年7月21日周三 下午12:48写道:

> 原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。
> 网上初步搜了一下,好像就是prometheus+grafana或者elk。
>
> 请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。
>
> 发自我的iPhone
>
>
> 发自我的iPhone

回复:请教on yarn per job 作业采集日志进行监控方案

Posted by comsir <60...@qq.com.INVALID>.
直接配置influxdb reporter,用gafana大盘展示,非常方便一台机器即可。




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <x2009438@yahoo.com.INVALID&gt;;
发送时间:&nbsp;2021年7月21日(星期三) 中午11:32
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;请教on yarn per job 作业采集日志进行监控方案



原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。
网上初步搜了一下,好像就是prometheus+grafana或者elk。

请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。

发自我的iPhone


发自我的iPhone

Re:请教on yarn per job 作业采集日志进行监控方案

Posted by Michael Ran <gr...@163.com>.
简单的可以先监控任务状态,重启次数这种,消息延迟等这种能直接api拿到值的, 其他指标的比较麻烦,特别是task多了,算子多,还要合并
在 2021-07-21 11:32:31,"yihan xu" <x2...@yahoo.com.INVALID> 写道:
>原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。
>网上初步搜了一下,好像就是prometheus+grafana或者elk。
>
>请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。
>
>发自我的iPhone
>
>
>发自我的iPhone