You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by hdxg1101300123 <hd...@163.com> on 2020/11/12 12:07:01 UTC

回复: Flink与Yarn的状态一致性问题

可以设置检查点失败任务也失败



发自vivo智能手机
> hi everyone,
>
> 最近在使用Flink-1.11.1 On Yarn Per Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn application仍处于运行状态
>
> 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
>
> best,
> amenhub

Re:Re: Re: Flink与Yarn的状态一致性问题

Posted by kingdomad <ki...@163.com>.
这个问题我也遇到过。
1.11版本,提交任务如果没加-d参数,flink程序挂掉了,但是yarn的application还一直是running状态,就相当于一个常驻的yarn session。
加上-d的话才能把flink程序和yarn application的生命周期捆绑到一起。




--

kingdomad







在 2020-11-13 11:16:02,"amenhub@163.com" <am...@163.com> 写道:
>>>>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。
>按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running..
>
>>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?
>这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1
>
>昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-job模式下Flink web ui状态为Failed的时候,实时反馈Failed状态给Yarn,从而解决Yarn仍为Running的问题,
>也提到说Flink-1.10及以后的Per-job模式是YarnJobClusterEntrypoint,这个确实没错,但是我面临的问题仍然和Flink-1.10以前的问题一致,
>就是Flink web ui观察任务已经Fail掉了,但Yarn application仍然在Running
>
>另外,发现Flink web ui观察任务如果是Finished的话,也会处于Running,这个算属于正常吗?(以上描述的作业都是Streaming job)
>
>best,
>amenhub
>
>
> 
>发件人: tison
>发送时间: 2020-11-13 11:01
>收件人: user-zh
>主题: Re: Flink与Yarn的状态一致性问题
>PerJob 模式下,在作业完全挂掉之后,是会上报 YARN RM 应用自己失败的状态的。
> 
>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。
> 
>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?
> 
>Best,
>tison.
> 
> 
>zhisheng <zh...@gmail.com> 于2020年11月12日周四 下午8:17写道:
> 
>> 同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态
>>
>> hdxg1101300123 <hd...@163.com> 于2020年11月12日周四 下午8:07写道:
>>
>> > 可以设置检查点失败任务也失败
>> >
>> >
>> >
>> > 发自vivo智能手机
>> > > hi everyone,
>> > >
>> > > 最近在使用Flink-1.11.1 On Yarn Per
>> > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
>> > application仍处于运行状态
>> > >
>> > > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
>> > >
>> > > best,
>> > > amenhub
>>

Re: Re: Flink与Yarn的状态一致性问题

Posted by "amenhub@163.com" <am...@163.com>.
>>>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。
按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running..

>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?
这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1

昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-job模式下Flink web ui状态为Failed的时候,实时反馈Failed状态给Yarn,从而解决Yarn仍为Running的问题,
也提到说Flink-1.10及以后的Per-job模式是YarnJobClusterEntrypoint,这个确实没错,但是我面临的问题仍然和Flink-1.10以前的问题一致,
就是Flink web ui观察任务已经Fail掉了,但Yarn application仍然在Running

另外,发现Flink web ui观察任务如果是Finished的话,也会处于Running,这个算属于正常吗?(以上描述的作业都是Streaming job)

best,
amenhub


 
发件人: tison
发送时间: 2020-11-13 11:01
收件人: user-zh
主题: Re: Flink与Yarn的状态一致性问题
PerJob 模式下,在作业完全挂掉之后,是会上报 YARN RM 应用自己失败的状态的。
 
当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。
 
你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?
 
Best,
tison.
 
 
zhisheng <zh...@gmail.com> 于2020年11月12日周四 下午8:17写道:
 
> 同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态
>
> hdxg1101300123 <hd...@163.com> 于2020年11月12日周四 下午8:07写道:
>
> > 可以设置检查点失败任务也失败
> >
> >
> >
> > 发自vivo智能手机
> > > hi everyone,
> > >
> > > 最近在使用Flink-1.11.1 On Yarn Per
> > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
> > application仍处于运行状态
> > >
> > > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
> > >
> > > best,
> > > amenhub
>

Re: Flink与Yarn的状态一致性问题

Posted by tison <wa...@gmail.com>.
PerJob 模式下,在作业完全挂掉之后,是会上报 YARN RM 应用自己失败的状态的。

当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。

你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢?

Best,
tison.


zhisheng <zh...@gmail.com> 于2020年11月12日周四 下午8:17写道:

> 同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态
>
> hdxg1101300123 <hd...@163.com> 于2020年11月12日周四 下午8:07写道:
>
> > 可以设置检查点失败任务也失败
> >
> >
> >
> > 发自vivo智能手机
> > > hi everyone,
> > >
> > > 最近在使用Flink-1.11.1 On Yarn Per
> > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
> > application仍处于运行状态
> > >
> > > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
> > >
> > > best,
> > > amenhub
>

Re: Flink与Yarn的状态一致性问题

Posted by zhisheng <zh...@gmail.com>.
同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态

hdxg1101300123 <hd...@163.com> 于2020年11月12日周四 下午8:07写道:

> 可以设置检查点失败任务也失败
>
>
>
> 发自vivo智能手机
> > hi everyone,
> >
> > 最近在使用Flink-1.11.1 On Yarn Per
> Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn
> application仍处于运行状态
> >
> > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢
> >
> > best,
> > amenhub