You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@flink.apache.org by Tony <zt...@126.com> on 2020/06/22 02:54:09 UTC

flink 高可用问题

你好。


我按着官方文档配置了flink的高可用（flink-conf.yaml）如下：
high-availability:zookeeper
high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
high-availability.zookeeper.path.root:/flink 
high-availability.cluster-id:/cluster_one 
highavailability.storageDir:hdfs://master:9000/flink/ha


我的flink和zookeeper都是在K8s的容器中
job启动出现如下问题：麻烦帮忙看一下，谢谢。
2020-06-22 02:47:43,884 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print to Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> filter -> Data Transformation -> Filter) (1/1) of job 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED instead. Aborting checkpoint.

Re: Re: flink 高可用问题

Posted by LakeShen <sh...@gmail.com>.

Hi, Tony,

看了一下，你运行在 k8s 上面的任务，job id 是00000000000000000000000000000000，那如果有多个任务，jobid
如果都是 00000000000000000000000000000000
的话，如果都是在相同的ZK根目录，不同 k8s 任务 在 zk 上面的信息可能会有影响。目前我们这边是每个k8s 任务，在不同的 zk 路径下面。

第二点的话，你的任务是否能够正常运行起来？还是说任务正常运行起来，只是 checkpoint 有问题。

目前 k8s 上，JobManager 的高可用我们也借助 ZK，由于 JobManager 是一个 K8s Job,所以配置 K8s Job
的 restartPolicy 为 OnFailure。

这只是我的一些经验，仅供参考。

Best,
LakeShen

zhisheng <zh...@gmail.com> 于2020年6月30日周二 上午8:51写道：

> hi，Tony
>
> 你可以把 Checkpoint 间隔时间稍微设置大一些，看起来像是作业启动的时候 Task 还没 Running，就开始执行 Checkpoint
> 了，而 Checkpoint 是要求所有的 Task 是处于 Running 状态的，所以就会丢弃掉那次
> Checkpoint，BT，就算有这个异常应该问题也不大，只要后面你的作业全启动成功了的话，则 Checkpoint 还是会成功的。
>
> Best！
>
> zhisheng
>
> Tony <zt...@126.com> 于2020年6月29日周一 下午8:16写道：
>
> >
> >
> 你好，我的flink运行环境是在k8s中，我先是打开了checkpoint功能，那样是可以用的，task失败了数据还可以恢复，但job失败了就不行了，所以我又配置flink的高可用，在job的yaml文件里设置了动态属性（"-Dhigh-availability=zookeeper"），这样job启动时就出现那种警告，功能也不好用了。但如果配置在flink-config文件里的话就可以，不知道为什么？而我就是想用那个动态属性的方式，谢谢大神指点。
> >
> >
> >
> >
> >
> > --
> > 发自我的网易邮箱手机智能版
> > <br/><br/><br/>
> >
> >
> > ----- Original Message -----
> > From: tison <wa...@gmail.com>
> > To: user-zh <us...@flink.apache.org>
> > Sent: Mon, 22 Jun 2020 15:08:04 +0800
> > Subject: Re: flink 高可用问题
> >
> > 你看一下你的 chk 间隔，看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足，调度不起来或者调度得慢，你 chk
> > 间隔又小，就这样了。
> >
> > 如果是一直 chk 以这个方式失败，应该看下调度的日志为啥迟迟调不起来
> >
> > Best,
> > tison.
> >
> >
> > Yichao Yang <10...@qq.com> 于2020年6月22日周一 上午10:57写道：
> >
> > > Hi
> > >
> > >
> > > 看日志应该只是INFO，而不是错误，你的job是做不了checkpoint吗？
> > >
> > >
> > > Best,
> > > Yichao Yang
> > >
> > >
> > >
> > >
> > > ------------------&nbsp;原始邮件&nbsp;------------------
> > > 发件人:&nbsp;"Tony"<ztg25@126.com&gt;;
> > > 发送时间:&nbsp;2020年6月22日(星期一) 上午10:54
> > > 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
> > >
> > > 主题:&nbsp;flink 高可用问题
> > >
> > >
> > >
> > > 你好。
> > >
> > >
> > > 我按着官方文档配置了flink的高可用（flink-conf.yaml）如下：
> > > high-availability:zookeeper
> > > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
> > > high-availability.zookeeper.path.root:/flink
> > > high-availability.cluster-id:/cluster_one
> > > highavailability.storageDir:hdfs://master:9000/flink/ha
> > >
> > >
> > > 我的flink和zookeeper都是在K8s的容器中
> > > job启动出现如下问题：麻烦帮忙看一下，谢谢。
> > > 2020-06-22 02:47:43,884 INFO&nbsp;
> > >
> >
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator&nbsp;&nbsp;&nbsp;&nbsp;
> > > - Checkpoint triggering task Source:Kafka-Consumer -&gt; (Sink: Print
> to
> > > Std. Out, Filter -&gt;Query Map -&gt; Unwind -&gt; Custom Map -&gt;
> > filter
> > > -&gt; Data Transformation -&gt; Filter) (1/1) of job
> > > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED
> > > instead. Aborting checkpoint.
> >
>

Re: Re: flink 高可用问题

Posted by zhisheng <zh...@gmail.com>.

hi，Tony

你可以把 Checkpoint 间隔时间稍微设置大一些，看起来像是作业启动的时候 Task 还没 Running，就开始执行 Checkpoint
了，而 Checkpoint 是要求所有的 Task 是处于 Running 状态的，所以就会丢弃掉那次
Checkpoint，BT，就算有这个异常应该问题也不大，只要后面你的作业全启动成功了的话，则 Checkpoint 还是会成功的。

Best！

zhisheng

Tony <zt...@126.com> 于2020年6月29日周一 下午8:16写道：

>
> 你好，我的flink运行环境是在k8s中，我先是打开了checkpoint功能，那样是可以用的，task失败了数据还可以恢复，但job失败了就不行了，所以我又配置flink的高可用，在job的yaml文件里设置了动态属性（"-Dhigh-availability=zookeeper"），这样job启动时就出现那种警告，功能也不好用了。但如果配置在flink-config文件里的话就可以，不知道为什么？而我就是想用那个动态属性的方式，谢谢大神指点。
>
>
>
>
>
> --
> 发自我的网易邮箱手机智能版
> <br/><br/><br/>
>
>
> ----- Original Message -----
> From: tison <wa...@gmail.com>
> To: user-zh <us...@flink.apache.org>
> Sent: Mon, 22 Jun 2020 15:08:04 +0800
> Subject: Re: flink 高可用问题
>
> 你看一下你的 chk 间隔，看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足，调度不起来或者调度得慢，你 chk
> 间隔又小，就这样了。
>
> 如果是一直 chk 以这个方式失败，应该看下调度的日志为啥迟迟调不起来
>
> Best,
> tison.
>
>
> Yichao Yang <10...@qq.com> 于2020年6月22日周一 上午10:57写道：
>
> > Hi
> >
> >
> > 看日志应该只是INFO，而不是错误，你的job是做不了checkpoint吗？
> >
> >
> > Best,
> > Yichao Yang
> >
> >
> >
> >
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:&nbsp;"Tony"<ztg25@126.com&gt;;
> > 发送时间:&nbsp;2020年6月22日(星期一) 上午10:54
> > 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
> >
> > 主题:&nbsp;flink 高可用问题
> >
> >
> >
> > 你好。
> >
> >
> > 我按着官方文档配置了flink的高可用（flink-conf.yaml）如下：
> > high-availability:zookeeper
> > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
> > high-availability.zookeeper.path.root:/flink
> > high-availability.cluster-id:/cluster_one
> > highavailability.storageDir:hdfs://master:9000/flink/ha
> >
> >
> > 我的flink和zookeeper都是在K8s的容器中
> > job启动出现如下问题：麻烦帮忙看一下，谢谢。
> > 2020-06-22 02:47:43,884 INFO&nbsp;
> >
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator&nbsp;&nbsp;&nbsp;&nbsp;
> > - Checkpoint triggering task Source:Kafka-Consumer -&gt; (Sink: Print to
> > Std. Out, Filter -&gt;Query Map -&gt; Unwind -&gt; Custom Map -&gt;
> filter
> > -&gt; Data Transformation -&gt; Filter) (1/1) of job
> > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED
> > instead. Aborting checkpoint.
>

Re:Re: flink 高可用问题

Posted by Tony <zt...@126.com>.

你好，我的flink运行环境是在k8s中，我先是打开了checkpoint功能，那样是可以用的，task失败了数据还可以恢复，但job失败了就不行了，所以我又配置flink的高可用，在job的yaml文件里设置了动态属性（"-Dhigh-availability=zookeeper"），这样job启动时就出现那种警告，功能也不好用了。但如果配置在flink-config文件里的话就可以，不知道为什么？而我就是想用那个动态属性的方式，谢谢大神指点。





--
发自我的网易邮箱手机智能版
<br/><br/><br/>


----- Original Message -----
From: tison <wa...@gmail.com>
To: user-zh <us...@flink.apache.org>
Sent: Mon, 22 Jun 2020 15:08:04 +0800
Subject: Re: flink 高可用问题

你看一下你的 chk 间隔，看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足，调度不起来或者调度得慢，你 chk 间隔又小，就这样了。

如果是一直 chk 以这个方式失败，应该看下调度的日志为啥迟迟调不起来

Best,
tison.


Yichao Yang <10...@qq.com> 于2020年6月22日周一 上午10:57写道：

> Hi
>
>
> 看日志应该只是INFO，而不是错误，你的job是做不了checkpoint吗？
>
>
> Best,
> Yichao Yang
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:&nbsp;"Tony"<ztg25@126.com&gt;;
> 发送时间:&nbsp;2020年6月22日(星期一) 上午10:54
> 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
>
> 主题:&nbsp;flink 高可用问题
>
>
>
> 你好。
>
>
> 我按着官方文档配置了flink的高可用（flink-conf.yaml）如下：
> high-availability:zookeeper
> high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
> high-availability.zookeeper.path.root:/flink
> high-availability.cluster-id:/cluster_one
> highavailability.storageDir:hdfs://master:9000/flink/ha
>
>
> 我的flink和zookeeper都是在K8s的容器中
> job启动出现如下问题：麻烦帮忙看一下，谢谢。
> 2020-06-22 02:47:43,884 INFO&nbsp;
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator&nbsp;&nbsp;&nbsp;&nbsp;
> - Checkpoint triggering task Source:Kafka-Consumer -&gt; (Sink: Print to
> Std. Out, Filter -&gt;Query Map -&gt; Unwind -&gt; Custom Map -&gt; filter
> -&gt; Data Transformation -&gt; Filter) (1/1) of job
> 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED
> instead. Aborting checkpoint.

Re: flink 高可用问题

Posted by tison <wa...@gmail.com>.

你看一下你的 chk 间隔，看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足，调度不起来或者调度得慢，你 chk 间隔又小，就这样了。

如果是一直 chk 以这个方式失败，应该看下调度的日志为啥迟迟调不起来

Best,
tison.


Yichao Yang <10...@qq.com> 于2020年6月22日周一 上午10:57写道：

> Hi
>
>
> 看日志应该只是INFO，而不是错误，你的job是做不了checkpoint吗？
>
>
> Best,
> Yichao Yang
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:&nbsp;"Tony"<ztg25@126.com&gt;;
> 发送时间:&nbsp;2020年6月22日(星期一) 上午10:54
> 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
>
> 主题:&nbsp;flink 高可用问题
>
>
>
> 你好。
>
>
> 我按着官方文档配置了flink的高可用（flink-conf.yaml）如下：
> high-availability:zookeeper
> high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
> high-availability.zookeeper.path.root:/flink
> high-availability.cluster-id:/cluster_one
> highavailability.storageDir:hdfs://master:9000/flink/ha
>
>
> 我的flink和zookeeper都是在K8s的容器中
> job启动出现如下问题：麻烦帮忙看一下，谢谢。
> 2020-06-22 02:47:43,884 INFO&nbsp;
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator&nbsp;&nbsp;&nbsp;&nbsp;
> - Checkpoint triggering task Source:Kafka-Consumer -&gt; (Sink: Print to
> Std. Out, Filter -&gt;Query Map -&gt; Unwind -&gt; Custom Map -&gt; filter
> -&gt; Data Transformation -&gt; Filter) (1/1) of job
> 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED
> instead. Aborting checkpoint.

回复：flink 高可用问题

Posted by Yichao Yang <10...@qq.com>.

Hi


看日志应该只是INFO，而不是错误，你的job是做不了checkpoint吗？


Best,
Yichao Yang




------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"Tony"<ztg25@126.com&gt;;
发送时间:&nbsp;2020年6月22日(星期一) 上午10:54
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;flink 高可用问题



你好。


我按着官方文档配置了flink的高可用（flink-conf.yaml）如下：
high-availability:zookeeper
high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
high-availability.zookeeper.path.root:/flink 
high-availability.cluster-id:/cluster_one 
highavailability.storageDir:hdfs://master:9000/flink/ha


我的flink和zookeeper都是在K8s的容器中
job启动出现如下问题：麻烦帮忙看一下，谢谢。
2020-06-22 02:47:43,884 INFO&nbsp; org.apache.flink.runtime.checkpoint.CheckpointCoordinator&nbsp;&nbsp;&nbsp;&nbsp; - Checkpoint triggering task Source:Kafka-Consumer -&gt; (Sink: Print to Std. Out, Filter -&gt;Query Map -&gt; Unwind -&gt; Custom Map -&gt; filter -&gt; Data Transformation -&gt; Filter) (1/1) of job 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED instead. Aborting checkpoint.