You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by 莫失莫忘 <xi...@qq.com> on 2020/06/22 12:09:11 UTC

flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;

回复: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

Posted by cs <58...@qq.com>.
可以通过以下方法设置从checkpoint恢复失败则启动失败
StreamExecutionEnvironment.getCheckpointConfig().setFailOnCheckpointingErrors(true);
/**
 * Sets the expected behaviour for tasks in case that they encounter an error in their checkpointing procedure.
 * If this is set to true, the task will fail on checkpointing error. If this is set to false, the task will only
 * decline a the checkpoint and continue running. The default is true.
 */
public void setFailOnCheckpointingErrors(boolean failOnCheckpointingErrors) {
   this.failOnCheckpointingErrors = failOnCheckpointingErrors;
}


------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"LakeShen"<shenleifighting@gmail.com&gt;;
发送时间:&nbsp;2020年6月23日(星期二) 晚上7:48
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;Re: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致



Hi ,

正如 Congxian 所说,当 Flink 任务容错恢复重启时,会从上一次成功的 Checkpoint 进行恢复。

所以你所说的 last checkpoint 失败,具体是什么含义呢?

Best,
LakeShen

Congxian Qiu <qcx978132955@gmail.com&gt; 于2020年6月22日周一 下午8:23写道:

&gt; hi
&gt;
&gt; 这里说的 state 不一致是什么意思呢?checkpoint 恢复保证全局的 state 被重置到之前某个成功的 checkpoint。
&gt;
&gt; Best,
&gt; Congxian
&gt;
&gt;
&gt; 莫失莫忘 <xiaoxiong.wei@qq.com&gt; 于2020年6月22日周一 下午8:09写道:
&gt;
&gt; &gt; 如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&amp;nbsp;&amp;nbsp;
&gt;

Re: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

Posted by LakeShen <sh...@gmail.com>.
Hi ,

正如 Congxian 所说,当 Flink 任务容错恢复重启时,会从上一次成功的 Checkpoint 进行恢复。

所以你所说的 last checkpoint 失败,具体是什么含义呢?

Best,
LakeShen

Congxian Qiu <qc...@gmail.com> 于2020年6月22日周一 下午8:23写道:

> hi
>
> 这里说的 state 不一致是什么意思呢?checkpoint 恢复保证全局的 state 被重置到之前某个成功的 checkpoint。
>
> Best,
> Congxian
>
>
> 莫失莫忘 <xi...@qq.com> 于2020年6月22日周一 下午8:09写道:
>
> > 如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;
>

Re: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

Posted by Congxian Qiu <qc...@gmail.com>.
hi

这里说的 state 不一致是什么意思呢?checkpoint 恢复保证全局的 state 被重置到之前某个成功的 checkpoint。

Best,
Congxian


莫失莫忘 <xi...@qq.com> 于2020年6月22日周一 下午8:09写道:

> 如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;

Re:flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

Posted by 程龙 <13...@163.com>.





可以自己改一下源码中的消费者 判断偏移量 ,如果是原先的正常启动 如果不是则不进行启动

在 2020-06-22 20:09:11,"莫失莫忘" <xi...@qq.com> 写道:
>如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;