You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by yidan zhao <hi...@gmail.com> on 2021/06/21 02:38:36 UTC

KafkaSource检查点的end to end duration较长(1min)原因

如题,我任务的检查点(对齐检查点)大多数时间成功,偶现失败。目前针对超时类失败做了分析,存在部分特点,希望大佬们分析下原因。

(1)KafkaSouce的e2e时间达到1min+,正常xxx
ms就结束了。同时对应e2e达到1min+的情况下,sync、async、alignment、start delay等都为0,偶尔几个x
ms的。   这个不是很明白什么情况会是这样呢?

(2)对于部分task,start delay假设为31s,alignment duration为43s,但是processed
data才xxxKB(几十到几百KB)。从我任务的正常处理情况对比来说,这个数据量几乎不需要时间就能处理完。

(3)有个window算子(前边是hash进来,keyBy的),检查点时间1m14s。然后看了下subtask的检查点,大多数都是2s内完成,其中1个subtask耗时1m14s。这个subtask对应的start-delay为1m13s。
 这个就更奇怪了,首先前边是keyBy,所以是hash分区方式进入window算子。那么,对于正常subtask0,其start_delay为1s,那么subtask0收到第一个barrier耗时1s,假设这个barrier来自上游算子的
0 号子任务(preTask0)。那么preTask0既然已经发送了barrier,对于window任务的异常subtask就应该也能很快收到barrier,可是实际却耗时1min14s(start
delay)。

Re: KafkaSource检查点的end to end duration较长(1min)原因

Posted by yidan zhao <hi...@gmail.com>.
存在间断性周期性反压。  因为有window算子,时间窗口触发。

熊云昆 <xi...@163.com> 于2021年6月21日周一 下午11:03写道:
>
> 我觉得问题是不是出在反压上面,你的job是不是有反压?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-06-21 10:38:36,"yidan zhao" <hi...@gmail.com> 写道:
> >如题,我任务的检查点(对齐检查点)大多数时间成功,偶现失败。目前针对超时类失败做了分析,存在部分特点,希望大佬们分析下原因。
> >
> >(1)KafkaSouce的e2e时间达到1min+,正常xxx
> >ms就结束了。同时对应e2e达到1min+的情况下,sync、async、alignment、start delay等都为0,偶尔几个x
> >ms的。   这个不是很明白什么情况会是这样呢?
> >
> >(2)对于部分task,start delay假设为31s,alignment duration为43s,但是processed
> >data才xxxKB(几十到几百KB)。从我任务的正常处理情况对比来说,这个数据量几乎不需要时间就能处理完。
> >
> >(3)有个window算子(前边是hash进来,keyBy的),检查点时间1m14s。然后看了下subtask的检查点,大多数都是2s内完成,其中1个subtask耗时1m14s。这个subtask对应的start-delay为1m13s。
> > 这个就更奇怪了,首先前边是keyBy,所以是hash分区方式进入window算子。那么,对于正常subtask0,其start_delay为1s,那么subtask0收到第一个barrier耗时1s,假设这个barrier来自上游算子的
> >0 号子任务(preTask0)。那么preTask0既然已经发送了barrier,对于window任务的异常subtask就应该也能很快收到barrier,可是实际却耗时1min14s(start
> >delay)。

Re:KafkaSource检查点的end to end duration较长(1min)原因

Posted by 熊云昆 <xi...@163.com>.
我觉得问题是不是出在反压上面,你的job是不是有反压?

















在 2021-06-21 10:38:36,"yidan zhao" <hi...@gmail.com> 写道:
>如题,我任务的检查点(对齐检查点)大多数时间成功,偶现失败。目前针对超时类失败做了分析,存在部分特点,希望大佬们分析下原因。
>
>(1)KafkaSouce的e2e时间达到1min+,正常xxx
>ms就结束了。同时对应e2e达到1min+的情况下,sync、async、alignment、start delay等都为0,偶尔几个x
>ms的。   这个不是很明白什么情况会是这样呢?
>
>(2)对于部分task,start delay假设为31s,alignment duration为43s,但是processed
>data才xxxKB(几十到几百KB)。从我任务的正常处理情况对比来说,这个数据量几乎不需要时间就能处理完。
>
>(3)有个window算子(前边是hash进来,keyBy的),检查点时间1m14s。然后看了下subtask的检查点,大多数都是2s内完成,其中1个subtask耗时1m14s。这个subtask对应的start-delay为1m13s。
> 这个就更奇怪了,首先前边是keyBy,所以是hash分区方式进入window算子。那么,对于正常subtask0,其start_delay为1s,那么subtask0收到第一个barrier耗时1s,假设这个barrier来自上游算子的
>0 号子任务(preTask0)。那么preTask0既然已经发送了barrier,对于window任务的异常subtask就应该也能很快收到barrier,可是实际却耗时1min14s(start
>delay)。