You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by yidan zhao <hi...@gmail.com> on 2021/08/26 02:08:55 UTC

Flink任务假死;无限100%反压;但下游节点无压力。

如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。

语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh

Re: 退订

Posted by Caizhi Weng <ts...@gmail.com>.
Hi!

退订中文邮件列表请发送任意内容的邮件到 user-zh-unsubscribe@flink.apache.org,其他邮件列表退订邮箱参见
https://flink.apache.org/community.html#mailing-lists

Fighting <40...@qq.com.invalid> 于2021年8月26日周四 上午10:11写道:

> 退订
>
>
>
> ---原始邮件---
> 发件人: "yidan zhao"<hinobleyd@gmail.com&gt;
> 发送时间: 2021年8月26日(周四) 上午10:10
> 收件人: "user-zh"<user-zh@flink.apache.org&gt;;
> 主题: Flink任务假死;无限100%反压;但下游节点无压力。
>
>
> 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
>
> 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh

退订

Posted by Fighting <40...@qq.com.INVALID>.
退订



---原始邮件---
发件人: "yidan zhao"<hinobleyd@gmail.com&gt;
发送时间: 2021年8月26日(周四) 上午10:10
收件人: "user-zh"<user-zh@flink.apache.org&gt;;
主题: Flink任务假死;无限100%反压;但下游节点无压力。


如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。

语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh

Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by yidan zhao <hi...@gmail.com>.
可以看yuque里边哈,有DAG的。

JasonLee <17...@163.com> 于2021年8月26日周四 下午1:35写道:

> Hi
>
>
> 可以发一下任务的 DAG 吗
>
>
> Best
> JasonLee
>
>
> 在2021年08月26日 13:09,yidan zhao<hi...@gmail.com> 写道:
> 补充了个附录(https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
> )正常任务和异常任务的window算子的FlameGraph,不清楚是否有参考价值。
>
> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午1:01写道:
>
> 目前来看,我运行6小时,window总计才收到200MB数据,这个数据量级相比我很多小到没有一样。所以很难想象反压的原因是啥究竟。
>
> 目前来看反压节点的outPoolUsage是1,看起来合理,因为处于100%反压。
> 下游节点的inPoolUsage却是0,这个也很奇怪,同时下游buzz和backpress都是0%.
>
>
>
> Shengkai Fang <fs...@gmail.com> 于2021年8月26日周四 下午12:33写道:
>
> - 得看一下具体的卡死的节点的栈,分析下具体的工作任务才知道。
> - 日志中有包含错误的信息吗?
>
> Best,
> Shengkai
>
> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午12:03写道:
>
> 可能存在机器压力倾斜,但是我是不太清楚这种现象的原因,直接停滞了任务?
>
> 东东 <do...@163.com> 于2021年8月26日周四 上午11:06写道:
>
> 建议检查一下是否有数据倾斜
>
>
> 在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
> 问题期间的确ckpt时间较长。
> 但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。
>
> Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:
>
> Hi!
>
> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
>
> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
>
> 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
>
> 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
>
>
>
>
>
>
>

回复: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by JasonLee <17...@163.com>.
Hi


可以发一下任务的 DAG 吗 


Best
JasonLee


在2021年08月26日 13:09,yidan zhao<hi...@gmail.com> 写道:
补充了个附录(https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
)正常任务和异常任务的window算子的FlameGraph,不清楚是否有参考价值。

yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午1:01写道:

目前来看,我运行6小时,window总计才收到200MB数据,这个数据量级相比我很多小到没有一样。所以很难想象反压的原因是啥究竟。

目前来看反压节点的outPoolUsage是1,看起来合理,因为处于100%反压。
下游节点的inPoolUsage却是0,这个也很奇怪,同时下游buzz和backpress都是0%.



Shengkai Fang <fs...@gmail.com> 于2021年8月26日周四 下午12:33写道:

- 得看一下具体的卡死的节点的栈,分析下具体的工作任务才知道。
- 日志中有包含错误的信息吗?

Best,
Shengkai

yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午12:03写道:

可能存在机器压力倾斜,但是我是不太清楚这种现象的原因,直接停滞了任务?

东东 <do...@163.com> 于2021年8月26日周四 上午11:06写道:

建议检查一下是否有数据倾斜


在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
问题期间的确ckpt时间较长。
但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。

Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:

Hi!

从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?

yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:

如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。

语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh







Re: Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by yidan zhao <hi...@gmail.com>.
补充了个附录(https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
)正常任务和异常任务的window算子的FlameGraph,不清楚是否有参考价值。

yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午1:01写道:

> 目前来看,我运行6小时,window总计才收到200MB数据,这个数据量级相比我很多小到没有一样。所以很难想象反压的原因是啥究竟。
>
> 目前来看反压节点的outPoolUsage是1,看起来合理,因为处于100%反压。
> 下游节点的inPoolUsage却是0,这个也很奇怪,同时下游buzz和backpress都是0%.
>
>
>
> Shengkai Fang <fs...@gmail.com> 于2021年8月26日周四 下午12:33写道:
>
>> - 得看一下具体的卡死的节点的栈,分析下具体的工作任务才知道。
>> - 日志中有包含错误的信息吗?
>>
>> Best,
>> Shengkai
>>
>> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午12:03写道:
>>
>> > 可能存在机器压力倾斜,但是我是不太清楚这种现象的原因,直接停滞了任务?
>> >
>> > 东东 <do...@163.com> 于2021年8月26日周四 上午11:06写道:
>> >
>> > > 建议检查一下是否有数据倾斜
>> > >
>> > >
>> > > 在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
>> > > >问题期间的确ckpt时间较长。
>> > > >但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。
>> > > >
>> > > >Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:
>> > > >
>> > > >> Hi!
>> > > >>
>> > > >> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
>> > > >>
>> > > >> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
>> > > >>
>> > > >> > 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
>> > > >> >
>> > > >> > 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
>> > > >> >
>> > > >>
>> > >
>> >
>>
>

Re: Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by yidan zhao <hi...@gmail.com>.
目前来看,我运行6小时,window总计才收到200MB数据,这个数据量级相比我很多小到没有一样。所以很难想象反压的原因是啥究竟。

目前来看反压节点的outPoolUsage是1,看起来合理,因为处于100%反压。
下游节点的inPoolUsage却是0,这个也很奇怪,同时下游buzz和backpress都是0%.



Shengkai Fang <fs...@gmail.com> 于2021年8月26日周四 下午12:33写道:

> - 得看一下具体的卡死的节点的栈,分析下具体的工作任务才知道。
> - 日志中有包含错误的信息吗?
>
> Best,
> Shengkai
>
> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午12:03写道:
>
> > 可能存在机器压力倾斜,但是我是不太清楚这种现象的原因,直接停滞了任务?
> >
> > 东东 <do...@163.com> 于2021年8月26日周四 上午11:06写道:
> >
> > > 建议检查一下是否有数据倾斜
> > >
> > >
> > > 在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
> > > >问题期间的确ckpt时间较长。
> > > >但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。
> > > >
> > > >Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:
> > > >
> > > >> Hi!
> > > >>
> > > >> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
> > > >>
> > > >> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
> > > >>
> > > >> > 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
> > > >> >
> > > >> > 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
> > > >> >
> > > >>
> > >
> >
>

Re: Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by Shengkai Fang <fs...@gmail.com>.
- 得看一下具体的卡死的节点的栈,分析下具体的工作任务才知道。
- 日志中有包含错误的信息吗?

Best,
Shengkai

yidan zhao <hi...@gmail.com> 于2021年8月26日周四 下午12:03写道:

> 可能存在机器压力倾斜,但是我是不太清楚这种现象的原因,直接停滞了任务?
>
> 东东 <do...@163.com> 于2021年8月26日周四 上午11:06写道:
>
> > 建议检查一下是否有数据倾斜
> >
> >
> > 在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
> > >问题期间的确ckpt时间较长。
> > >但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。
> > >
> > >Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:
> > >
> > >> Hi!
> > >>
> > >> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
> > >>
> > >> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
> > >>
> > >> > 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
> > >> >
> > >> > 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
> > >> >
> > >>
> >
>

Re: Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by yidan zhao <hi...@gmail.com>.
可能存在机器压力倾斜,但是我是不太清楚这种现象的原因,直接停滞了任务?

东东 <do...@163.com> 于2021年8月26日周四 上午11:06写道:

> 建议检查一下是否有数据倾斜
>
>
> 在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
> >问题期间的确ckpt时间较长。
> >但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。
> >
> >Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:
> >
> >> Hi!
> >>
> >> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
> >>
> >> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
> >>
> >> > 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
> >> >
> >> > 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
> >> >
> >>
>

Re:Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by 东东 <do...@163.com>.
建议检查一下是否有数据倾斜


在 2021-08-26 10:22:54,"yidan zhao" <hi...@gmail.com> 写道:
>问题期间的确ckpt时间较长。
>但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。
>
>Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:
>
>> Hi!
>>
>> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
>>
>> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
>>
>> > 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
>> >
>> > 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
>> >
>>

Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by yidan zhao <hi...@gmail.com>.
问题期间的确ckpt时间较长。
但是,这个任务正常ckpt时间才不到1s,ckpt大小也就21MB,所以也很难说ckpt为啥会超时,我超时设置的2min。

Caizhi Weng <ts...@gmail.com> 于2021年8月26日周四 上午10:20写道:

> Hi!
>
> 从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?
>
> yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:
>
> > 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
> >
> > 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
> >
>

Re: Flink任务假死;无限100%反压;但下游节点无压力。

Posted by Caizhi Weng <ts...@gmail.com>.
Hi!

从图中情况来看很可能是因为下游 checkpoint 时间过长导致反压上游。是否观察过 checkpoint 的情况?

yidan zhao <hi...@gmail.com> 于2021年8月26日周四 上午10:09写道:

> 如题,这个问题以前遇到过,后来发生频率低了,近期又多了几次,下面是具体的话题讨论,email不方便贴图。
>
> 语雀:https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
>