You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@flink.apache.org by yidan zhao <hi...@gmail.com> on 2022/12/06 11:18:18 UTC

1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

如题，这个问题长期存在，我想了解几个点：
（1）connection time out
是连接时才会报的错误嘛？作业正常运行期间可能有嘛？我理解是连接时的报错，但是我看部分报错是作业运行不少时间才报错的（比如40分钟，1小时多），这种时刻为什么会有
connect 操作呢？netty的connection不是在作业启动时，就发 partition request 的时候创建好的嘛。
（2）之前调整过 netty 的 server 的 backlog，目前设置2048，不应该是这个导致。
（3）之前我TM都是1个slot，netty的server thread默认就是1，后来设置成2，我考虑是不是因为netty server
thread太少导致来不及处理连接？所以出现 connection timeout？但是我加大了server thread
到10还是没啥效果。而且也不至于，理论上netty server thread应该仅负责创建连接，都不负责具体的io，不应该是这个原因。

大佬们，有人知道这个问题出现的场景嘛？就是啥情况会出现，是不是只有创建连接时存在 connection
timeout的概念呢？其次flink作业运行期间，除了作业启动后的一小段时间外，什么情况还需要建立 netty 连接呢？
不考虑再提交作业，因为我的TM只有1个slot，而且这个集群只运行1个作业。

Re: 1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Posted by yidan zhao <hi...@gmail.com>.

目前感觉和 https://issues.apache.org/jira/browse/FLINK-19249 和
https://issues.apache.org/jira/browse/FLINK-16030
有点类似。网络环境不稳定。相同配置在物理机没问题。

yidan zhao <hi...@gmail.com> 于2022年12月7日周三 16:11写道：
>
> 谢谢，不过这几个参数和netty关系不大吧。
> heartbeat和akka的可能会和rpc超时有关，不过我这个是netty的报错，不是rpc部分。
> web和rest应该是和client提交任务有关。
>
> Stan1005 <53...@qq.com.invalid> 于2022年12月7日周三 15:51写道：
> >
> > 我也遇到过，tm的slot数一直是2，并行度高了就很容易出这个报错。tm内存保持为20480mb，相同的job讲并行度降低到256就没有报过这个。
> > 另外可以考虑适当增加这几个参数（具体需要改动哪些建议先搜下这些参数的作用）
> > set rest.connection-timeout=1800000;
> > set rest.idleness-timeout=1800000;
> > set heartbeat.timeout=1800000;
> > set akka.ask.timeout=1800000;
> > set web.timeout=1800000;
> >
> >
> >
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:                                                                                                                        "user-zh"                                                                                    <hinobleyd@gmail.com&gt;;
> > 发送时间:&nbsp;2022年12月6日(星期二) 晚上7:18
> > 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
> >
> > 主题:&nbsp;1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .
> >
> >
> >
> > 如题，这个问题长期存在，我想了解几个点：
> > （1）connection time out
> > 是连接时才会报的错误嘛？作业正常运行期间可能有嘛？我理解是连接时的报错，但是我看部分报错是作业运行不少时间才报错的（比如40分钟，1小时多），这种时刻为什么会有
> > connect 操作呢？netty的connection不是在作业启动时，就发 partition request 的时候创建好的嘛。
> > （2）之前调整过 netty 的 server 的 backlog，目前设置2048，不应该是这个导致。
> > （3）之前我TM都是1个slot，netty的server thread默认就是1，后来设置成2，我考虑是不是因为netty server
> > thread太少导致来不及处理连接？所以出现 connection timeout？但是我加大了server thread
> > 到10还是没啥效果。而且也不至于，理论上netty server thread应该仅负责创建连接，都不负责具体的io，不应该是这个原因。
> >
> > 大佬们，有人知道这个问题出现的场景嘛？就是啥情况会出现，是不是只有创建连接时存在 connection
> > timeout的概念呢？其次flink作业运行期间，除了作业启动后的一小段时间外，什么情况还需要建立 netty 连接呢？
> > 不考虑再提交作业，因为我的TM只有1个slot，而且这个集群只运行1个作业。

Re: 1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Posted by yidan zhao <hi...@gmail.com>.

谢谢，不过这几个参数和netty关系不大吧。
heartbeat和akka的可能会和rpc超时有关，不过我这个是netty的报错，不是rpc部分。
web和rest应该是和client提交任务有关。

Stan1005 <53...@qq.com.invalid> 于2022年12月7日周三 15:51写道：
>
> 我也遇到过，tm的slot数一直是2，并行度高了就很容易出这个报错。tm内存保持为20480mb，相同的job讲并行度降低到256就没有报过这个。
> 另外可以考虑适当增加这几个参数（具体需要改动哪些建议先搜下这些参数的作用）
> set rest.connection-timeout=1800000;
> set rest.idleness-timeout=1800000;
> set heartbeat.timeout=1800000;
> set akka.ask.timeout=1800000;
> set web.timeout=1800000;
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:                                                                                                                        "user-zh"                                                                                    <hinobleyd@gmail.com&gt;;
> 发送时间:&nbsp;2022年12月6日(星期二) 晚上7:18
> 收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;
>
> 主题:&nbsp;1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .
>
>
>
> 如题，这个问题长期存在，我想了解几个点：
> （1）connection time out
> 是连接时才会报的错误嘛？作业正常运行期间可能有嘛？我理解是连接时的报错，但是我看部分报错是作业运行不少时间才报错的（比如40分钟，1小时多），这种时刻为什么会有
> connect 操作呢？netty的connection不是在作业启动时，就发 partition request 的时候创建好的嘛。
> （2）之前调整过 netty 的 server 的 backlog，目前设置2048，不应该是这个导致。
> （3）之前我TM都是1个slot，netty的server thread默认就是1，后来设置成2，我考虑是不是因为netty server
> thread太少导致来不及处理连接？所以出现 connection timeout？但是我加大了server thread
> 到10还是没啥效果。而且也不至于，理论上netty server thread应该仅负责创建连接，都不负责具体的io，不应该是这个原因。
>
> 大佬们，有人知道这个问题出现的场景嘛？就是啥情况会出现，是不是只有创建连接时存在 connection
> timeout的概念呢？其次flink作业运行期间，除了作业启动后的一小段时间外，什么情况还需要建立 netty 连接呢？
> 不考虑再提交作业，因为我的TM只有1个slot，而且这个集群只运行1个作业。

回复：1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Posted by Stan1005 <53...@qq.com.INVALID>.

我也遇到过，tm的slot数一直是2，并行度高了就很容易出这个报错。tm内存保持为20480mb，相同的job讲并行度降低到256就没有报过这个。
另外可以考虑适当增加这几个参数（具体需要改动哪些建议先搜下这些参数的作用）
set rest.connection-timeout=1800000;
set rest.idleness-timeout=1800000;
set heartbeat.timeout=1800000;
set akka.ask.timeout=1800000;
set web.timeout=1800000;



------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <hinobleyd@gmail.com&gt;;
发送时间:&nbsp;2022年12月6日(星期二) 晚上7:18
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .



如题，这个问题长期存在，我想了解几个点：
（1）connection time out
是连接时才会报的错误嘛？作业正常运行期间可能有嘛？我理解是连接时的报错，但是我看部分报错是作业运行不少时间才报错的（比如40分钟，1小时多），这种时刻为什么会有
connect 操作呢？netty的connection不是在作业启动时，就发 partition request 的时候创建好的嘛。
（2）之前调整过 netty 的 server 的 backlog，目前设置2048，不应该是这个导致。
（3）之前我TM都是1个slot，netty的server thread默认就是1，后来设置成2，我考虑是不是因为netty server
thread太少导致来不及处理连接？所以出现 connection timeout？但是我加大了server thread
到10还是没啥效果。而且也不至于，理论上netty server thread应该仅负责创建连接，都不负责具体的io，不应该是这个原因。

大佬们，有人知道这个问题出现的场景嘛？就是啥情况会出现，是不是只有创建连接时存在 connection
timeout的概念呢？其次flink作业运行期间，除了作业启动后的一小段时间外，什么情况还需要建立 netty 连接呢？
不考虑再提交作业，因为我的TM只有1个slot，而且这个集群只运行1个作业。

1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Re: 1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Re: 1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

回复：1.15.2作业频繁（每 几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Re: 1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

Re: 1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .

回复：1.15.2作业频繁（每几十分钟 ~ 1小时）报 LocalTransportException: readAddress(..) failed: Connection timed out .