You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by "zhangzq@eastcom-sw.com" <zh...@eastcom-sw.com> on 2023/04/03 02:07:42 UTC

PartitionNotFoundException

    hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition *** not found.] 
    然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费

    在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?

Re: Re: PartitionNotFoundException

Posted by "zhangzq@eastcom-sw.com" <zh...@eastcom-sw.com>.
    看过日志 是正常刷着 然后就直接抛出这个PartitionNotFoundException后 就一直重启循环PartitionNotFoundException
 
From: Shammon FY
Date: 2023-04-03 10:43
To: user-zh
Subject: Re: PartitionNotFoundException
Hi
 
出现PartitionNotFoundException通常是指定task的上游有subtask失败了,你可以查看一下上游subtask有没有错误日志,根据错误日志查看具体原因
 
Best,
Shammon FY
 
On Mon, Apr 3, 2023 at 10:08 AM zhangzq@eastcom-sw.com <
zhangzq@eastcom-sw.com> wrote:
 
>
>     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
> Partition *** not found.]
>     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
>
>     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?
>

Re: PartitionNotFoundException

Posted by Shammon FY <zj...@gmail.com>.
Hi

出现PartitionNotFoundException通常是指定task的上游有subtask失败了,你可以查看一下上游subtask有没有错误日志,根据错误日志查看具体原因

Best,
Shammon FY

On Mon, Apr 3, 2023 at 10:08 AM zhangzq@eastcom-sw.com <
zhangzq@eastcom-sw.com> wrote:

>
>     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
> Partition *** not found.]
>     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
>
>     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?
>

Re: Re: PartitionNotFoundException

Posted by "zhangzq@eastcom-sw.com" <zh...@eastcom-sw.com>.
    好像发不了附件,有找到的异常是另一个小的job写入有问题,一直在重启 
    
    PartitionNotFoundException 的job在开始【Attempting to cancel task】重启了几次后,启动完几十秒后就重复抛出 PartitionNotFoundException  后就一直循环重启

    这会是另一个异常job影响到的? 

 
From: Weihua Hu
Date: 2023-04-10 10:34
To: user-zh
Subject: Re: Re: PartitionNotFoundException
Hi,
 
可以提供下 JobManager 和相关 TaskManager 的日志吗?
 
一般来说 PartitionNotFoundException 只在作业启动建立链接的时候才会出现,
根据你的描述,应该是一个消费 Kafka 的流式任务,不太应该在运行一周后
出现 PartitionNotFoundException
 
可以检查下是否存在其他异常
 
Best,
Weihua
 
 
On Mon, Apr 10, 2023 at 9:51 AM zhangzq@eastcom-sw.com <
zhangzq@eastcom-sw.com> wrote:
 
> taskmanager.network.tcp-connection.enable-reuse-across-jobs: false
> taskmanager.network.max-num-tcp-connections: 4
>
> 这两参数已经调整了的,connections  之前只是由1改为2   但运行一周后又出现了 PartitionNotFoundException
>
>
>
> From: Shammon FY
> Date: 2023-04-10 09:46
> To: user-zh
> Subject: Re: Re: PartitionNotFoundException
> 像上面提到的,流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs:
> false,一般作业影响不会有影响
>
> Best,
> Shammon FY
>
> On Mon, Apr 10, 2023 at 9:27 AM zhangzq@eastcom-sw.com <
> zhangzq@eastcom-sw.com> wrote:
>
> > hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]...
> >
> > taskmanager.network.max-num-tcp-connections  只是调整为2,可能是太小了 今天我改为4 再看看
> > 或者 将flink版本升级到 1.17 是否可修复该问题?
> >
> > From: yidan zhao
> > Date: 2023-04-03 10:45
> > To: user-zh
> > Subject: Re: PartitionNotFoundException
> > 设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
> > false,设置 taskmanager.network.max-num-tcp-connections 大点。
> > 之前有个bug导致这个问题我记得,不知道1.16修复没有。
> >
> > zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
> > >
> > >
> > >     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io
> .network.partition.PartitionNotFoundException:
> > Partition *** not found.]
> > >     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
> > >
> > >     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?
> >
>

Re: Re: PartitionNotFoundException

Posted by Weihua Hu <hu...@gmail.com>.
Hi,

可以提供下 JobManager 和相关 TaskManager 的日志吗?

一般来说 PartitionNotFoundException 只在作业启动建立链接的时候才会出现,
根据你的描述,应该是一个消费 Kafka 的流式任务,不太应该在运行一周后
出现 PartitionNotFoundException

可以检查下是否存在其他异常

Best,
Weihua


On Mon, Apr 10, 2023 at 9:51 AM zhangzq@eastcom-sw.com <
zhangzq@eastcom-sw.com> wrote:

> taskmanager.network.tcp-connection.enable-reuse-across-jobs: false
> taskmanager.network.max-num-tcp-connections: 4
>
> 这两参数已经调整了的,connections  之前只是由1改为2   但运行一周后又出现了 PartitionNotFoundException
>
>
>
> From: Shammon FY
> Date: 2023-04-10 09:46
> To: user-zh
> Subject: Re: Re: PartitionNotFoundException
> 像上面提到的,流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs:
> false,一般作业影响不会有影响
>
> Best,
> Shammon FY
>
> On Mon, Apr 10, 2023 at 9:27 AM zhangzq@eastcom-sw.com <
> zhangzq@eastcom-sw.com> wrote:
>
> > hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]...
> >
> > taskmanager.network.max-num-tcp-connections  只是调整为2,可能是太小了 今天我改为4 再看看
> > 或者 将flink版本升级到 1.17 是否可修复该问题?
> >
> > From: yidan zhao
> > Date: 2023-04-03 10:45
> > To: user-zh
> > Subject: Re: PartitionNotFoundException
> > 设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
> > false,设置 taskmanager.network.max-num-tcp-connections 大点。
> > 之前有个bug导致这个问题我记得,不知道1.16修复没有。
> >
> > zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
> > >
> > >
> > >     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io
> .network.partition.PartitionNotFoundException:
> > Partition *** not found.]
> > >     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
> > >
> > >     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?
> >
>

Re: Re: PartitionNotFoundException

Posted by "zhangzq@eastcom-sw.com" <zh...@eastcom-sw.com>.
taskmanager.network.tcp-connection.enable-reuse-across-jobs: false
taskmanager.network.max-num-tcp-connections: 4

这两参数已经调整了的,connections  之前只是由1改为2   但运行一周后又出现了 PartitionNotFoundException 


 
From: Shammon FY
Date: 2023-04-10 09:46
To: user-zh
Subject: Re: Re: PartitionNotFoundException
像上面提到的,流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs:
false,一般作业影响不会有影响
 
Best,
Shammon FY
 
On Mon, Apr 10, 2023 at 9:27 AM zhangzq@eastcom-sw.com <
zhangzq@eastcom-sw.com> wrote:
 
> hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]...
>
> taskmanager.network.max-num-tcp-connections  只是调整为2,可能是太小了 今天我改为4 再看看
> 或者 将flink版本升级到 1.17 是否可修复该问题?
>
> From: yidan zhao
> Date: 2023-04-03 10:45
> To: user-zh
> Subject: Re: PartitionNotFoundException
> 设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
> false,设置 taskmanager.network.max-num-tcp-connections 大点。
> 之前有个bug导致这个问题我记得,不知道1.16修复没有。
>
> zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
> >
> >
> >     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
> Partition *** not found.]
> >     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
> >
> >     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?
>

Re: Re: PartitionNotFoundException

Posted by Shammon FY <zj...@gmail.com>.
像上面提到的,流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs:
false,一般作业影响不会有影响

Best,
Shammon FY

On Mon, Apr 10, 2023 at 9:27 AM zhangzq@eastcom-sw.com <
zhangzq@eastcom-sw.com> wrote:

> hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]...
>
> taskmanager.network.max-num-tcp-connections  只是调整为2,可能是太小了 今天我改为4 再看看
> 或者 将flink版本升级到 1.17 是否可修复该问题?
>
> From: yidan zhao
> Date: 2023-04-03 10:45
> To: user-zh
> Subject: Re: PartitionNotFoundException
> 设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
> false,设置 taskmanager.network.max-num-tcp-connections 大点。
> 之前有个bug导致这个问题我记得,不知道1.16修复没有。
>
> zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
> >
> >
> >     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
> Partition *** not found.]
> >     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
> >
> >     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?
>

Re: Re: PartitionNotFoundException

Posted by "zhangzq@eastcom-sw.com" <zh...@eastcom-sw.com>.
hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]...

taskmanager.network.max-num-tcp-connections  只是调整为2,可能是太小了 今天我改为4 再看看
或者 将flink版本升级到 1.17 是否可修复该问题?
 
From: yidan zhao
Date: 2023-04-03 10:45
To: user-zh
Subject: Re: PartitionNotFoundException
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
false,设置 taskmanager.network.max-num-tcp-connections 大点。
之前有个bug导致这个问题我记得,不知道1.16修复没有。
 
zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
>
>
>     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition *** not found.]
>     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
>
>     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?

Re: Re: PartitionNotFoundException

Posted by "zhangzq@eastcom-sw.com" <zh...@eastcom-sw.com>.
   好的,我尝试修改看看,感谢~
 
From: yidan zhao
Date: 2023-04-03 10:45
To: user-zh
Subject: Re: PartitionNotFoundException
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
false,设置 taskmanager.network.max-num-tcp-connections 大点。
之前有个bug导致这个问题我记得,不知道1.16修复没有。
 
zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
>
>
>     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition *** not found.]
>     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
>
>     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?

Re: PartitionNotFoundException

Posted by yidan zhao <hi...@gmail.com>.
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为
false,设置 taskmanager.network.max-num-tcp-connections 大点。
之前有个bug导致这个问题我记得,不知道1.16修复没有。

zhangzq@eastcom-sw.com <zh...@eastcom-sw.com> 于2023年4月3日周一 10:08写道:
>
>
>     hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 [org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition *** not found.]
>     然后不停自动重启job再继续抛出该异常后 不断重启,直到手动cancel任务后 再启动才恢复正常消费
>
>     在1.14集群中从未出现的问题,升到1.16后才出现,请问是否有配置可以优化或避免该异常?