You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by "guoxb__123@sina.com" <gu...@sina.com> on 2021/01/21 03:39:12 UTC

flink heartbeat timeout

Hi

问题描述:
 我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,查看日志,报错如下:
    
    从报错上来看是由于超时时间引起的,查看资料,是需要调整该参数参数:heartbeat.timeout,官网文档支出默认值是50000,但是这样以来的话,就需要重启flink服务了,这在我们生产上是不允许的。

问题:
    1、该错误的原因目前只是经过猜测,还没有确定具体的问题,希望有经验的朋友指点一二,万分感谢
    2、如果我真的需要设置heartbeat.timeout这个参数的话,如何在不通过重启flink集群的方式来实现,万分感谢
说明:
    我的flink版本是:1.11.0


guoxb__123@sina.com

Re: flink heartbeat timeout

Posted by Xintong Song <to...@gmail.com>.
1. 50s 的 timeout 时间通常应该是够用的。建议排查一下 timeout 当时环境中是否存在网络抖动,或者 JM/TM 进程是否存在长时间
GC 导致不响应。
2. 目前 flink 集群配置无法做到不重启热更新

Thank you~

Xintong Song



On Thu, Jan 21, 2021 at 11:39 AM guoxb__123@sina.com <gu...@sina.com>
wrote:

> Hi
>
> *问题描述:*
>
>  我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,查看日志,报错如下:
>
>     从报错上来看是由于超时时间引起的,查看资料,是需要调整该参数参数:
> heartbeat.timeout,官网文档支出默认值是50000,但是这样以来的话,就需要重启flink服务了,这在我们生产上是不允许的。
>
> *问题:*
>     1、该错误的原因目前只是经过猜测,还没有确定具体的问题,希望有经验的朋友指点一二,万分感谢
>     2、如果我真的需要设置heartbeat.timeout这个参数的话,如何在不通过重启flink集群的方式来实现,万分感谢
> 说明:
>     我的flink版本是:1.11.0
> ------------------------------
> guoxb__123@sina.com
>