You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by naisili Yuan <yu...@gmail.com> on 2019/05/07 04:02:04 UTC

Re: taskmanager faild

好吧,这次我就不贴图了,我想问个问题,就是在使用flink stanalone的过程中,我的集群很不稳定,经常跑一个晚上出现task
manager进程挂掉的问题,看日志是heartbeat timeout。
我修改了配置如下,还是有问题,想请教下有没有什么解决办法。
taskmanager.heap.size: 100gb
taskmanager.memory.off-heap: true
taskmanager.memory.preallocate: true
taskmanager.memory.size: 32gb

taskmanager.network.memory.min: 1gb
taskmanager.network.memory.max: 8gb
taskmanager.network.memory.buffers-per-channel: 8

taskmanager.jvm-exit-on-oom: true


Yangze Guo <ka...@gmail.com> 于2019年4月26日周五 下午2:14写道:

> Hi,
>
> 目前apache邮件列表不支持附件[1]
> 可将问题提至jira[2]或提供图片链接
>
> [1] https://commons.apache.org/mail-lists.html
> [2] https://issues.apache.org/jira/projects/FLINK/summary
>
> Best,
> Yangze Guo
>
> Best,
> Yangze Guo
>
>
> On Fri, Apr 26, 2019 at 11:01 AM Xintong Song <to...@gmail.com>
> wrote:
> >
> > hi naisili,
> >
> > 我没有在你的邮件里看到任何附件、截图或者文字描述的错误,麻烦你再确认一次。
> >
> > Thank you~
> >
> > Xintong Song
> >
> >
> >
> > On Fri, Apr 26, 2019 at 10:46 AM naisili Yuan <yu...@gmail.com>
> > wrote:
> >
> > > 还是集群稳定性问题,发现了这个错误,我想问下是不是我配置集群高可用的问题,是否不依赖zookeeper会更稳定一点。
> > > 希望得到回复,谢谢!
> > >
> > > naisili Yuan <yu...@gmail.com> 于2019年4月22日周一 下午2:23写道:
> > >
> > >> 不好意思,我忘记贴图了。
> > >> 我的flink standalone集群挂了,查看日志,看到截图上的错误
> > >> 我自己分析不明白,谷歌也查不到对应的问题。希望能得到你们的帮助,谢谢!
> > >>
> > >> 问题描述:我正在运行任务的flink集群跑了两天后挂掉了,原因是所有taskmanager进程全部挂了,只有一个jobmanager还在。
> > >>
> > >>
> 集群环境:5台centos7的机器,32核,256GB内存,2个jobmanager,5个taskmanager,每台机器32个slots。jobmanager使用zookeeper做了高可用。
> > >> 初步分析原因:zookeeper的问题
> > >> 另外:不小心把日志清理了,没法粘贴文字了~
> > >>
> > >> Xintong Song <to...@gmail.com> 于2019年4月22日周一 下午1:27写道:
> > >>
> > >>> Hi naisili,
> > >>>
> > >>> This is the user-zh mailing list, so if you speak Chinese you can ask
> > >>> questions in Chinese. If you prefer using English, you can send
> emails to
> > >>> user@flink.apache.org. Hope that helps you.
> > >>>
> > >>> BTW, I think you forgot to attache the screenshot.
> > >>>
> > >>> Thank you~
> > >>>
> > >>> Xintong Song
> > >>>
> > >>>
> > >>>
> > >>> On Mon, Apr 22, 2019 at 10:53 AM naisili Yuan <
> yuanlong1990@gmail.com>
> > >>> wrote:
> > >>>
> > >>> > I use standalone cluster on flink, and i use zookeeper for the
> > >>> jobmanager
> > >>> > HA.
> > >>> > The Screenshot is my taskmanager proccess down log, falte a error.
> > >>> > And is don't know why it failed, even i google the error.
> > >>> > Ask for help, thanks.
> > >>> >
> > >>> >
> > >>> >
> > >>>
> > >>
>

RE: taskmanager faild

Posted by Shi Quan <qu...@outlook.com>.
你好,



除了taskmanager的内存和网络,还可以关注jobmanager的GC等信息。



另外,之前有在想这个问题:Jm和Tm之间采用租约机制是不是更好?在高负载情况下,适当加长租约。



石权





________________________________
From: naisili Yuan <yu...@gmail.com>
Sent: Tuesday, May 7, 2019 12:02:04 PM
To: user-zh@flink.apache.org
Subject: Re: taskmanager faild

好吧,这次我就不贴图了,我想问个问题,就是在使用flink stanalone的过程中,我的集群很不稳定,经常跑一个晚上出现task
manager进程挂掉的问题,看日志是heartbeat timeout。
我修改了配置如下,还是有问题,想请教下有没有什么解决办法。
taskmanager.heap.size: 100gb
taskmanager.memory.off-heap: true
taskmanager.memory.preallocate: true
taskmanager.memory.size: 32gb

taskmanager.network.memory.min: 1gb
taskmanager.network.memory.max: 8gb
taskmanager.network.memory.buffers-per-channel: 8

taskmanager.jvm-exit-on-oom: true


Yangze Guo <ka...@gmail.com> 于2019年4月26日周五 下午2:14写道:

> Hi,
>
> 目前apache邮件列表不支持附件[1]
> 可将问题提至jira[2]或提供图片链接
>
> [1] https://commons.apache.org/mail-lists.html
> [2] https://issues.apache.org/jira/projects/FLINK/summary
>
> Best,
> Yangze Guo
>
> Best,
> Yangze Guo
>
>
> On Fri, Apr 26, 2019 at 11:01 AM Xintong Song <to...@gmail.com>
> wrote:
> >
> > hi naisili,
> >
> > 我没有在你的邮件里看到任何附件、截图或者文字描述的错误,麻烦你再确认一次。
> >
> > Thank you~
> >
> > Xintong Song
> >
> >
> >
> > On Fri, Apr 26, 2019 at 10:46 AM naisili Yuan <yu...@gmail.com>
> > wrote:
> >
> > > 还是集群稳定性问题,发现了这个错误,我想问下是不是我配置集群高可用的问题,是否不依赖zookeeper会更稳定一点。
> > > 希望得到回复,谢谢!
> > >
> > > naisili Yuan <yu...@gmail.com> 于2019年4月22日周一 下午2:23写道:
> > >
> > >> 不好意思,我忘记贴图了。
> > >> 我的flink standalone集群挂了,查看日志,看到截图上的错误
> > >> 我自己分析不明白,谷歌也查不到对应的问题。希望能得到你们的帮助,谢谢!
> > >>
> > >> 问题描述:我正在运行任务的flink集群跑了两天后挂掉了,原因是所有taskmanager进程全部挂了,只有一个jobmanager还在。
> > >>
> > >>
> 集群环境:5台centos7的机器,32核,256GB内存,2个jobmanager,5个taskmanager,每台机器32个slots。jobmanager使用zookeeper做了高可用。
> > >> 初步分析原因:zookeeper的问题
> > >> 另外:不小心把日志清理了,没法粘贴文字了~
> > >>
> > >> Xintong Song <to...@gmail.com> 于2019年4月22日周一 下午1:27写道:
> > >>
> > >>> Hi naisili,
> > >>>
> > >>> This is the user-zh mailing list, so if you speak Chinese you can ask
> > >>> questions in Chinese. If you prefer using English, you can send
> emails to
> > >>> user@flink.apache.org. Hope that helps you.
> > >>>
> > >>> BTW, I think you forgot to attache the screenshot.
> > >>>
> > >>> Thank you~
> > >>>
> > >>> Xintong Song
> > >>>
> > >>>
> > >>>
> > >>> On Mon, Apr 22, 2019 at 10:53 AM naisili Yuan <
> yuanlong1990@gmail.com>
> > >>> wrote:
> > >>>
> > >>> > I use standalone cluster on flink, and i use zookeeper for the
> > >>> jobmanager
> > >>> > HA.
> > >>> > The Screenshot is my taskmanager proccess down log, falte a error.
> > >>> > And is don't know why it failed, even i google the error.
> > >>> > Ask for help, thanks.
> > >>> >
> > >>> >
> > >>> >
> > >>>
> > >>
>