You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by 悟空 <wu...@foxmail.com> on 2021/10/31 02:13:11 UTC

回复:Re:回复: flink sql消费kafka各分区消息不均衡问题

hi&nbsp;
那你就需要排查下上有写入方是什么策略写入 或者通过Kafka 查看下 每个分区数据量是否明显不均衡。感觉可能和写入方的原因很大



发自我的iPhone


------------------ 原始邮件 ------------------
发件人: casel.chen <casel_chan@126.com&gt;
发送时间: 2021年10月30日 18:19
收件人: user-zh <user-zh@flink.apache.org&gt;
主题: 回复:Re:回复: flink sql消费kafka各分区消息不均衡问题



kafka是作为flink作业source来消费的,作业跑在k8s上以session&nbsp;mode运行,发现有的TM作业特别多,消耗资源也多,而有的TM作业少,占用资源也少。
会不会是这个原因造成kafka不同分区消费能力差异?那些消费慢的task恰好落在比较忙的TM。有什么办法可以让各个TM负载均衡吗?








在&nbsp;2021-10-29&nbsp;17:32:40,"WuKong"&nbsp;<wukong91@foxmail.com&gt;&nbsp;写道:
&gt;Hi&nbsp;casel.chan:
&gt;&nbsp;请问你是sink端数据不均衡还是source端数据不均衡。
&gt;&nbsp;如果是写入端&nbsp;,看看你是否自定义了分区字段,flink&nbsp;默认是策略应该不会造成数据不均衡,但是无法保证&nbsp;分区有序性。同时也可以关注下&nbsp;下游消费者&nbsp;是否会有消费不同分区&nbsp;处理性能不同问题。
&gt;
&gt;
&gt;
&gt;---
&gt;Best,
&gt;WuKong
&gt;&nbsp;
&gt;发件人:&nbsp;casel.chen
&gt;发送时间:&nbsp;2021-10-29&nbsp;09:30
&gt;收件人:&nbsp;user-zh@flink.apache.org
&gt;主题:&nbsp;flink&nbsp;sql消费kafka各分区消息不均衡问题
&gt;flink&nbsp;sql消费kafka消息做数据同步,前期没有出现堆积不均的问题,这两天发现某些kafka分区积压特别多,会是什么原因造成的?怎样解决呢?从统计结果上看,消息还算均匀地打到各个kafka分区上。作业没有开窗和聚合,只是攒一批写一批这样子的。注:作业是跑在k8s上的
&gt;&nbsp;
&gt;&nbsp;
&gt;|&nbsp;分区&nbsp;ID&nbsp;|&nbsp;客户端&nbsp;|&nbsp;最大位点&nbsp;|&nbsp;消费位点&nbsp;|&nbsp;堆积量&nbsp;|
&gt;|&nbsp;0&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,397,108&nbsp;|&nbsp;155,396,747&nbsp;|&nbsp;361&nbsp;|
&gt;|&nbsp;1&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,215,444&nbsp;|&nbsp;155,215,108&nbsp;|&nbsp;336&nbsp;|
&gt;|&nbsp;2&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,369,596&nbsp;|&nbsp;155,369,258&nbsp;|&nbsp;338&nbsp;|
&gt;|&nbsp;3&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,422,750&nbsp;|&nbsp;155,422,337&nbsp;|&nbsp;413&nbsp;|
&gt;|&nbsp;4&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,163,343&nbsp;|&nbsp;154,489,738&nbsp;|&nbsp;673,605&nbsp;|
&gt;|&nbsp;5&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,401,388&nbsp;|&nbsp;154,702,173&nbsp;|&nbsp;699,215&nbsp;|
&gt;|&nbsp;6&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,372,040&nbsp;|&nbsp;154,651,398&nbsp;|&nbsp;720,642&nbsp;|
&gt;|&nbsp;7&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,208,461&nbsp;|&nbsp;154,528,301&nbsp;|&nbsp;680,160&nbsp;|
&gt;|&nbsp;8&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,383,486&nbsp;|&nbsp;154,696,404&nbsp;|&nbsp;687,082&nbsp;|
&gt;|&nbsp;9&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,391,068&nbsp;|&nbsp;154,668,426&nbsp;|&nbsp;722,642&nbsp;|
&gt;|&nbsp;10&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,139,417&nbsp;|&nbsp;154,450,377&nbsp;|&nbsp;689,040&nbsp;|
&gt;|&nbsp;11&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,411,848&nbsp;|&nbsp;155,411,518&nbsp;|&nbsp;330&nbsp;|
&gt;&nbsp;

Re: 回复:Re:回复: flink sql消费kafka各分区消息不均衡问题

Posted by yidan zhao <hi...@gmail.com>.
不清楚你说的“作业”是啥,作业多,作业少,你是多个作业吗?

我感觉你是讲subtask数多少估计,如果TM的压力完全是由于flink导致,那应该就是你slot分配在TM不均衡导致。
考虑设置 cluster.evenly-spread-out-slots: true 试试。

casel.chen <ca...@126.com> 于2021年11月1日周一 上午10:48写道:

> 写入数据看过是均衡的,没有问题。消费端位点差别挺大,积压情况大部分分区都很小,少数个别分区积压很大,达到数十万级别。跟TM负载有关吗?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-10-31 10:13:11,"悟空" <wu...@foxmail.com> 写道:
> >hi&nbsp;
> >那你就需要排查下上有写入方是什么策略写入 或者通过Kafka 查看下 每个分区数据量是否明显不均衡。感觉可能和写入方的原因很大
> >
> >
> >
> >发自我的iPhone
> >
> >
> >------------------ 原始邮件 ------------------
> >发件人: casel.chen <casel_chan@126.com&gt;
> >发送时间: 2021年10月30日 18:19
> >收件人: user-zh <user-zh@flink.apache.org&gt;
> >主题: 回复:Re:回复: flink sql消费kafka各分区消息不均衡问题
> >
> >
> >
>
> >kafka是作为flink作业source来消费的,作业跑在k8s上以session&nbsp;mode运行,发现有的TM作业特别多,消耗资源也多,而有的TM作业少,占用资源也少。
> >会不会是这个原因造成kafka不同分区消费能力差异?那些消费慢的task恰好落在比较忙的TM。有什么办法可以让各个TM负载均衡吗?
> >
> >
> >
> >
> >
> >
> >
> >
> >在&nbsp;2021-10-29&nbsp;17:32:40,"WuKong"&nbsp;<wukong91@foxmail.com
> &gt;&nbsp;写道:
> >&gt;Hi&nbsp;casel.chan:
> >&gt;&nbsp;请问你是sink端数据不均衡还是source端数据不均衡。
>
> >&gt;&nbsp;如果是写入端&nbsp;,看看你是否自定义了分区字段,flink&nbsp;默认是策略应该不会造成数据不均衡,但是无法保证&nbsp;分区有序性。同时也可以关注下&nbsp;下游消费者&nbsp;是否会有消费不同分区&nbsp;处理性能不同问题。
> >&gt;
> >&gt;
> >&gt;
> >&gt;---
> >&gt;Best,
> >&gt;WuKong
> >&gt;&nbsp;
> >&gt;发件人:&nbsp;casel.chen
> >&gt;发送时间:&nbsp;2021-10-29&nbsp;09:30
> >&gt;收件人:&nbsp;user-zh@flink.apache.org
> >&gt;主题:&nbsp;flink&nbsp;sql消费kafka各分区消息不均衡问题
>
> >&gt;flink&nbsp;sql消费kafka消息做数据同步,前期没有出现堆积不均的问题,这两天发现某些kafka分区积压特别多,会是什么原因造成的?怎样解决呢?从统计结果上看,消息还算均匀地打到各个kafka分区上。作业没有开窗和聚合,只是攒一批写一批这样子的。注:作业是跑在k8s上的
> >&gt;&nbsp;
> >&gt;&nbsp;
>
> >&gt;|&nbsp;分区&nbsp;ID&nbsp;|&nbsp;客户端&nbsp;|&nbsp;最大位点&nbsp;|&nbsp;消费位点&nbsp;|&nbsp;堆积量&nbsp;|
>
> >&gt;|&nbsp;0&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,397,108&nbsp;|&nbsp;155,396,747&nbsp;|&nbsp;361&nbsp;|
>
> >&gt;|&nbsp;1&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,215,444&nbsp;|&nbsp;155,215,108&nbsp;|&nbsp;336&nbsp;|
>
> >&gt;|&nbsp;2&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,369,596&nbsp;|&nbsp;155,369,258&nbsp;|&nbsp;338&nbsp;|
>
> >&gt;|&nbsp;3&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,422,750&nbsp;|&nbsp;155,422,337&nbsp;|&nbsp;413&nbsp;|
>
> >&gt;|&nbsp;4&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,163,343&nbsp;|&nbsp;154,489,738&nbsp;|&nbsp;673,605&nbsp;|
>
> >&gt;|&nbsp;5&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,401,388&nbsp;|&nbsp;154,702,173&nbsp;|&nbsp;699,215&nbsp;|
>
> >&gt;|&nbsp;6&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,372,040&nbsp;|&nbsp;154,651,398&nbsp;|&nbsp;720,642&nbsp;|
>
> >&gt;|&nbsp;7&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,208,461&nbsp;|&nbsp;154,528,301&nbsp;|&nbsp;680,160&nbsp;|
>
> >&gt;|&nbsp;8&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,383,486&nbsp;|&nbsp;154,696,404&nbsp;|&nbsp;687,082&nbsp;|
>
> >&gt;|&nbsp;9&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,391,068&nbsp;|&nbsp;154,668,426&nbsp;|&nbsp;722,642&nbsp;|
>
> >&gt;|&nbsp;10&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,139,417&nbsp;|&nbsp;154,450,377&nbsp;|&nbsp;689,040&nbsp;|
>
> >&gt;|&nbsp;11&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,411,848&nbsp;|&nbsp;155,411,518&nbsp;|&nbsp;330&nbsp;|
> >&gt;&nbsp;
>

Re:回复:Re:回复: flink sql消费kafka各分区消息不均衡问题

Posted by "casel.chen" <ca...@126.com>.
写入数据看过是均衡的,没有问题。消费端位点差别挺大,积压情况大部分分区都很小,少数个别分区积压很大,达到数十万级别。跟TM负载有关吗?

















在 2021-10-31 10:13:11,"悟空" <wu...@foxmail.com> 写道:
>hi&nbsp;
>那你就需要排查下上有写入方是什么策略写入 或者通过Kafka 查看下 每个分区数据量是否明显不均衡。感觉可能和写入方的原因很大
>
>
>
>发自我的iPhone
>
>
>------------------ 原始邮件 ------------------
>发件人: casel.chen <casel_chan@126.com&gt;
>发送时间: 2021年10月30日 18:19
>收件人: user-zh <user-zh@flink.apache.org&gt;
>主题: 回复:Re:回复: flink sql消费kafka各分区消息不均衡问题
>
>
>
>kafka是作为flink作业source来消费的,作业跑在k8s上以session&nbsp;mode运行,发现有的TM作业特别多,消耗资源也多,而有的TM作业少,占用资源也少。
>会不会是这个原因造成kafka不同分区消费能力差异?那些消费慢的task恰好落在比较忙的TM。有什么办法可以让各个TM负载均衡吗?
>
>
>
>
>
>
>
>
>在&nbsp;2021-10-29&nbsp;17:32:40,"WuKong"&nbsp;<wukong91@foxmail.com&gt;&nbsp;写道:
>&gt;Hi&nbsp;casel.chan:
>&gt;&nbsp;请问你是sink端数据不均衡还是source端数据不均衡。
>&gt;&nbsp;如果是写入端&nbsp;,看看你是否自定义了分区字段,flink&nbsp;默认是策略应该不会造成数据不均衡,但是无法保证&nbsp;分区有序性。同时也可以关注下&nbsp;下游消费者&nbsp;是否会有消费不同分区&nbsp;处理性能不同问题。
>&gt;
>&gt;
>&gt;
>&gt;---
>&gt;Best,
>&gt;WuKong
>&gt;&nbsp;
>&gt;发件人:&nbsp;casel.chen
>&gt;发送时间:&nbsp;2021-10-29&nbsp;09:30
>&gt;收件人:&nbsp;user-zh@flink.apache.org
>&gt;主题:&nbsp;flink&nbsp;sql消费kafka各分区消息不均衡问题
>&gt;flink&nbsp;sql消费kafka消息做数据同步,前期没有出现堆积不均的问题,这两天发现某些kafka分区积压特别多,会是什么原因造成的?怎样解决呢?从统计结果上看,消息还算均匀地打到各个kafka分区上。作业没有开窗和聚合,只是攒一批写一批这样子的。注:作业是跑在k8s上的
>&gt;&nbsp;
>&gt;&nbsp;
>&gt;|&nbsp;分区&nbsp;ID&nbsp;|&nbsp;客户端&nbsp;|&nbsp;最大位点&nbsp;|&nbsp;消费位点&nbsp;|&nbsp;堆积量&nbsp;|
>&gt;|&nbsp;0&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,397,108&nbsp;|&nbsp;155,396,747&nbsp;|&nbsp;361&nbsp;|
>&gt;|&nbsp;1&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,215,444&nbsp;|&nbsp;155,215,108&nbsp;|&nbsp;336&nbsp;|
>&gt;|&nbsp;2&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,369,596&nbsp;|&nbsp;155,369,258&nbsp;|&nbsp;338&nbsp;|
>&gt;|&nbsp;3&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,422,750&nbsp;|&nbsp;155,422,337&nbsp;|&nbsp;413&nbsp;|
>&gt;|&nbsp;4&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,163,343&nbsp;|&nbsp;154,489,738&nbsp;|&nbsp;673,605&nbsp;|
>&gt;|&nbsp;5&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,401,388&nbsp;|&nbsp;154,702,173&nbsp;|&nbsp;699,215&nbsp;|
>&gt;|&nbsp;6&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,372,040&nbsp;|&nbsp;154,651,398&nbsp;|&nbsp;720,642&nbsp;|
>&gt;|&nbsp;7&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,208,461&nbsp;|&nbsp;154,528,301&nbsp;|&nbsp;680,160&nbsp;|
>&gt;|&nbsp;8&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,383,486&nbsp;|&nbsp;154,696,404&nbsp;|&nbsp;687,082&nbsp;|
>&gt;|&nbsp;9&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,391,068&nbsp;|&nbsp;154,668,426&nbsp;|&nbsp;722,642&nbsp;|
>&gt;|&nbsp;10&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,139,417&nbsp;|&nbsp;154,450,377&nbsp;|&nbsp;689,040&nbsp;|
>&gt;|&nbsp;11&nbsp;|&nbsp;n/a&nbsp;|&nbsp;155,411,848&nbsp;|&nbsp;155,411,518&nbsp;|&nbsp;330&nbsp;|
>&gt;&nbsp;