You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by Chief <co...@foxmail.com> on 2020/03/25 07:29:53 UTC

回复: 关于flink sql 1.10 source并行度自动推断的疑问

hi Kurt Young
hive的数据13万多,然后下午我在web ui 上观察了别的语句的任务执行,发现确实source虽然是150的并行,但执行的时候确实是分批调度的,那为什么会在前十个任务就把数据读完了,如果是你说的这种情况那为什么还要自动推断出这么多的并行任务?我一开始的理解是如果根据文件数量推断source的并行度是不是应该每个任务对应一个文件的读取呢?主要对这不太理解




------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"Kurt Young"<ykt836@gmail.com&gt;;
发送时间:&nbsp;2020年3月25日(星期三) 上午8:52
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;Re: 关于flink sql 1.10 source并行度自动推断的疑问



你的数据量有多大?有一个可能的原因是source的其他并发调度起来的时候,数据已经被先调度起来的并发读完了。

Best,
Kurt


On Tue, Mar 24, 2020 at 10:39 PM Chief <codeegg@foxmail.com&gt; wrote:

&gt; hi all:
&gt; 之前用flink sql查询hive的数据,hive的数据文件是150个,sql
&gt; client配置文件设置的并行度是10,source通过自动推断生成了150并发,但是通过看web
&gt; ui发现只有前十个子任务是读到数据了,其他的任务显示没有读到数据,请问是我设置有问题吗?