You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@flink.apache.org by Chief <co...@foxmail.com> on 2020/03/25 07:29:53 UTC

回复：关于flink sql 1.10 source并行度自动推断的疑问

hi Kurt Young
hive的数据13万多，然后下午我在web ui 上观察了别的语句的任务执行，发现确实source虽然是150的并行，但执行的时候确实是分批调度的，那为什么会在前十个任务就把数据读完了，如果是你说的这种情况那为什么还要自动推断出这么多的并行任务？我一开始的理解是如果根据文件数量推断source的并行度是不是应该每个任务对应一个文件的读取呢？主要对这不太理解




------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"Kurt Young"<ykt836@gmail.com&gt;;
发送时间:&nbsp;2020年3月25日(星期三) 上午8:52
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;Re: 关于flink sql 1.10 source并行度自动推断的疑问



你的数据量有多大？有一个可能的原因是source的其他并发调度起来的时候，数据已经被先调度起来的并发读完了。

Best,
Kurt


On Tue, Mar 24, 2020 at 10:39 PM Chief <codeegg@foxmail.com&gt; wrote:

&gt; hi all：
&gt; 之前用flink sql查询hive的数据，hive的数据文件是150个，sql
&gt; client配置文件设置的并行度是10，source通过自动推断生成了150并发，但是通过看web
&gt; ui发现只有前十个子任务是读到数据了，其他的任务显示没有读到数据，请问是我设置有问题吗？

回复： 关于flink sql 1.10 source并行度自动推断的疑问

回复：关于flink sql 1.10 source并行度自动推断的疑问