You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by Chief <co...@foxmail.com> on 2020/03/25 07:29:53 UTC
回复: 关于flink sql 1.10 source并行度自动推断的疑问
hi Kurt Young
hive的数据13万多,然后下午我在web ui 上观察了别的语句的任务执行,发现确实source虽然是150的并行,但执行的时候确实是分批调度的,那为什么会在前十个任务就把数据读完了,如果是你说的这种情况那为什么还要自动推断出这么多的并行任务?我一开始的理解是如果根据文件数量推断source的并行度是不是应该每个任务对应一个文件的读取呢?主要对这不太理解
------------------ 原始邮件 ------------------
发件人: "Kurt Young"<ykt836@gmail.com>;
发送时间: 2020年3月25日(星期三) 上午8:52
收件人: "user-zh"<user-zh@flink.apache.org>;
主题: Re: 关于flink sql 1.10 source并行度自动推断的疑问
你的数据量有多大?有一个可能的原因是source的其他并发调度起来的时候,数据已经被先调度起来的并发读完了。
Best,
Kurt
On Tue, Mar 24, 2020 at 10:39 PM Chief <codeegg@foxmail.com> wrote:
> hi all:
> 之前用flink sql查询hive的数据,hive的数据文件是150个,sql
> client配置文件设置的并行度是10,source通过自动推断生成了150并发,但是通过看web
> ui发现只有前十个子任务是读到数据了,其他的任务显示没有读到数据,请问是我设置有问题吗?