You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@flink.apache.org by Peihui He <pe...@gmail.com> on 2022/03/31 02:33:18 UTC

flink jdbc source oom

Hi, all

请教下大家，使用flink jdbc 读取tidb中数据时如何在查询的时候能否根据条件在数据库层面做一些过滤呢？
当数据量很大比如几千万上亿的话，flink jdbc source 就很无力了。


Best Regards!

Re: Re: flink jdbc source oom

Posted by r pp <pr...@gmail.com>.

我觉得 流处理中，无论是一个一个处理，还是一批一批处理，强调了 连续性，自定义sql 在连续性的保证上，想到的比较好的方式是自增 id
的方式（这就意味着只接受 insert 操作），而在一批数据中 排序、去重，其实对于整体而言 收效不好说， 除非
每一批数据都严格的分区(如不同日期)，不过过滤是有好处的。

Michael Ran <gr...@163.com> 于2022年4月1日周五 11:00写道：

> 这个当初提过自定义SQL 数据集，但是社区否定了这种做法- -，但是从功能上来说，我们也是实现的自定义SQL结果集，进行join
> 之类的操作，在大数据集，以及一些数据排序、剔除重复等场景有一定优势
> 在 2022-04-01 10:12:55，"Lincoln Lee" <li...@gmail.com> 写道：
> >@Peihui  当前社区的 jdbc table source 实现了这些接口:
> >ScanTableSource,
> >LookupTableSource,
> >SupportsProjectionPushDown,
> >SupportsLimitPushDown
> >
> >其中 lookup table source 用于维表的 kv lookup 查询,  scan table source 支持了
> >projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如
> >filter/aggregate pushdown 满足前置过滤需求
> >
> >
> >Best,
> >Lincoln Lee
> >
> >
> >r pp <pr...@gmail.com> 于2022年3月31日周四 18:40写道：
> >
> >> hi，不是很清楚你的问题~ 你的数据量很大，是多久的一天，还是一秒，source怎么就无力了
> >>
>


-- 
Best，
  pp

Re: Re: flink jdbc source oom

Posted by r pp <pr...@gmail.com>.

我觉得 流处理中，无论是一个一个处理，还是一批一批处理，强调了 连续性，自定义sql 在连续性的保证上，想到的比较好的方式是自增 id
的方式（这就意味着只接受 insert 操作），而在一批数据中 排序、去重，其实对于整体而言 收效不好说， 除非
每一批数据都严格的分区(如不同日期)，不过过滤是有好处的。

Michael Ran <gr...@163.com> 于2022年4月1日周五 11:00写道：

> 这个当初提过自定义SQL 数据集，但是社区否定了这种做法- -，但是从功能上来说，我们也是实现的自定义SQL结果集，进行join
> 之类的操作，在大数据集，以及一些数据排序、剔除重复等场景有一定优势
> 在 2022-04-01 10:12:55，"Lincoln Lee" <li...@gmail.com> 写道：
> >@Peihui  当前社区的 jdbc table source 实现了这些接口:
> >ScanTableSource,
> >LookupTableSource,
> >SupportsProjectionPushDown,
> >SupportsLimitPushDown
> >
> >其中 lookup table source 用于维表的 kv lookup 查询,  scan table source 支持了
> >projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如
> >filter/aggregate pushdown 满足前置过滤需求
> >
> >
> >Best,
> >Lincoln Lee
> >
> >
> >r pp <pr...@gmail.com> 于2022年3月31日周四 18:40写道：
> >
> >> hi，不是很清楚你的问题~ 你的数据量很大，是多久的一天，还是一秒，source怎么就无力了
> >>
>


-- 
Best，
  pp

Re:Re: flink jdbc source oom

Posted by Michael Ran <gr...@163.com>.

这个当初提过自定义SQL 数据集，但是社区否定了这种做法- -，但是从功能上来说，我们也是实现的自定义SQL结果集，进行join 之类的操作，在大数据集，以及一些数据排序、剔除重复等场景有一定优势
在 2022-04-01 10:12:55，"Lincoln Lee" <li...@gmail.com> 写道：
>@Peihui  当前社区的 jdbc table source 实现了这些接口:
>ScanTableSource,
>LookupTableSource,
>SupportsProjectionPushDown,
>SupportsLimitPushDown
>
>其中 lookup table source 用于维表的 kv lookup 查询,  scan table source 支持了
>projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如
>filter/aggregate pushdown 满足前置过滤需求
>
>
>Best,
>Lincoln Lee
>
>
>r pp <pr...@gmail.com> 于2022年3月31日周四 18:40写道：
>
>> hi，不是很清楚你的问题~ 你的数据量很大，是多久的一天，还是一秒，source怎么就无力了
>>

Re: flink jdbc source oom

Posted by Lincoln Lee <li...@gmail.com>.

@Peihui  当前社区的 jdbc table source 实现了这些接口:
ScanTableSource,
LookupTableSource,
SupportsProjectionPushDown,
SupportsLimitPushDown

其中 lookup table source 用于维表的 kv lookup 查询,  scan table source 支持了
projection 和 limit 下推, 如果有需求做其他 pushdown.可以尝试自行扩展 connector 来实现比如
filter/aggregate pushdown 满足前置过滤需求


Best,
Lincoln Lee


r pp <pr...@gmail.com> 于2022年3月31日周四 18:40写道：

> hi，不是很清楚你的问题~ 你的数据量很大，是多久的一天，还是一秒，source怎么就无力了
>

Re: flink jdbc source oom

Posted by r pp <pr...@gmail.com>.

hi，不是很清楚你的问题~ 你的数据量很大，是多久的一天，还是一秒，source怎么就无力了

Re: flink jdbc source oom

Posted by Guo Thompson <gw...@gmail.com>.

难道条件还不会下推么？

Peihui He <pe...@gmail.com> 于2022年3月31日周四 10:33写道：

> Hi, all
>
> 请教下大家，使用flink jdbc 读取tidb中数据时如何在查询的时候能否根据条件在数据库层面做一些过滤呢？
> 当数据量很大比如几千万上亿的话，flink jdbc source 就很无力了。
>
>
> Best Regards!
>