You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by lvwenyuan <lv...@163.com> on 2019/09/04 06:28:35 UTC

关于Flink SQL DISTINCT问题

各位大佬好:
       我想问下,关于flink sql的实时去重,就是count(distinct user_id) 。就是Flink内部是如何做到实时去重,如果对于数据量比较大的时候实时去重,是否会有性能问题。用的Blink Planner

Re: 回复: 关于Flink SQL DISTINCT问题

Posted by LakeShen <sh...@gmail.com>.
是否可以使用 空闲状态 Retention Time 来设置

JingsongLee <lz...@aliyun.com.invalid> 于2019年9月4日周三 下午6:12写道:

>  一般是按时间(比如天)来group by,state配置了超时过期的时间。
> 基本的去重方式就是靠state(比如RocksDbState)。
>  有mini-batch来减少 对state的访问。
>
> 如果有倾斜,那是解倾斜问题的话题了。
>
> Best,
> Jingsong Lee
>
>
> ------------------------------------------------------------------
> From:lvwenyuan <lv...@163.com>
> Send Time:2019年9月4日(星期三) 15:11
> To:user-zh <us...@flink.apache.org>
> Subject:Re:回复: 关于Flink SQL DISTINCT问题
>
> 对,肯定是按照窗口去重的。我就想问下,窗口去重时,所采用的方式
> 在 2019-09-04 14:38:29,"athlon512@gmail.com" <at...@gmail.com> 写道:
> >在窗口内去重吧,不可能无限保留去重数据的
> >
> >
> >
> >athlon512@gmail.com
> >
> >发件人: lvwenyuan
> >发送时间: 2019-09-04 14:28
> >收件人: user-zh
> >主题: 关于Flink SQL DISTINCT问题
> >各位大佬好:
> >       我想问下,关于flink sql的实时去重,就是count(distinct user_id)
> 。就是Flink内部是如何做到实时去重,如果对于数据量比较大的时候实时去重,是否会有性能问题。用的Blink Planner
>

Re: 回复: 关于Flink SQL DISTINCT问题

Posted by JingsongLee <lz...@aliyun.com.INVALID>.
一般是按时间(比如天)来group by,state配置了超时过期的时间。
基本的去重方式就是靠state(比如RocksDbState)。
有mini-batch来减少对state的访问。

如果有倾斜,那是解倾斜问题的话题了。

Best,
Jingsong Lee


------------------------------------------------------------------
From:lvwenyuan <lv...@163.com>
Send Time:2019年9月4日(星期三) 15:11
To:user-zh <us...@flink.apache.org>
Subject:Re:回复: 关于Flink SQL DISTINCT问题

对,肯定是按照窗口去重的。我就想问下,窗口去重时,所采用的方式
在 2019-09-04 14:38:29,"athlon512@gmail.com" <at...@gmail.com> 写道:
>在窗口内去重吧,不可能无限保留去重数据的
>
>
>
>athlon512@gmail.com
> 
>发件人: lvwenyuan
>发送时间: 2019-09-04 14:28
>收件人: user-zh
>主题: 关于Flink SQL DISTINCT问题
>各位大佬好:
>       我想问下,关于flink sql的实时去重,就是count(distinct user_id) 。就是Flink内部是如何做到实时去重,如果对于数据量比较大的时候实时去重,是否会有性能问题。用的Blink Planner

Re:回复: 关于Flink SQL DISTINCT问题

Posted by lvwenyuan <lv...@163.com>.
对,肯定是按照窗口去重的。我就想问下,窗口去重时,所采用的方式
在 2019-09-04 14:38:29,"athlon512@gmail.com" <at...@gmail.com> 写道:
>在窗口内去重吧,不可能无限保留去重数据的
>
>
>
>athlon512@gmail.com
> 
>发件人: lvwenyuan
>发送时间: 2019-09-04 14:28
>收件人: user-zh
>主题: 关于Flink SQL DISTINCT问题
>各位大佬好:
>       我想问下,关于flink sql的实时去重,就是count(distinct user_id) 。就是Flink内部是如何做到实时去重,如果对于数据量比较大的时候实时去重,是否会有性能问题。用的Blink Planner

回复: 关于Flink SQL DISTINCT问题

Posted by "athlon512@gmail.com" <at...@gmail.com>.
在窗口内去重吧,不可能无限保留去重数据的



athlon512@gmail.com
 
发件人: lvwenyuan
发送时间: 2019-09-04 14:28
收件人: user-zh
主题: 关于Flink SQL DISTINCT问题
各位大佬好:
       我想问下,关于flink sql的实时去重,就是count(distinct user_id) 。就是Flink内部是如何做到实时去重,如果对于数据量比较大的时候实时去重,是否会有性能问题。用的Blink Planner