You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by Fei Han <ha...@aliyun.com.INVALID> on 2020/04/07 04:02:24 UTC

第一次统计信息延迟

Hi all :
 kafka 第一次发送统计信息延迟。如果从kafka发送一条消息,第一次的count统计,每次都是在发送第二条消息的时候,才会统计出来。正常情况下,应该是发送一条统计一条,现在的情况是发送第二条消息的时候,才会统计出第一条消息的。
代码如下:
select terminal_only_no,count(distinct(certificate_no)) OVER(PARTITION BY terminal_only_no ORDER BY event_time RANGE BETWEEN INTERVAL '10' MINUTE preceding AND CURRENT ROW) as login_frequency from TradeFlow

请大佬们帮忙看下,谢谢  

Re: 第一次统计信息延迟

Posted by Benchao Li <li...@gmail.com>.
这个应该是因为watermark的原因吧。比如你的watermark生成策略是不是固定的delay的方式?

Fei Han <ha...@aliyun.com.invalid> 于2020年4月7日周二 下午12:02写道:

>
> Hi all :
>  kafka
> 第一次发送统计信息延迟。如果从kafka发送一条消息,第一次的count统计,每次都是在发送第二条消息的时候,才会统计出来。正常情况下,应该是发送一条统计一条,现在的情况是发送第二条消息的时候,才会统计出第一条消息的。
> 代码如下:
> select terminal_only_no,count(distinct(certificate_no)) OVER(PARTITION BY
> terminal_only_no ORDER BY event_time RANGE BETWEEN INTERVAL '10' MINUTE
> preceding AND CURRENT ROW) as login_frequency from TradeFlow
>
> 请大佬们帮忙看下,谢谢
>


-- 

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenchao@gmail.com; libenchao@pku.edu.cn