You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@flink.apache.org by Num <18...@163.com> on 2021/06/08 13:08:20 UTC

FlinkSQL over PARTITION BY窗口不同并行度计算结果不同


大家好，我kafka中有一批数据，我在统计每个元素30分钟的count值时，发现当我设置不同并行度时，统计结果也不一样，请问应该以什么思路排查比较好


SELECT
    user,
    price,  
    count(id) OVER (
        PARTITION BY user 
        ORDER BY actionTime 
        RANGE BETWEEN INTERVAL '30' MINUTE preceding AND CURRENT ROW) AS c
  FROM kafkaTable;


当并行度等于分区数据，统计结果是最准确的
其次StreamTableEnvironmentAPI中table.exec.source.idle-timeout参数好像不生效？


版本：flink1.11.1


谢谢

Re: FlinkSQL over PARTITION BY窗口不同并行度计算结果不同

Posted by Lin Li <li...@gmail.com>.

你好， 方便提供下完整的 sql 和配置？ 另外可以用 1.13 新版本测试看下

18814118038 <18...@163.com> 于2021年6月9日周三 上午8:57写道：

> 有没有大佬指点下，谢谢
>
> ---- 回复的原邮件 ----
> | 发件人 | Num<18...@163.com> |
> | 发送日期 | 2021年06月08日 21:08 |
> | 收件人 | user-zh <us...@flink.apache.org> |
> | 主题 | FlinkSQL over PARTITION BY窗口不同并行度计算结果不同 |
>
>
> 大家好，我kafka中有一批数据，我在统计每个元素30分钟的count值时，发现当我设置不同并行度时，统计结果也不一样，请问应该以什么思路排查比较好
>
>
> SELECT
>    user,
>    price,
>    count(id) OVER (
>        PARTITION BY user
>        ORDER BY actionTime
>        RANGE BETWEEN INTERVAL '30' MINUTE preceding AND CURRENT ROW) AS c
>  FROM kafkaTable;
>
>
> 当并行度等于分区数据，统计结果是最准确的
> 其次StreamTableEnvironmentAPI中table.exec.source.idle-timeout参数好像不生效？
>
>
> 版本：flink1.11.1
>
>
> 谢谢
>
>

回复：FlinkSQL over PARTITION BY窗口不同并行度计算结果不同

Posted by 18814118038 <18...@163.com>.

有没有大佬指点下，谢谢

---- 回复的原邮件 ----
| 发件人 | Num<18...@163.com> |
| 发送日期 | 2021年06月08日 21:08 |
| 收件人 | user-zh <us...@flink.apache.org> |
| 主题 | FlinkSQL over PARTITION BY窗口不同并行度计算结果不同 |


大家好，我kafka中有一批数据，我在统计每个元素30分钟的count值时，发现当我设置不同并行度时，统计结果也不一样，请问应该以什么思路排查比较好


SELECT
   user,
   price,  
   count(id) OVER (
       PARTITION BY user
       ORDER BY actionTime
       RANGE BETWEEN INTERVAL '30' MINUTE preceding AND CURRENT ROW) AS c
 FROM kafkaTable;


当并行度等于分区数据，统计结果是最准确的
其次StreamTableEnvironmentAPI中table.exec.source.idle-timeout参数好像不生效？


版本：flink1.11.1


谢谢