You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by 浪人 <15...@qq.com> on 2019/02/21 08:34:53 UTC

回复:数据量问题

像这种需求,推荐使用continuesTrigger或是使用更加底层API processfunction去处理,不要使用常规的滑动窗口去操作,性能低,资源消耗大。




------------------ 原始邮件 ------------------
发件人: "cousin-gmail"<a7...@gmail.com>;
发送时间: 2019年2月21日(星期四) 下午4:31
收件人: "user-zh"<us...@flink.apache.org>;

主题: 数据量问题



         嘿,各位,我想问问,如果一天1.5亿数据量的记录,要查询最近一小时内的
聚集数量,那么,有什么比较好的方案?如果是用1小时窗口,10秒滑动一次,这样子
貌似需要维持360个窗口了,这样子的话,大概需要多少内存呢?

答复: 回复:数据量问题

Posted by cousin-gmail <a7...@gmail.com>.
好的,我去了解一下。谢谢

-----邮件原件-----
发件人: 浪人 [mailto:1543332110@qq.com] 
发送时间: 2019年2月21日 16:35
收件人: user-zh <us...@flink.apache.org>
主题: 回复:数据量问题

像这种需求,推荐使用continuesTrigger或是使用更加底层API processfunction去处
理,不要使用常规的滑动窗口去操作,性能低,资源消耗大。




------------------ 原始邮件 ------------------
发件人: "cousin-gmail"<a7...@gmail.com>;
发送时间: 2019年2月21日(星期四) 下午4:31
收件人: "user-zh"<us...@flink.apache.org>;

主题: 数据量问题



         嘿,各位,我想问问,如果一天1.5亿数据量的记录,要查询最近一小时内的
聚集数量,那么,有什么比较好的方案?如果是用1小时窗口,10秒滑动一次,这样子
貌似需要维持360个窗口了,这样子的话,大概需要多少内存呢?

回复:数据量问题

Posted by 浪人 <15...@qq.com>.
如果事件不是通过拷贝到多个窗口来实现滑动的效果,性能是可以接受的,现在主要是很多需求是窗口很大,滑动步数很小,拷贝分数太多,导致数据指数增长很容易引起性能问题。




------------------ 原始邮件 ------------------
发件人: "天边的云"<ly...@126.com>;
发送时间: 2019年2月21日(星期四) 下午4:39
收件人: "user-zh@flink.apache.org"<us...@flink.apache.org>;
抄送: "user-zh@flink.apache.org"<us...@flink.apache.org>; 
主题: 回复:数据量问题



滑动窗口的性能问题看社区一直在讨论。但目前看来没有一个通用的性能优化方案
https://issues.apache.org/jira/browse/FLINK-7001
在2019年2月21日 16:34,浪人<15...@qq.com> 写道:
像这种需求,推荐使用continuesTrigger或是使用更加底层API processfunction去处理,不要使用常规的滑动窗口去操作,性能低,资源消耗大。




------------------ 原始邮件 ------------------
发件人: "cousin-gmail"<a7...@gmail.com>;
发送时间: 2019年2月21日(星期四) 下午4:31
收件人: "user-zh"<us...@flink.apache.org>;

主题: 数据量问题



嘿,各位,我想问问,如果一天1.5亿数据量的记录,要查询最近一小时内的
聚集数量,那么,有什么比较好的方案?如果是用1小时窗口,10秒滑动一次,这样子
貌似需要维持360个窗口了,这样子的话,大概需要多少内存呢?

回复:数据量问题

Posted by 天边的云 <ly...@126.com>.
滑动窗口的性能问题看社区一直在讨论。但目前看来没有一个通用的性能优化方案
https://issues.apache.org/jira/browse/FLINK-7001
在2019年2月21日 16:34,浪人<15...@qq.com> 写道:
像这种需求,推荐使用continuesTrigger或是使用更加底层API processfunction去处理,不要使用常规的滑动窗口去操作,性能低,资源消耗大。




------------------ 原始邮件 ------------------
发件人: "cousin-gmail"<a7...@gmail.com>;
发送时间: 2019年2月21日(星期四) 下午4:31
收件人: "user-zh"<us...@flink.apache.org>;

主题: 数据量问题



嘿,各位,我想问问,如果一天1.5亿数据量的记录,要查询最近一小时内的
聚集数量,那么,有什么比较好的方案?如果是用1小时窗口,10秒滑动一次,这样子
貌似需要维持360个窗口了,这样子的话,大概需要多少内存呢?