You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by "lxk7491@163.com" <lx...@163.com> on 2021/02/08 11:05:56 UTC

flink双流join如何确保数据不丢失

目前在使用flink进行双流join,多是使用interval join,根据经验值给定时间间隔,那么该如何保证数据不丢失呢?
如果数据晚于这个时间间隔,那么数据就被丢弃了,而我做的是关于订单的数据,这是不被允许的。


lxk7491@163.com

Re:flink双流join如何确保数据不丢失

Posted by "Smile@LETTers" <le...@163.com>.
用 left join 或者 full join?这样的话关联不上的数据在区间结束的时候也会被输出,对侧表的字段用 null 填充。<br/>目前 DataStream API 里面 Interval Join 还不支持 outer join,不过 Table API/SQL 是支持的,参考[1]。<br/><br/>[1]. https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/tableApi.html#joins
在 2021-02-08 19:05:56,"lxk7491@163.com" <lx...@163.com> 写道:
>
>目前在使用flink进行双流join,多是使用interval join,根据经验值给定时间间隔,那么该如何保证数据不丢失呢?
>如果数据晚于这个时间间隔,那么数据就被丢弃了,而我做的是关于订单的数据,这是不被允许的。
>
>
>lxk7491@163.com

回复:flink双流join如何确保数据不丢失

Posted by Mailbox service <13...@qq.com>.
可以注册一个定时器,关联不上的测输出再去查------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;&quot;lxk7491@163.com&quot;<lxk7491@163.com&gt;
发送时间:&nbsp;2021年2月8日(星期一) 晚上7:05
收件人:&nbsp;&quot;user-zh&quot;<user-zh@flink.apache.org&gt;;
主题:&nbsp;flink双流join如何确保数据不丢失