You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by "junjie.miao@goupwith.com" <ju...@goupwith.com> on 2022/09/22 05:59:55 UTC

并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

flink 1.14.5中消费kafka数据实时写入hive partition text table且开启了checkpoint,
发现当并行度为1时在hive中show partitions可以看到分区信息并能查询出结果数据,
但是当并行度>1时就查询不到分区信息同时也无法查询出结果数据。
不知道是否有人也遇到过这个问题,还是有什么其他注意点?

回复: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

Posted by hjw <10...@qq.com.INVALID>.
我认为这个问题是多分区的时候,某些分区没有watermark推进导致的。你可以在flink web ui上查看subtask的watermark情况,是否存在某些subtask没有watermark。


要是这个问题的话,可以考虑设置这个参数table.exec.source.idle-timeout 或者sink.partition-commit.trigger&nbsp;设置为&nbsp;process-time





Best,
Hjw


&nbsp;




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <junjie.miao@goupwith.com&gt;;
发送时间:&nbsp;2022年9月22日(星期四) 下午4:15
收件人:&nbsp;"user-zh"<user-zh@flink.apache.org&gt;;

主题:&nbsp;Re: Re: 并行度&gt;1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore



&nbsp; 'partition.time-extractor.timestamp-pattern' = '$dt $hr:$mi:00',
&nbsp; 'sink.partition-commit.delay' = '1min',
&nbsp; 'sink.partition-commit.trigger' = 'partition-time',
&nbsp; 'sink.partition-commit.watermark-time-zone' = 'Asia/Shanghai',
&nbsp; 'sink.partition-commit.policy.kind' = 'metastore,success-file'

&nbsp;
发件人: yuxia
发送时间: 2022-09-22 14:53
收件人: user-zh
主题: Re: 并行度&gt;1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
那么生成了 success 文件了吗?
另外你的 sink.partition-commit.trigger 用的是 process-time(默认是 process-time) 还是 partition-time。
&nbsp;
Best regards,
Yuxia
&nbsp;
----- 原始邮件 -----
发件人: "junjie miao" <junjie.miao@goupwith.com&gt;
收件人: "user-zh" <user-zh@flink.apache.org&gt;
发送时间: 星期四, 2022年 9 月 22日 下午 2:27:46
主题: Re: Re: 并行度&gt;1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
&nbsp;
文件都是生成了的,主要是没有更新hive metastore。
&nbsp;
补充下信息已经设置了'sink.partition-commit.policy.kind' = 'metastore,success-file'
&nbsp;
发件人: yuxia
发送时间: 2022-09-22 14:14
收件人: user-zh
主题: Re: 并行度&gt;1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
你用 hdfs dfs -ls 看一下对应表的路径下,是不是有文件生成。
Best regards,
Yuxia
----- 原始邮件 -----
发件人: "junjie miao" <junjie.miao@goupwith.com&gt;
收件人: "user-zh" <user-zh@flink.apache.org&gt;
发送时间: 星期四, 2022年 9 月 22日 下午 1:59:55
主题: 并行度&gt;1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
flink 1.14.5中消费kafka数据实时写入hive partition text table且开启了checkpoint,
发现当并行度为1时在hive中show partitions可以看到分区信息并能查询出结果数据,
但是当并行度&gt;1时就查询不到分区信息同时也无法查询出结果数据。
不知道是否有人也遇到过这个问题,还是有什么其他注意点?

Re: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

Posted by "junjie.miao@goupwith.com" <ju...@goupwith.com>.
  'partition.time-extractor.timestamp-pattern' = '$dt $hr:$mi:00',
  'sink.partition-commit.delay' = '1min',
  'sink.partition-commit.trigger' = 'partition-time',
  'sink.partition-commit.watermark-time-zone' = 'Asia/Shanghai',
  'sink.partition-commit.policy.kind' = 'metastore,success-file'

 
发件人: yuxia
发送时间: 2022-09-22 14:53
收件人: user-zh
主题: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
那么生成了 success 文件了吗?
另外你的 sink.partition-commit.trigger 用的是 process-time(默认是 process-time) 还是 partition-time。
 
Best regards,
Yuxia
 
----- 原始邮件 -----
发件人: "junjie miao" <ju...@goupwith.com>
收件人: "user-zh" <us...@flink.apache.org>
发送时间: 星期四, 2022年 9 月 22日 下午 2:27:46
主题: Re: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
 
文件都是生成了的,主要是没有更新hive metastore。
 
补充下信息已经设置了'sink.partition-commit.policy.kind' = 'metastore,success-file'
 
发件人: yuxia
发送时间: 2022-09-22 14:14
收件人: user-zh
主题: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
你用 hdfs dfs -ls 看一下对应表的路径下,是不是有文件生成。
Best regards,
Yuxia
----- 原始邮件 -----
发件人: "junjie miao" <ju...@goupwith.com>
收件人: "user-zh" <us...@flink.apache.org>
发送时间: 星期四, 2022年 9 月 22日 下午 1:59:55
主题: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
flink 1.14.5中消费kafka数据实时写入hive partition text table且开启了checkpoint,
发现当并行度为1时在hive中show partitions可以看到分区信息并能查询出结果数据,
但是当并行度>1时就查询不到分区信息同时也无法查询出结果数据。
不知道是否有人也遇到过这个问题,还是有什么其他注意点?

Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

Posted by yuxia <lu...@alumni.sjtu.edu.cn>.
那么生成了 success 文件了吗?
另外你的 sink.partition-commit.trigger 用的是 process-time(默认是 process-time) 还是 partition-time。

Best regards,
Yuxia

----- 原始邮件 -----
发件人: "junjie miao" <ju...@goupwith.com>
收件人: "user-zh" <us...@flink.apache.org>
发送时间: 星期四, 2022年 9 月 22日 下午 2:27:46
主题: Re: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

文件都是生成了的,主要是没有更新hive metastore。

补充下信息已经设置了'sink.partition-commit.policy.kind' = 'metastore,success-file'

 
发件人: yuxia
发送时间: 2022-09-22 14:14
收件人: user-zh
主题: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
你用 hdfs dfs -ls 看一下对应表的路径下,是不是有文件生成。
 
Best regards,
Yuxia
 
----- 原始邮件 -----
发件人: "junjie miao" <ju...@goupwith.com>
收件人: "user-zh" <us...@flink.apache.org>
发送时间: 星期四, 2022年 9 月 22日 下午 1:59:55
主题: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
 
flink 1.14.5中消费kafka数据实时写入hive partition text table且开启了checkpoint,
发现当并行度为1时在hive中show partitions可以看到分区信息并能查询出结果数据,
但是当并行度>1时就查询不到分区信息同时也无法查询出结果数据。
不知道是否有人也遇到过这个问题,还是有什么其他注意点?

Re: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

Posted by "junjie.miao@goupwith.com" <ju...@goupwith.com>.
文件都是生成了的,主要是没有更新hive metastore。

补充下信息已经设置了'sink.partition-commit.policy.kind' = 'metastore,success-file'

 
发件人: yuxia
发送时间: 2022-09-22 14:14
收件人: user-zh
主题: Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
你用 hdfs dfs -ls 看一下对应表的路径下,是不是有文件生成。
 
Best regards,
Yuxia
 
----- 原始邮件 -----
发件人: "junjie miao" <ju...@goupwith.com>
收件人: "user-zh" <us...@flink.apache.org>
发送时间: 星期四, 2022年 9 月 22日 下午 1:59:55
主题: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore
 
flink 1.14.5中消费kafka数据实时写入hive partition text table且开启了checkpoint,
发现当并行度为1时在hive中show partitions可以看到分区信息并能查询出结果数据,
但是当并行度>1时就查询不到分区信息同时也无法查询出结果数据。
不知道是否有人也遇到过这个问题,还是有什么其他注意点?

Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

Posted by yuxia <lu...@alumni.sjtu.edu.cn>.
你用 hdfs dfs -ls 看一下对应表的路径下,是不是有文件生成。

Best regards,
Yuxia

----- 原始邮件 -----
发件人: "junjie miao" <ju...@goupwith.com>
收件人: "user-zh" <us...@flink.apache.org>
发送时间: 星期四, 2022年 9 月 22日 下午 1:59:55
主题: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

flink 1.14.5中消费kafka数据实时写入hive partition text table且开启了checkpoint,
发现当并行度为1时在hive中show partitions可以看到分区信息并能查询出结果数据,
但是当并行度>1时就查询不到分区信息同时也无法查询出结果数据。
不知道是否有人也遇到过这个问题,还是有什么其他注意点?