You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by Congxian Qiu <qc...@gmail.com> on 2020/09/29 05:34:07 UTC

Re: checkpoint rocksdb hdfs 如何协调,保证数据不丢失

Hi
   RocksDB 里面存的是 State,Flink 在做 checkpoint 的时候会把 State 备份到 HDFS 上,如果失败的话从
Checkpoint 进行恢复,如果想了解更详细的内容,可以参考文档[1][2] 以及文档里面的链接
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/stream/state/checkpointing.html
[2]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/learn-flink/fault_tolerance.html

Best,
Congxian


Michael Ran <gr...@163.com> 于2020年9月29日周二 上午11:06写道:

> dear all :
>             我们checkpoint 信息默认保存在rocksdb上,但是rocksdb
> 是一个单机系统,性能OK,要做到不丢失还是要备份到hdfs分布式文件系统上。
>
>
>            问题是:
>            1. 如果仅保存在rocksdb,那么单机物理损坏,数据是会丢失的。
>            2. 如果仅保存hdfs,那么性能可能跟不上
>            3.如果先保存到rocksdb,再定时备份到hdfs,那么是多久备份一次?中间出现物理损坏,还是会出现一端时间的丢失。
>            4. 这块的详细设计,和具体流程、场景有合适的文档推荐吗?怎么再性能和数据完整性上做考虑的