You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by "casel.chen" <ca...@126.com> on 2023/03/21 03:54:56 UTC

flink作业保存的状态文件目录在aliyun oss上打不开

有一个flink cdc实现多表关联打宽的flink作业,作业状态达到20GB左右,远端状态存储用的是aliyun oss。今天作业运行失败打算手动从checkpoint恢复时发现保存作业状态的checkpoint目录(share目录)无法通过浏览器打开,后来使用命令行list了一下该目录下的文件有多达上万个文件。该flink作业用的是rocksdb state backend并开启了增量checkpoint。请问有什么办法可以解决这个问题吗?share目录下这么多文件是因为增量checkpoint遗留下来的吗?

Re: Re: flink作业保存的状态文件目录在aliyun oss上打不开

Posted by Guojun Li <gj...@gmail.com>.
状态文件的数量与很多因素有关,比如作业的并行度,单条 state kv 的数据大小,状态的更新频率,key 的粒度等都有关系。

Best,
Guojun

On Wed, Mar 22, 2023 at 9:43 AM Shammon FY <zj...@gmail.com> wrote:

> 那可能需要确认一下这些状态
> 1. 是否确实属于这个作业的状态
> 2. 这些状态是成功的checkpoint还是失败的checkpoint
> 3. 是否清理checkpoint出现了问题,排查下有没有相关错误日志
>
> Best,
> Shammon FY
>
> On Wed, Mar 22, 2023 at 8:51 AM casel.chen <ca...@126.com> wrote:
>
> > 检查过了,当前`state.checkpoints.num-retained`参数值是3
> >
> >
> > 在 2023-03-21 20:05:35,"Shammon FY" <zj...@gmail.com> 写道:
> > >Hi
> > >
> >
> >你可以检查一下checkpoint配置`state.checkpoints.num-retained`,是否保存的checkpoint数量太多了?
> > >
> > >Best,
> > >Shammon FY
> > >
> > >
> > >On Tue, Mar 21, 2023 at 11:55 AM casel.chen <ca...@126.com> wrote:
> > >
> > >> 有一个flink cdc实现多表关联打宽的flink作业,作业状态达到20GB左右,远端状态存储用的是aliyun
> > >>
> >
> oss。今天作业运行失败打算手动从checkpoint恢复时发现保存作业状态的checkpoint目录(share目录)无法通过浏览器打开,后来使用命令行list了一下该目录下的文件有多达上万个文件。该flink作业用的是rocksdb
> > >> state
> > >>
> >
> backend并开启了增量checkpoint。请问有什么办法可以解决这个问题吗?share目录下这么多文件是因为增量checkpoint遗留下来的吗?
> >
>

Re: Re: flink作业保存的状态文件目录在aliyun oss上打不开

Posted by Shammon FY <zj...@gmail.com>.
那可能需要确认一下这些状态
1. 是否确实属于这个作业的状态
2. 这些状态是成功的checkpoint还是失败的checkpoint
3. 是否清理checkpoint出现了问题,排查下有没有相关错误日志

Best,
Shammon FY

On Wed, Mar 22, 2023 at 8:51 AM casel.chen <ca...@126.com> wrote:

> 检查过了,当前`state.checkpoints.num-retained`参数值是3
>
>
> 在 2023-03-21 20:05:35,"Shammon FY" <zj...@gmail.com> 写道:
> >Hi
> >
> >你可以检查一下checkpoint配置`state.checkpoints.num-retained`,是否保存的checkpoint数量太多了?
> >
> >Best,
> >Shammon FY
> >
> >
> >On Tue, Mar 21, 2023 at 11:55 AM casel.chen <ca...@126.com> wrote:
> >
> >> 有一个flink cdc实现多表关联打宽的flink作业,作业状态达到20GB左右,远端状态存储用的是aliyun
> >>
> oss。今天作业运行失败打算手动从checkpoint恢复时发现保存作业状态的checkpoint目录(share目录)无法通过浏览器打开,后来使用命令行list了一下该目录下的文件有多达上万个文件。该flink作业用的是rocksdb
> >> state
> >>
> backend并开启了增量checkpoint。请问有什么办法可以解决这个问题吗?share目录下这么多文件是因为增量checkpoint遗留下来的吗?
>

Re:Re: flink作业保存的状态文件目录在aliyun oss上打不开

Posted by "casel.chen" <ca...@126.com>.
检查过了,当前`state.checkpoints.num-retained`参数值是3


在 2023-03-21 20:05:35,"Shammon FY" <zj...@gmail.com> 写道:
>Hi
>
>你可以检查一下checkpoint配置`state.checkpoints.num-retained`,是否保存的checkpoint数量太多了?
>
>Best,
>Shammon FY
>
>
>On Tue, Mar 21, 2023 at 11:55 AM casel.chen <ca...@126.com> wrote:
>
>> 有一个flink cdc实现多表关联打宽的flink作业,作业状态达到20GB左右,远端状态存储用的是aliyun
>> oss。今天作业运行失败打算手动从checkpoint恢复时发现保存作业状态的checkpoint目录(share目录)无法通过浏览器打开,后来使用命令行list了一下该目录下的文件有多达上万个文件。该flink作业用的是rocksdb
>> state
>> backend并开启了增量checkpoint。请问有什么办法可以解决这个问题吗?share目录下这么多文件是因为增量checkpoint遗留下来的吗?

Re: flink作业保存的状态文件目录在aliyun oss上打不开

Posted by Shammon FY <zj...@gmail.com>.
Hi

你可以检查一下checkpoint配置`state.checkpoints.num-retained`,是否保存的checkpoint数量太多了?

Best,
Shammon FY


On Tue, Mar 21, 2023 at 11:55 AM casel.chen <ca...@126.com> wrote:

> 有一个flink cdc实现多表关联打宽的flink作业,作业状态达到20GB左右,远端状态存储用的是aliyun
> oss。今天作业运行失败打算手动从checkpoint恢复时发现保存作业状态的checkpoint目录(share目录)无法通过浏览器打开,后来使用命令行list了一下该目录下的文件有多达上万个文件。该flink作业用的是rocksdb
> state
> backend并开启了增量checkpoint。请问有什么办法可以解决这个问题吗?share目录下这么多文件是因为增量checkpoint遗留下来的吗?