You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@hbase.apache.org by sudo rm -rf /* <23...@qq.com> on 2020/12/31 06:27:45 UTC
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <weichiu@cloudera.com.INVALID>;
发送时间: 2020年12月31日(星期四) 下午2:21
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
圖片似乎還是無法顯示 煩請重發一次
On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com> wrote:
> hi
>
> 刚刚那封邮件图片显示可能有问题,重发一次。
>
> 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> hbase2.1.0-cdh-6.3.2
>
> 目前多次遇到以下异常现象。
>
> 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
>
>
>
>
>
> 图中积压的replication数据时间戳显示九月份
>
> 第二个异常,WALs oldWals目录异常庞大
>
> 主集群
>
>
> 备集群
>
>
> Replication相关线程的信息如下图
>
> 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
>
>
>
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by zheng wang <18...@qq.com>.
我在2.0碰到过一个bug,现象跟你描述的是一样的,刚才看了下2.1.0,貌似也存在,这个bug如果是2个集群同时都有写入的话,就不会触发。
https://issues.apache.org/jira/browse/HBASE-23008
------------------ 原始邮件 ------------------
发件人: "zheng wang" <18031031@qq.com>;
发送时间: 2021年1月2日(星期六) 晚上7:43
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
记得之前你问过这个问题,我也回复过。
你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
------------------&nbsp;原始邮件&nbsp;------------------
发件人: "user-zh" <2326130720@qq.com&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <weichiu@cloudera.com.INVALID&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
圖片似乎還是無法顯示 煩請重發一次
On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt; wrote:
&gt; hi
&gt;
&gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt;
&gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; hbase2.1.0-cdh-6.3.2
&gt;
&gt; 目前多次遇到以下异常现象。
&gt;
&gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 图中积压的replication数据时间戳显示九月份
&gt;
&gt; 第二个异常,WALs oldWals目录异常庞大
&gt;
&gt; 主集群
&gt;
&gt;
&gt; 备集群
&gt;
&gt;
&gt; Replication相关线程的信息如下图
&gt;
&gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt;
&gt;
&gt;
回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
在滴滴一篇HBase相关的文章中提到了这个HBASE-22620,https://issues.apache.org/jira/browse/HBASE-22620,issue中提到的patch只能打在1.4.8版本中,HBASE-22620中所叙述的现象跟我们很像,就是不知到原因是否相同
------------------ 原始邮件 ------------------
发件人: "凡尔" <xiaozhang0319@163.com>;
发送时间: 2021年1月4日(星期一) 中午11:38
收件人: "sudo rm -rf /*"<2326130720@qq.com>;
抄送: "user-zh"<user-zh@hbase.apache.org>;"user-zh"<user-zh@hbase.apache.org>;
主题: 回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
这个问题是不是HBASE-16721引发的
凡尔
xiaozhang0319@163.com
一名热爱生活的青年
在2021年01月04日 11:26,sudo rm -rf /* 写道:
hi
刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
上午11点21:01.959分WARNReplicationSourceWAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
上午11点21:01.979分WARNFanOutOneBlockAsyncDFSOutputHelpercomplete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
上午11点21:02.736分INFOAbstractFSWALToo many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
上午11点21:02.736分WARNLogRollerFailed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
上午11点21:02.736分WARNLogRollerFailed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
------------------ 原始邮件 ------------------
发件人: "sudo rm -rf /*" <2326130720@qq.com>;
发送时间: 2021年1月4日(星期一) 中午11:21
收件人: "user-zh"<user-zh@hbase.apache.org>;
抄送: "user-zh"<user-zh@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
图片还是看不到。。。
日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午10:45写道:
> hi,
> 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18031031@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> wrote:
>
> &gt; hi
> &gt;
> &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;
> &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt; hbase2.1.0-cdh-6.3.2
> &gt;
> &gt; 目前多次遇到以下异常现象。
> &gt;
> &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; 图中积压的replication数据时间戳显示九月份
> &gt;
> &gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;
> &gt; 主集群
> &gt;
> &gt;
> &gt; 备集群
> &gt;
> &gt;
> &gt; Replication相关线程的信息如下图
> &gt;
> &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;
> &gt;
> &gt;
>
回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
在滴滴一篇HBase相关的文章中提到了这个HBASE-22620,https://issues.apache.org/jira/browse/HBASE-22620,issue中提到的patch只能打在1.4.8版本中,HBASE-22620中所叙述的现象跟我们很像,就是不知到原因是否相同
------------------ 原始邮件 ------------------
发件人: "user-zh" <xiaozhang0319@163.com>;
发送时间: 2021年1月4日(星期一) 中午11:38
收件人: "sudo rm -rf /*"<2326130720@qq.com>;
抄送: "user-zh"<user-zh@hbase.apache.org>;"user-zh"<user-zh@hbase.apache.org>;
主题: 回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
这个问题是不是HBASE-16721引发的
| |
凡尔
xiaozhang0319@163.com
一名热爱生活的青年
|
在2021年01月04日 11:26,sudo rm -rf /* 写道:
hi
刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
| 上午11点21:01.959分 | WARN | ReplicationSource |
WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
|
| 上午11点21:01.979分 | WARN | FanOutOneBlockAsyncDFSOutputHelper |
complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
|
| 上午11点21:02.736分 | INFO | AbstractFSWAL |
Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
|
------------------ 原始邮件 ------------------
发件人: "sudo rm -rf /*" <2326130720@qq.com>;
发送时间: 2021年1月4日(星期一) 中午11:21
收件人: "user-zh"<user-zh@hbase.apache.org>;
抄送: "user-zh"<user-zh@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
图片还是看不到。。。
日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午10:45写道:
> hi,
> 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18031031@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> wrote:
>
> &gt; hi
> &gt;
> &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;
> &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt; hbase2.1.0-cdh-6.3.2
> &gt;
> &gt; 目前多次遇到以下异常现象。
> &gt;
> &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; 图中积压的replication数据时间戳显示九月份
> &gt;
> &gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;
> &gt; 主集群
> &gt;
> &gt;
> &gt; 备集群
> &gt;
> &gt;
> &gt; Replication相关线程的信息如下图
> &gt;
> &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;
> &gt;
> &gt;
>
回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by 凡尔 <xi...@163.com>.
这个问题是不是HBASE-16721引发的
| |
凡尔
xiaozhang0319@163.com
一名热爱生活的青年
|
在2021年01月04日 11:26,sudo rm -rf /* 写道:
hi
刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
| 上午11点21:01.959分 | WARN | ReplicationSource |
WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
|
| 上午11点21:01.979分 | WARN | FanOutOneBlockAsyncDFSOutputHelper |
complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
|
| 上午11点21:02.736分 | INFO | AbstractFSWAL |
Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
|
------------------ 原始邮件 ------------------
发件人: "sudo rm -rf /*" <23...@qq.com>;
发送时间: 2021年1月4日(星期一) 中午11:21
收件人: "user-zh"<us...@hbase.apache.org>;
抄送: "user-zh"<us...@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <pa...@gmail.com>;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<us...@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
图片还是看不到。。。
日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
> hi,
> 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18...@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com>;
> 发送时间: 2020年12月31日(星期四) 下午2:27
> 收件人: "user-zh"<user-zh@hbase.apache.org>;
>
> 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID>;
> 发送时间: 2020年12月31日(星期四) 下午2:21
> 收件人: "user-zh"<user-zh@hbase.apache.org>;
>
> 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com>
> wrote:
>
> > hi
> >
> > 刚刚那封邮件图片显示可能有问题,重发一次。
> >
> > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > hbase2.1.0-cdh-6.3.2
> >
> > 目前多次遇到以下异常现象。
> >
> > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> >
> >
> >
> >
> >
> > 图中积压的replication数据时间戳显示九月份
> >
> > 第二个异常,WALs oldWals目录异常庞大
> >
> > 主集群
> >
> >
> > 备集群
> >
> >
> > Replication相关线程的信息如下图
> >
> > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> >
> >
> >
>
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
hi
感谢您的回复,这样的问题其实已经反复出现过多次,不是偶然发生,去年升级以来,一直饱受困扰,如果可能是串行复制的原因,这个也算是一个比较大的隐患,社区是否可以进一步帮忙我们分析下问题产生的原因,尝试修复下这个问题,然后回馈社区。为了保证HBase服务的高可用,主备replication是我们依赖的一个比较重要的功能。如果您愿意的话,我们可以以公司的名义邀请您作为我们HBase的专家顾问。
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月5日(星期二) 下午4:37
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
串行复制在生产环境还没有大规模实践过,可能会有未知的bug,如果不是对HBase代码很熟悉或者有一定折腾经验,还是不建议大规模使用
这个看起来应该就是某些region的replication堵了,一直推不出去
sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 下午10:10写道:
> hi
> &nbsp; &nbsp; 我们之前用的HBase版本是1.2,开启主备replication之后,数据经常性不一致,了解到HBase2.x
> 对replication有所重构,增加了串行复制特性,所以才从之前版本升级至2.1,并特意开启串行复制,以此来改善replication的问题。
> &nbsp; &nbsp;
> 升级至2.1之后,replication就经常性遇见这样的问题,之前也重启过几次,清除积压的数据,重启之后初期倒也正常,随着时间推移,就又成这个样子了
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <
> palomino219@gmail.com&gt;;
> 发送时间:&nbsp;2021年1月4日(星期一) 晚上10:01
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 哦,看到了,在最上面有
>
> 你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
>
> 张铎(Duo Zhang) <palomino219@gmail.com&gt; 于2021年1月4日周一 下午9:58写道:
>
> &gt; shell里敲
> &gt;
> &gt; list_peers
> &gt;
> &gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 下午9:33写道:
> &gt;
> &gt;&gt; hi
> &gt;&gt;&nbsp; 感谢您的回复,日志中没有Replication的ERROR信息,replication
> peer是啥状态?这句话的意思是?
> &gt;&gt; 截图放在附件中,麻烦查收
> &gt;&gt;
> &gt;&gt; hbase(main):002:0&gt; list_peers
> &gt;&gt;&nbsp; PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL
> NAMESPACES
> &gt;&gt; TABLE_CFS BANDWIDTH SERIAL
> &gt;&gt;&nbsp; 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase&nbsp;
> ENABLED true
> &gt;&gt;&nbsp; 0 true
> &gt;&gt; 1 row(s)
> &gt;&gt; Took 0.0463 seconds
> &gt;&gt;
> &gt;&gt;
> &gt;&gt; =&gt; #<Java::JavaUtil::ArrayList:0x79d49790&gt;
> &gt;&gt;
> &gt;&gt; hbase(main):003:0&gt; status 'replication'
> &gt;&gt; version 2.1.0-cdh6.3.2
> &gt;&gt; 5 live servers
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-197.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
> &gt;&gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021,
> Replication
> &gt;&gt; Lag=17631
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-198.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=40642518,
> &gt;&gt; SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:49 CST
> &gt;&gt; 2021, Replication Lag=40642518
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-199.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=40761400,
> &gt;&gt; SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:55 CST
> &gt;&gt; 2021, Replication Lag=40761400
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-200.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
> &gt;&gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021,
> Replication Lag=2979
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-205.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=40698192,
> &gt;&gt; SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:45 CST
> &gt;&gt; 2021, Replication Lag=40698192
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt; Took 0.0439 seconds
> &gt;&gt;
> &gt;&gt;
> &gt;&gt; =&gt;
> #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df&gt;
> &gt;&gt;
> &gt;&gt;
> &gt;&gt;
> &gt;&gt; ------------------ 原始邮件 ------------------
> &gt;&gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
> &gt;&gt; *发送时间:* 2021年1月4日(星期一) 晚上9:22
> &gt;&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt;
> &gt;&gt; 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
> &gt;&gt;
> &gt;&gt; 另外你具体的replication peer是啥状态?
> &gt;&gt;
> &gt;&gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午11:27写道:
> &gt;&gt;
> &gt;&gt; &gt; hi
> &gt;&gt; &gt;&nbsp;
> 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:01.959分 WARN ReplicationSource
> &gt;&gt; &gt;
> &gt;&gt; &gt; WAL group
> &gt;&gt;
> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
> &gt;&gt; queue size: 86709 exceeds value of
> replication.source.log.queue.warn: 2
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
> &gt;&gt; &gt;
> &gt;&gt; &gt; complete file
> &gt;&gt;
> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
> &gt;&gt; not finished, retry = 0
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:02.736分 INFO AbstractFSWAL
> &gt;&gt; &gt;
> &gt;&gt; &gt; Too many WALs; count=16512, max=256; forcing flush of 2
> regions(s):
> &gt;&gt; ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:02.736分 WARN LogRoller
> &gt;&gt; &gt;
> &gt;&gt; &gt; Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
> &gt;&gt; region=null, requester=null
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:02.736分 WARN LogRoller
> &gt;&gt; &gt;
> &gt;&gt; &gt; Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
> &gt;&gt; region=null, requester=null
> &gt;&gt; &gt;
> &gt;&gt; &gt;
> &gt;&gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; *发件人:* "sudo rm -rf /*" <2326130720@qq.com&gt;;
> &gt;&gt; &gt; *发送时间:* 2021年1月4日(星期一) 中午11:21
> &gt;&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; *抄送:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt;
> &gt;&gt; &gt; hi
> &gt;&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;
> 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> &gt;&gt; &gt;
> &gt;&gt;
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
> &gt;&gt; &gt;
> &gt;&gt; &gt;
> &gt;&gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
> &gt;&gt; &gt; *发送时间:* 2021年1月4日(星期一) 中午11:05
> &gt;&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt;
> &gt;&gt; &gt; 图片还是看不到。。。
> &gt;&gt; &gt;
> &gt;&gt; &gt;
> 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
> &gt;&gt; &gt;
> &gt;&gt; &gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一
> 上午10:45写道:
> &gt;&gt; &gt;
> &gt;&gt; &gt; &gt; hi,
> &gt;&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; 非常抱歉,需要再次打扰,HBase replication
> 目前处于阻塞状态,某一WAL
> &gt;&gt; &gt; &gt; log已经卡在一端有三个多月,我截图了ReplicationSource
> &gt;&gt; &gt; &gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> &gt;&gt; &gt; &gt; 图片请查看附件,感谢感谢
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; &gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
> &gt;&gt; &gt; &gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
> &gt;&gt; &gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 记得之前你问过这个问题,我也回复过。
> &gt;&gt; &gt; &gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt;&gt; &gt; &gt; 发件人:
> &gt;&gt; &gt; &gt; "user-zh"
> &gt;&gt; &gt; &gt; <2326130720@qq.com&amp;gt;;
> &gt;&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
> &gt;&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org
> &amp;gt;;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; hi
> &gt;&gt; &gt; &gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; &gt; 发件人:
> &gt;&gt; &gt; &gt; "user-zh"
> &gt;&gt; &gt; &gt; <weichiu@cloudera.com.INVALID&amp;gt;;
> &gt;&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
> &gt;&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org
> &amp;gt;;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 圖片似乎還是無法顯示 煩請重發一次
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <
> 2326130720@qq.com&amp;gt;
> &gt;&gt; &gt; &gt; wrote:
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; &amp;gt; hi
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt;&gt; &gt; &gt; &amp;gt; hbase2.1.0-cdh-6.3.2
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 目前多次遇到以下异常现象。
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 第一:replication
> 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> &gt;&gt; &gt; &gt; Log还在replication队列中。如下图
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 主集群
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 备集群
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; Replication相关线程的信息如下图
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt;
> &gt;&gt;
> &gt;
Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
串行复制在生产环境还没有大规模实践过,可能会有未知的bug,如果不是对HBase代码很熟悉或者有一定折腾经验,还是不建议大规模使用
这个看起来应该就是某些region的replication堵了,一直推不出去
sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 下午10:10写道:
> hi
> 我们之前用的HBase版本是1.2,开启主备replication之后,数据经常性不一致,了解到HBase2.x
> 对replication有所重构,增加了串行复制特性,所以才从之前版本升级至2.1,并特意开启串行复制,以此来改善replication的问题。
>
> 升级至2.1之后,replication就经常性遇见这样的问题,之前也重启过几次,清除积压的数据,重启之后初期倒也正常,随着时间推移,就又成这个样子了
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <
> palomino219@gmail.com>;
> 发送时间: 2021年1月4日(星期一) 晚上10:01
> 收件人: "user-zh"<user-zh@hbase.apache.org>;
>
> 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 哦,看到了,在最上面有
>
> 你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
>
> 张铎(Duo Zhang) <palomino219@gmail.com> 于2021年1月4日周一 下午9:58写道:
>
> > shell里敲
> >
> > list_peers
> >
> > sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 下午9:33写道:
> >
> >> hi
> >> 感谢您的回复,日志中没有Replication的ERROR信息,replication
> peer是啥状态?这句话的意思是?
> >> 截图放在附件中,麻烦查收
> >>
> >> hbase(main):002:0> list_peers
> >> PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL
> NAMESPACES
> >> TABLE_CFS BANDWIDTH SERIAL
> >> 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase
> ENABLED true
> >> 0 true
> >> 1 row(s)
> >> Took 0.0463 seconds
> >>
> >>
> >> => #<Java::JavaUtil::ArrayList:0x79d49790>
> >>
> >> hbase(main):003:0> status 'replication'
> >> version 2.1.0-cdh6.3.2
> >> 5 live servers
> >>
> centos-bigdata-datanode-10-2-5-197.intsig.internal:
> >> SOURCE: PeerID=1,
> AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
> >> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021,
> Replication
> >> Lag=17631
> >> SINK :
> AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
> >> 04 21:30:01 CST 2021
> >>
> centos-bigdata-datanode-10-2-5-198.intsig.internal:
> >> SOURCE: PeerID=1,
> AgeOfLastShippedOp=40642518,
> >> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:49 CST
> >> 2021, Replication Lag=40642518
> >> SINK :
> AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
> >> 04 21:30:01 CST 2021
> >>
> centos-bigdata-datanode-10-2-5-199.intsig.internal:
> >> SOURCE: PeerID=1,
> AgeOfLastShippedOp=40761400,
> >> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:55 CST
> >> 2021, Replication Lag=40761400
> >> SINK :
> AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
> >> 04 21:30:01 CST 2021
> >>
> centos-bigdata-datanode-10-2-5-200.intsig.internal:
> >> SOURCE: PeerID=1,
> AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
> >> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021,
> Replication Lag=2979
> >> SINK :
> AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
> >> 04 21:30:01 CST 2021
> >>
> centos-bigdata-datanode-10-2-5-205.intsig.internal:
> >> SOURCE: PeerID=1,
> AgeOfLastShippedOp=40698192,
> >> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:45 CST
> >> 2021, Replication Lag=40698192
> >> SINK :
> AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
> >> 04 21:30:01 CST 2021
> >> Took 0.0439 seconds
> >>
> >>
> >> =>
> #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
> >>
> >>
> >>
> >> ------------------ 原始邮件 ------------------
> >> *发件人:* "user-zh" <palomino219@gmail.com>;
> >> *发送时间:* 2021年1月4日(星期一) 晚上9:22
> >> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> >> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >>
> >> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
> >>
> >> 另外你具体的replication peer是啥状态?
> >>
> >> sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午11:27写道:
> >>
> >> > hi
> >> >
> 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
> >> >
> >> > 上午11点21:01.959分 WARN ReplicationSource
> >> >
> >> > WAL group
> >>
> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
> >> queue size: 86709 exceeds value of
> replication.source.log.queue.warn: 2
> >> >
> >> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
> >> >
> >> > complete file
> >>
> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
> >> not finished, retry = 0
> >> >
> >> > 上午11点21:02.736分 INFO AbstractFSWAL
> >> >
> >> > Too many WALs; count=16512, max=256; forcing flush of 2
> regions(s):
> >> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
> >> >
> >> > 上午11点21:02.736分 WARN LogRoller
> >> >
> >> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
> >> region=null, requester=null
> >> >
> >> > 上午11点21:02.736分 WARN LogRoller
> >> >
> >> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
> >> region=null, requester=null
> >> >
> >> >
> >> > ------------------ 原始邮件 ------------------
> >> > *发件人:* "sudo rm -rf /*" <2326130720@qq.com>;
> >> > *发送时间:* 2021年1月4日(星期一) 中午11:21
> >> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> >> > *抄送:* "user-zh"<user-zh@hbase.apache.org>;
> >> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >> >
> >> > hi
> >> >
> 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> >> >
> >>
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
> >> >
> >> >
> >> > ------------------ 原始邮件 ------------------
> >> > *发件人:* "user-zh" <palomino219@gmail.com>;
> >> > *发送时间:* 2021年1月4日(星期一) 中午11:05
> >> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> >> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >> >
> >> > 图片还是看不到。。。
> >> >
> >> >
> 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
> >> >
> >> > sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一
> 上午10:45写道:
> >> >
> >> > > hi,
> >> > > 非常抱歉,需要再次打扰,HBase replication
> 目前处于阻塞状态,某一WAL
> >> > > log已经卡在一端有三个多月,我截图了ReplicationSource
> >> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> >> > > 图片请查看附件,感谢感谢
> >> > >
> >> > >
> >> > >
> >> > > ------------------ 原始邮件 ------------------
> >> > > *发件人:* "user-zh" <18031031@qq.com>;
> >> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> >> > > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> >> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >> > >
> >> > > 记得之前你问过这个问题,我也回复过。
> >> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> >> > >
> >> > >
> >> > >
> >> > >
> >> > >
> ------------------&nbsp;原始邮件&nbsp;------------------
> >> > > 发件人:
> >> > > "user-zh"
> >> > > <2326130720@qq.com&gt;;
> >> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> >> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org
> &gt;;
> >> > >
> >> > > 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >> > >
> >> > >
> >> > >
> >> > > hi
> >> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> >> > >
> >> > >
> >> > >
> >> > >
> >> > > ------------------ 原始邮件 ------------------
> >> > > 发件人:
> >> > > "user-zh"
> >> > > <weichiu@cloudera.com.INVALID&gt;;
> >> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> >> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org
> &gt;;
> >> > >
> >> > > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >> > >
> >> > >
> >> > >
> >> > > 圖片似乎還是無法顯示 煩請重發一次
> >> > >
> >> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <
> 2326130720@qq.com&gt;
> >> > > wrote:
> >> > >
> >> > > &gt; hi
> >> > > &gt;
> >> > > &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> >> > > &gt;
> >> > > &gt;
> 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> >> > > &gt; hbase2.1.0-cdh-6.3.2
> >> > > &gt;
> >> > > &gt; 目前多次遇到以下异常现象。
> >> > > &gt;
> >> > > &gt; 第一:replication
> 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> >> > > Log还在replication队列中。如下图
> >> > > &gt;
> >> > > &gt;
> >> > > &gt;
> >> > > &gt;
> >> > > &gt;
> >> > > &gt; 图中积压的replication数据时间戳显示九月份
> >> > > &gt;
> >> > > &gt; 第二个异常,WALs oldWals目录异常庞大
> >> > > &gt;
> >> > > &gt; 主集群
> >> > > &gt;
> >> > > &gt;
> >> > > &gt; 备集群
> >> > > &gt;
> >> > > &gt;
> >> > > &gt; Replication相关线程的信息如下图
> >> > > &gt;
> >> > > &gt;
> 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> >> > > &gt;
> >> > > &gt;
> >> > > &gt;
> >> > >
> >> >
> >>
> >
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
hi
我们之前用的HBase版本是1.2,开启主备replication之后,数据经常性不一致,了解到HBase2.x 对replication有所重构,增加了串行复制特性,所以才从之前版本升级至2.1,并特意开启串行复制,以此来改善replication的问题。
升级至2.1之后,replication就经常性遇见这样的问题,之前也重启过几次,清除积压的数据,重启之后初期倒也正常,随着时间推移,就又成这个样子了
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月4日(星期一) 晚上10:01
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
哦,看到了,在最上面有
你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
张铎(Duo Zhang) <palomino219@gmail.com> 于2021年1月4日周一 下午9:58写道:
> shell里敲
>
> list_peers
>
> sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 下午9:33写道:
>
>> hi
>> 感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是?
>> 截图放在附件中,麻烦查收
>>
>> hbase(main):002:0> list_peers
>> PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
>> TABLE_CFS BANDWIDTH SERIAL
>> 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase ENABLED true
>> 0 true
>> 1 row(s)
>> Took 0.0463 seconds
>>
>>
>> => #<Java::JavaUtil::ArrayList:0x79d49790>
>>
>> hbase(main):003:0> status 'replication'
>> version 2.1.0-cdh6.3.2
>> 5 live servers
>> centos-bigdata-datanode-10-2-5-197.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
>> Lag=17631
>> SINK : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-198.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
>> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
>> 2021, Replication Lag=40642518
>> SINK : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-199.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
>> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
>> 2021, Replication Lag=40761400
>> SINK : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-200.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
>> SINK : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-205.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
>> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
>> 2021, Replication Lag=40698192
>> SINK : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> Took 0.0439 seconds
>>
>>
>> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>>
>>
>>
>> ------------------ 原始邮件 ------------------
>> *发件人:* "user-zh" <palomino219@gmail.com>;
>> *发送时间:* 2021年1月4日(星期一) 晚上9:22
>> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>>
>> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
>>
>> 另外你具体的replication peer是啥状态?
>>
>> sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午11:27写道:
>>
>> > hi
>> > 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
>> >
>> > 上午11点21:01.959分 WARN ReplicationSource
>> >
>> > WAL group
>> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
>> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>> >
>> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>> >
>> > complete file
>> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
>> not finished, retry = 0
>> >
>> > 上午11点21:02.736分 INFO AbstractFSWAL
>> >
>> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
>> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
>> region=null, requester=null
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
>> region=null, requester=null
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "sudo rm -rf /*" <2326130720@qq.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:21
>> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> > *抄送:* "user-zh"<user-zh@hbase.apache.org>;
>> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > hi
>> > 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
>> >
>> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "user-zh" <palomino219@gmail.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:05
>> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > 图片还是看不到。。。
>> >
>> > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
>> >
>> > sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午10:45写道:
>> >
>> > > hi,
>> > > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
>> > > log已经卡在一端有三个多月,我截图了ReplicationSource
>> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
>> > > 图片请查看附件,感谢感谢
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > *发件人:* "user-zh" <18031031@qq.com>;
>> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
>> > > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
>> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > > 记得之前你问过这个问题,我也回复过。
>> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>> > >
>> > >
>> > >
>> > >
>> > > ------------------&nbsp;原始邮件&nbsp;------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <2326130720@qq.com&gt;;
>> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
>> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>> > >
>> > > 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > hi
>> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>> > >
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <weichiu@cloudera.com.INVALID&gt;;
>> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
>> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>> > >
>> > > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > 圖片似乎還是無法顯示 煩請重發一次
>> > >
>> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
>> > > wrote:
>> > >
>> > > &gt; hi
>> > > &gt;
>> > > &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
>> > > &gt;
>> > > &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
>> > > &gt; hbase2.1.0-cdh-6.3.2
>> > > &gt;
>> > > &gt; 目前多次遇到以下异常现象。
>> > > &gt;
>> > > &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
>> > > Log还在replication队列中。如下图
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt; 图中积压的replication数据时间戳显示九月份
>> > > &gt;
>> > > &gt; 第二个异常,WALs oldWals目录异常庞大
>> > > &gt;
>> > > &gt; 主集群
>> > > &gt;
>> > > &gt;
>> > > &gt; 备集群
>> > > &gt;
>> > > &gt;
>> > > &gt; Replication相关线程的信息如下图
>> > > &gt;
>> > > &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > >
>> >
>>
>
Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
哦,看到了,在最上面有
你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
张铎(Duo Zhang) <pa...@gmail.com> 于2021年1月4日周一 下午9:58写道:
> shell里敲
>
> list_peers
>
> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 下午9:33写道:
>
>> hi
>> 感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是?
>> 截图放在附件中,麻烦查收
>>
>> hbase(main):002:0> list_peers
>> PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
>> TABLE_CFS BANDWIDTH SERIAL
>> 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase ENABLED true
>> 0 true
>> 1 row(s)
>> Took 0.0463 seconds
>>
>>
>> => #<Java::JavaUtil::ArrayList:0x79d49790>
>>
>> hbase(main):003:0> status 'replication'
>> version 2.1.0-cdh6.3.2
>> 5 live servers
>> centos-bigdata-datanode-10-2-5-197.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
>> Lag=17631
>> SINK : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-198.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
>> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
>> 2021, Replication Lag=40642518
>> SINK : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-199.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
>> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
>> 2021, Replication Lag=40761400
>> SINK : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-200.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
>> SINK : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> centos-bigdata-datanode-10-2-5-205.intsig.internal:
>> SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
>> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
>> 2021, Replication Lag=40698192
>> SINK : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> Took 0.0439 seconds
>>
>>
>> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>>
>>
>>
>> ------------------ 原始邮件 ------------------
>> *发件人:* "user-zh" <pa...@gmail.com>;
>> *发送时间:* 2021年1月4日(星期一) 晚上9:22
>> *收件人:* "user-zh"<us...@hbase.apache.org>;
>> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>>
>> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
>>
>> 另外你具体的replication peer是啥状态?
>>
>> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午11:27写道:
>>
>> > hi
>> > 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
>> >
>> > 上午11点21:01.959分 WARN ReplicationSource
>> >
>> > WAL group
>> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
>> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>> >
>> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>> >
>> > complete file
>> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
>> not finished, retry = 0
>> >
>> > 上午11点21:02.736分 INFO AbstractFSWAL
>> >
>> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
>> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
>> region=null, requester=null
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
>> region=null, requester=null
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "sudo rm -rf /*" <23...@qq.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:21
>> > *收件人:* "user-zh"<us...@hbase.apache.org>;
>> > *抄送:* "user-zh"<us...@hbase.apache.org>;
>> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > hi
>> > 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
>> >
>> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "user-zh" <pa...@gmail.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:05
>> > *收件人:* "user-zh"<us...@hbase.apache.org>;
>> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > 图片还是看不到。。。
>> >
>> > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
>> >
>> > sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
>> >
>> > > hi,
>> > > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
>> > > log已经卡在一端有三个多月,我截图了ReplicationSource
>> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
>> > > 图片请查看附件,感谢感谢
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > *发件人:* "user-zh" <18...@qq.com>;
>> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
>> > > *收件人:* "user-zh"<us...@hbase.apache.org>;
>> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > > 记得之前你问过这个问题,我也回复过。
>> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>> > >
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <2326130720@qq.com>;
>> > > 发送时间: 2020年12月31日(星期四) 下午2:27
>> > > 收件人: "user-zh"<user-zh@hbase.apache.org>;
>> > >
>> > > 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > hi
>> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>> > >
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <weichiu@cloudera.com.INVALID>;
>> > > 发送时间: 2020年12月31日(星期四) 下午2:21
>> > > 收件人: "user-zh"<user-zh@hbase.apache.org>;
>> > >
>> > > 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > 圖片似乎還是無法顯示 煩請重發一次
>> > >
>> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com>
>> > > wrote:
>> > >
>> > > > hi
>> > > >
>> > > > 刚刚那封邮件图片显示可能有问题,重发一次。
>> > > >
>> > > > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
>> > > > hbase2.1.0-cdh-6.3.2
>> > > >
>> > > > 目前多次遇到以下异常现象。
>> > > >
>> > > > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
>> > > Log还在replication队列中。如下图
>> > > >
>> > > >
>> > > >
>> > > >
>> > > >
>> > > > 图中积压的replication数据时间戳显示九月份
>> > > >
>> > > > 第二个异常,WALs oldWals目录异常庞大
>> > > >
>> > > > 主集群
>> > > >
>> > > >
>> > > > 备集群
>> > > >
>> > > >
>> > > > Replication相关线程的信息如下图
>> > > >
>> > > > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
>> > > >
>> > > >
>> > > >
>> > >
>> >
>>
>
Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
shell里敲
list_peers
sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 下午9:33写道:
> hi
> 感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是? 截图放在附件中,麻烦查收
>
> hbase(main):002:0> list_peers
> PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
> TABLE_CFS BANDWIDTH SERIAL
> 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase ENABLED true
> 0 true
> 1 row(s)
> Took 0.0463 seconds
>
>
> => #<Java::JavaUtil::ArrayList:0x79d49790>
>
> hbase(main):003:0> status 'replication'
> version 2.1.0-cdh6.3.2
> 5 live servers
> centos-bigdata-datanode-10-2-5-197.intsig.internal:
> SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
> Lag=17631
> SINK : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
> centos-bigdata-datanode-10-2-5-198.intsig.internal:
> SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
> 2021, Replication Lag=40642518
> SINK : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
> centos-bigdata-datanode-10-2-5-199.intsig.internal:
> SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
> 2021, Replication Lag=40761400
> SINK : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
> centos-bigdata-datanode-10-2-5-200.intsig.internal:
> SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
> SINK : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
> centos-bigdata-datanode-10-2-5-205.intsig.internal:
> SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
> 2021, Replication Lag=40698192
> SINK : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
> 04 21:30:01 CST 2021
> Took 0.0439 seconds
>
>
> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <pa...@gmail.com>;
> *发送时间:* 2021年1月4日(星期一) 晚上9:22
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
>
> 另外你具体的replication peer是啥状态?
>
> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午11:27写道:
>
> > hi
> > 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
> >
> > 上午11点21:01.959分 WARN ReplicationSource
> >
> > WAL group
> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
> >
> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
> >
> > complete file
> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
> not finished, retry = 0
> >
> > 上午11点21:02.736分 INFO AbstractFSWAL
> >
> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
> >
> > 上午11点21:02.736分 WARN LogRoller
> >
> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
> region=null, requester=null
> >
> > 上午11点21:02.736分 WARN LogRoller
> >
> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
> region=null, requester=null
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "sudo rm -rf /*" <23...@qq.com>;
> > *发送时间:* 2021年1月4日(星期一) 中午11:21
> > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > *抄送:* "user-zh"<us...@hbase.apache.org>;
> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > hi
> > 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> >
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <pa...@gmail.com>;
> > *发送时间:* 2021年1月4日(星期一) 中午11:05
> > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > 图片还是看不到。。。
> >
> > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
> >
> > sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
> >
> > > hi,
> > > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> > > log已经卡在一端有三个多月,我截图了ReplicationSource
> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> > > 图片请查看附件,感谢感谢
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > *发件人:* "user-zh" <18...@qq.com>;
> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> > > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > > 记得之前你问过这个问题,我也回复过。
> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> > >
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > 发件人:
> > > "user-zh"
> > > <2326130720@qq.com>;
> > > 发送时间: 2020年12月31日(星期四) 下午2:27
> > > 收件人: "user-zh"<user-zh@hbase.apache.org>;
> > >
> > > 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > >
> > >
> > > hi
> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> > >
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > 发件人:
> > > "user-zh"
> > > <weichiu@cloudera.com.INVALID>;
> > > 发送时间: 2020年12月31日(星期四) 下午2:21
> > > 收件人: "user-zh"<user-zh@hbase.apache.org>;
> > >
> > > 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > >
> > >
> > > 圖片似乎還是無法顯示 煩請重發一次
> > >
> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com>
> > > wrote:
> > >
> > > > hi
> > > >
> > > > 刚刚那封邮件图片显示可能有问题,重发一次。
> > > >
> > > > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > > > hbase2.1.0-cdh-6.3.2
> > > >
> > > > 目前多次遇到以下异常现象。
> > > >
> > > > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> > > Log还在replication队列中。如下图
> > > >
> > > >
> > > >
> > > >
> > > >
> > > > 图中积压的replication数据时间戳显示九月份
> > > >
> > > > 第二个异常,WALs oldWals目录异常庞大
> > > >
> > > > 主集群
> > > >
> > > >
> > > > 备集群
> > > >
> > > >
> > > > Replication相关线程的信息如下图
> > > >
> > > > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> > > >
> > > >
> > > >
> > >
> >
>
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
hi
感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是? 截图放在附件中,麻烦查收
hbase(main):002:0> list_peers
PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES TABLE_CFS BANDWIDTH SERIAL
1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase ENABLED true 0 true
1 row(s)
Took 0.0463 seconds
=> #<Java::JavaUtil::ArrayList:0x79d49790>
hbase(main):003:0> status 'replication'
version 2.1.0-cdh6.3.2
5 live servers
centos-bigdata-datanode-10-2-5-197.intsig.internal:
SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication Lag=17631
SINK : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
centos-bigdata-datanode-10-2-5-198.intsig.internal:
SOURCE: PeerID=1, AgeOfLastShippedOp=40642518, SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST 2021, Replication Lag=40642518
SINK : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
centos-bigdata-datanode-10-2-5-199.intsig.internal:
SOURCE: PeerID=1, AgeOfLastShippedOp=40761400, SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST 2021, Replication Lag=40761400
SINK : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
centos-bigdata-datanode-10-2-5-200.intsig.internal:
SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
SINK : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
centos-bigdata-datanode-10-2-5-205.intsig.internal:
SOURCE: PeerID=1, AgeOfLastShippedOp=40698192, SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST 2021, Replication Lag=40698192
SINK : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
Took 0.0439 seconds
=> #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月4日(星期一) 晚上9:22
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
另外你具体的replication peer是啥状态?
sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午11:27写道:
> hi
> 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
>
> 上午11点21:01.959分 WARN ReplicationSource
>
> WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>
> 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>
> complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
>
> 上午11点21:02.736分 INFO AbstractFSWAL
>
> Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>
> 上午11点21:02.736分 WARN LogRoller
>
> Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
>
> 上午11点21:02.736分 WARN LogRoller
>
> Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "sudo rm -rf /*" <2326130720@qq.com>;
> *发送时间:* 2021年1月4日(星期一) 中午11:21
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *抄送:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> hi
> 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <palomino219@gmail.com>;
> *发送时间:* 2021年1月4日(星期一) 中午11:05
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 图片还是看不到。。。
>
> 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
>
> sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午10:45写道:
>
> > hi,
> > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> > log已经卡在一端有三个多月,我截图了ReplicationSource
> > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> > 图片请查看附件,感谢感谢
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <18031031@qq.com>;
> > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > 记得之前你问过这个问题,我也回复过。
> > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> >
> >
> >
> >
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:
> > "user-zh"
> > <2326130720@qq.com&gt;;
> > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> >
> > 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> >
> >
> > hi
> > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> >
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > 发件人:
> > "user-zh"
> > <weichiu@cloudera.com.INVALID&gt;;
> > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> >
> > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> >
> >
> > 圖片似乎還是無法顯示 煩請重發一次
> >
> > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> > wrote:
> >
> > &gt; hi
> > &gt;
> > &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> > &gt;
> > &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > &gt; hbase2.1.0-cdh-6.3.2
> > &gt;
> > &gt; 目前多次遇到以下异常现象。
> > &gt;
> > &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> > Log还在replication队列中。如下图
> > &gt;
> > &gt;
> > &gt;
> > &gt;
> > &gt;
> > &gt; 图中积压的replication数据时间戳显示九月份
> > &gt;
> > &gt; 第二个异常,WALs oldWals目录异常庞大
> > &gt;
> > &gt; 主集群
> > &gt;
> > &gt;
> > &gt; 备集群
> > &gt;
> > &gt;
> > &gt; Replication相关线程的信息如下图
> > &gt;
> > &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> > &gt;
> > &gt;
> > &gt;
> >
>
Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
另外你具体的replication peer是啥状态?
sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午11:27写道:
> hi
> 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
>
> 上午11点21:01.959分 WARN ReplicationSource
>
> WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>
> 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>
> complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
>
> 上午11点21:02.736分 INFO AbstractFSWAL
>
> Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>
> 上午11点21:02.736分 WARN LogRoller
>
> Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
>
> 上午11点21:02.736分 WARN LogRoller
>
> Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "sudo rm -rf /*" <23...@qq.com>;
> *发送时间:* 2021年1月4日(星期一) 中午11:21
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *抄送:* "user-zh"<us...@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> hi
> 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <pa...@gmail.com>;
> *发送时间:* 2021年1月4日(星期一) 中午11:05
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 图片还是看不到。。。
>
> 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
>
> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
>
> > hi,
> > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> > log已经卡在一端有三个多月,我截图了ReplicationSource
> > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> > 图片请查看附件,感谢感谢
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <18...@qq.com>;
> > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > 记得之前你问过这个问题,我也回复过。
> > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> >
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > 发件人:
> > "user-zh"
> > <2326130720@qq.com>;
> > 发送时间: 2020年12月31日(星期四) 下午2:27
> > 收件人: "user-zh"<user-zh@hbase.apache.org>;
> >
> > 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> >
> >
> > hi
> > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> >
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > 发件人:
> > "user-zh"
> > <weichiu@cloudera.com.INVALID>;
> > 发送时间: 2020年12月31日(星期四) 下午2:21
> > 收件人: "user-zh"<user-zh@hbase.apache.org>;
> >
> > 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> >
> >
> > 圖片似乎還是無法顯示 煩請重發一次
> >
> > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com>
> > wrote:
> >
> > > hi
> > >
> > > 刚刚那封邮件图片显示可能有问题,重发一次。
> > >
> > > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > > hbase2.1.0-cdh-6.3.2
> > >
> > > 目前多次遇到以下异常现象。
> > >
> > > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> > Log还在replication队列中。如下图
> > >
> > >
> > >
> > >
> > >
> > > 图中积压的replication数据时间戳显示九月份
> > >
> > > 第二个异常,WALs oldWals目录异常庞大
> > >
> > > 主集群
> > >
> > >
> > > 备集群
> > >
> > >
> > > Replication相关线程的信息如下图
> > >
> > > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> > >
> > >
> > >
> >
>
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
hi
刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
上午11点21:01.959分WARNReplicationSourceWAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
上午11点21:01.979分WARNFanOutOneBlockAsyncDFSOutputHelpercomplete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
上午11点21:02.736分INFOAbstractFSWALToo many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
上午11点21:02.736分WARNLogRollerFailed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
上午11点21:02.736分WARNLogRollerFailed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
------------------ 原始邮件 ------------------
发件人: "sudo rm -rf /*" <2326130720@qq.com>;
发送时间: 2021年1月4日(星期一) 中午11:21
收件人: "user-zh"<user-zh@hbase.apache.org>;
抄送: "user-zh"<user-zh@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
图片还是看不到。。。
日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午10:45写道:
> hi,
> 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18031031@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> wrote:
>
> &gt; hi
> &gt;
> &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;
> &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt; hbase2.1.0-cdh-6.3.2
> &gt;
> &gt; 目前多次遇到以下异常现象。
> &gt;
> &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; 图中积压的replication数据时间戳显示九月份
> &gt;
> &gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;
> &gt; 主集群
> &gt;
> &gt;
> &gt; 备集群
> &gt;
> &gt;
> &gt; Replication相关线程的信息如下图
> &gt;
> &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;
> &gt;
> &gt;
>
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
hi
感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com>;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
图片还是看不到。。。
日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
sudo rm -rf /* <2326130720@qq.com> 于2021年1月4日周一 上午10:45写道:
> hi,
> 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18031031@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> wrote:
>
> &gt; hi
> &gt;
> &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;
> &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt; hbase2.1.0-cdh-6.3.2
> &gt;
> &gt; 目前多次遇到以下异常现象。
> &gt;
> &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; 图中积压的replication数据时间戳显示九月份
> &gt;
> &gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;
> &gt; 主集群
> &gt;
> &gt;
> &gt; 备集群
> &gt;
> &gt;
> &gt; Replication相关线程的信息如下图
> &gt;
> &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;
> &gt;
> &gt;
>
Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
图片还是看不到。。。
日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
> hi,
> 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18...@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com>;
> 发送时间: 2020年12月31日(星期四) 下午2:27
> 收件人: "user-zh"<user-zh@hbase.apache.org>;
>
> 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID>;
> 发送时间: 2020年12月31日(星期四) 下午2:21
> 收件人: "user-zh"<user-zh@hbase.apache.org>;
>
> 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com>
> wrote:
>
> > hi
> >
> > 刚刚那封邮件图片显示可能有问题,重发一次。
> >
> > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > hbase2.1.0-cdh-6.3.2
> >
> > 目前多次遇到以下异常现象。
> >
> > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> >
> >
> >
> >
> >
> > 图中积压的replication数据时间戳显示九月份
> >
> > 第二个异常,WALs oldWals目录异常庞大
> >
> > 主集群
> >
> >
> > 备集群
> >
> >
> > Replication相关线程的信息如下图
> >
> > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> >
> >
> >
>
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by sudo rm -rf /* <23...@qq.com>.
hi,
非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL log已经卡在一端有三个多月,我截图了ReplicationSource 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
图片请查看附件,感谢感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <18031031@qq.com>;
发送时间: 2021年1月2日(星期六) 晚上7:43
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
记得之前你问过这个问题,我也回复过。
你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
------------------&nbsp;原始邮件&nbsp;------------------
发件人: "user-zh" <2326130720@qq.com&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <weichiu@cloudera.com.INVALID&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
圖片似乎還是無法顯示 煩請重發一次
On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt; wrote:
&gt; hi
&gt;
&gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt;
&gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; hbase2.1.0-cdh-6.3.2
&gt;
&gt; 目前多次遇到以下异常现象。
&gt;
&gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 图中积压的replication数据时间戳显示九月份
&gt;
&gt; 第二个异常,WALs oldWals目录异常庞大
&gt;
&gt; 主集群
&gt;
&gt;
&gt; 备集群
&gt;
&gt;
&gt; Replication相关线程的信息如下图
&gt;
&gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt;
&gt;
&gt;
回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
Posted by zheng wang <18...@qq.com>.
记得之前你问过这个问题,我也回复过。
你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
------------------ 原始邮件 ------------------
发件人: "user-zh" <2326130720@qq.com>;
发送时间: 2020年12月31日(星期四) 下午2:27
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
------------------ 原始邮件 ------------------
发件人: "user-zh" <weichiu@cloudera.com.INVALID>;
发送时间: 2020年12月31日(星期四) 下午2:21
收件人: "user-zh"<user-zh@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
圖片似乎還是無法顯示 煩請重發一次
On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com> wrote:
> hi
>
> 刚刚那封邮件图片显示可能有问题,重发一次。
>
> 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> hbase2.1.0-cdh-6.3.2
>
> 目前多次遇到以下异常现象。
>
> 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
>
>
>
>
>
> 图中积压的replication数据时间戳显示九月份
>
> 第二个异常,WALs oldWals目录异常庞大
>
> 主集群
>
>
> 备集群
>
>
> Replication相关线程的信息如下图
>
> 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
>
>
>