You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@hbase.apache.org by sudo rm -rf /* <23...@qq.com> on 2020/12/31 06:27:45 UTC

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <weichiu@cloudera.com.INVALID&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



圖片似乎還是無法顯示 煩請重發一次

On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt; wrote:

&gt; hi
&gt;
&gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt;
&gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; hbase2.1.0-cdh-6.3.2
&gt;
&gt; 目前多次遇到以下异常现象。
&gt;
&gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 图中积压的replication数据时间戳显示九月份
&gt;
&gt; 第二个异常,WALs oldWals目录异常庞大
&gt;
&gt; 主集群
&gt;
&gt;
&gt; 备集群
&gt;
&gt;
&gt; Replication相关线程的信息如下图
&gt;
&gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt;
&gt;
&gt;

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by zheng wang <18...@qq.com>.
我在2.0碰到过一个bug,现象跟你描述的是一样的,刚才看了下2.1.0,貌似也存在,这个bug如果是2个集群同时都有写入的话,就不会触发。
https://issues.apache.org/jira/browse/HBASE-23008




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "zheng wang"                                                                                    <18031031@qq.com&gt;;
发送时间:&nbsp;2021年1月2日(星期六) 晚上7:43
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



记得之前你问过这个问题,我也回复过。
你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?




------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
发件人:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <2326130720@qq.com&amp;gt;;
发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;

主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢




------------------ 原始邮件 ------------------
发件人:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <weichiu@cloudera.com.INVALID&amp;gt;;
发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;

主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



圖片似乎還是無法顯示 煩請重發一次

On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt; wrote:

&amp;gt; hi
&amp;gt;
&amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&amp;gt;
&amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&amp;gt; hbase2.1.0-cdh-6.3.2
&amp;gt;
&amp;gt; 目前多次遇到以下异常现象。
&amp;gt;
&amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt; 图中积压的replication数据时间戳显示九月份
&amp;gt;
&amp;gt; 第二个异常,WALs oldWals目录异常庞大
&amp;gt;
&amp;gt; 主集群
&amp;gt;
&amp;gt;
&amp;gt; 备集群
&amp;gt;
&amp;gt;
&amp;gt; Replication相关线程的信息如下图
&amp;gt;
&amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&amp;gt;
&amp;gt;
&amp;gt;

回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
在滴滴一篇HBase相关的文章中提到了这个HBASE-22620,https://issues.apache.org/jira/browse/HBASE-22620,issue中提到的patch只能打在1.4.8版本中,HBASE-22620中所叙述的现象跟我们很像,就是不知到原因是否相同


------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "凡尔"                                                                                    <xiaozhang0319@163.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:38
收件人:&nbsp;"sudo rm -rf /*"<2326130720@qq.com&gt;;
抄送:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



             这个问题是不是HBASE-16721引发的

                                                                                                                                                                                           凡尔
                                                          
                                                                                                       
                                                                      xiaozhang0319@163.com                                 
                                                                                                       
                                                                                                       
                                                                                                       
                                                                      一名热爱生活的青年                                 
                         
                                      
                            
在2021年01月04日 11:26,sudo rm -rf /* 写道: 

hi
&nbsp;刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文


上午11点21:01.959分WARNReplicationSourceWAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2

上午11点21:01.979分WARNFanOutOneBlockAsyncDFSOutputHelpercomplete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0

上午11点21:02.736分INFOAbstractFSWALToo many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98 
上午11点21:02.736分WARNLogRollerFailed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null 
上午11点21:02.736分WARNLogRollerFailed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null



------------------ 原始邮件 ------------------
发件人:                                                                                                                        "sudo rm -rf /*"                                                                                    <2326130720@qq.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:21
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
抄送:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



hi
&nbsp; &nbsp; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢




------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:05
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



图片还是看不到。。。

日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?

sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午10:45写道:

&gt; hi,
&gt; &nbsp; &nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
&gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt; 图片请查看附件,感谢感谢
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
&gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt; 记得之前你问过这个问题,我也回复过。
&gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <2326130720@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; hi
&gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <weichiu@cloudera.com.INVALID&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; 圖片似乎還是無法顯示 煩請重發一次
&gt;
&gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt;
&gt; wrote:
&gt;
&gt; &amp;gt; hi
&gt; &amp;gt;
&gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt; &amp;gt;
&gt; &amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; &amp;gt; hbase2.1.0-cdh-6.3.2
&gt; &amp;gt;
&gt; &amp;gt; 目前多次遇到以下异常现象。
&gt; &amp;gt;
&gt; &amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt; Log还在replication队列中。如下图
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
&gt; &amp;gt;
&gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt; &amp;gt;
&gt; &amp;gt; 主集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 备集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; Replication相关线程的信息如下图
&gt; &amp;gt;
&gt; &amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt;

回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
在滴滴一篇HBase相关的文章中提到了这个HBASE-22620,https://issues.apache.org/jira/browse/HBASE-22620,issue中提到的patch只能打在1.4.8版本中,HBASE-22620中所叙述的现象跟我们很像,就是不知到原因是否相同


------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <xiaozhang0319@163.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:38
收件人:&nbsp;"sudo rm -rf /*"<2326130720@qq.com&gt;;
抄送:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



这个问题是不是HBASE-16721引发的


| |
凡尔
xiaozhang0319@163.com
一名热爱生活的青年
|
在2021年01月04日 11:26,sudo rm -rf /* 写道:
hi
&nbsp;刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文


| 上午11点21:01.959分 | WARN | ReplicationSource |
WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
|
| 上午11点21:01.979分 | WARN | FanOutOneBlockAsyncDFSOutputHelper |
complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
|
| 上午11点21:02.736分 | INFO | AbstractFSWAL |
Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98

|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null

|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
|


------------------ 原始邮件 ------------------
发件人: "sudo rm -rf /*" <2326130720@qq.com&gt;;
发送时间: 2021年1月4日(星期一) 中午11:21
收件人: "user-zh"<user-zh@hbase.apache.org&gt;;
抄送: "user-zh"<user-zh@hbase.apache.org&gt;;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象


hi
&nbsp;&nbsp;&nbsp; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢




------------------ 原始邮件 ------------------
发件人: "user-zh" <palomino219@gmail.com&gt;;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<user-zh@hbase.apache.org&gt;;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象


图片还是看不到。。。

日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?

sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午10:45写道:

&gt; hi,
&gt;&nbsp;&nbsp;&nbsp;&nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
&gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt; 图片请查看附件,感谢感谢
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
&gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt; 记得之前你问过这个问题,我也回复过。
&gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <2326130720@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; hi
&gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <weichiu@cloudera.com.INVALID&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; 圖片似乎還是無法顯示 煩請重發一次
&gt;
&gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt;
&gt; wrote:
&gt;
&gt; &amp;gt; hi
&gt; &amp;gt;
&gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt; &amp;gt;
&gt; &amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; &amp;gt; hbase2.1.0-cdh-6.3.2
&gt; &amp;gt;
&gt; &amp;gt; 目前多次遇到以下异常现象。
&gt; &amp;gt;
&gt; &amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt; Log还在replication队列中。如下图
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
&gt; &amp;gt;
&gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt; &amp;gt;
&gt; &amp;gt; 主集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 备集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; Replication相关线程的信息如下图
&gt; &amp;gt;
&gt; &amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt;

回复:求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by 凡尔 <xi...@163.com>.
这个问题是不是HBASE-16721引发的


| |
凡尔
xiaozhang0319@163.com
一名热爱生活的青年
|
在2021年01月04日 11:26,sudo rm -rf /* 写道:
hi
 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文


| 上午11点21:01.959分 | WARN | ReplicationSource |
WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
|
| 上午11点21:01.979分 | WARN | FanOutOneBlockAsyncDFSOutputHelper |
complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
|
| 上午11点21:02.736分 | INFO | AbstractFSWAL |
Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98

|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null

|
| 上午11点21:02.736分 | WARN | LogRoller |
Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
|


------------------ 原始邮件 ------------------
发件人: "sudo rm -rf /*" <23...@qq.com>;
发送时间: 2021年1月4日(星期一) 中午11:21
收件人: "user-zh"<us...@hbase.apache.org>;
抄送: "user-zh"<us...@hbase.apache.org>;
主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象


hi
    感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢




------------------ 原始邮件 ------------------
发件人: "user-zh" <pa...@gmail.com>;
发送时间: 2021年1月4日(星期一) 中午11:05
收件人: "user-zh"<us...@hbase.apache.org>;
主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象


图片还是看不到。。。

日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?

sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:

> hi,
>     非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18...@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> wrote:
>
> &gt; hi
> &gt;
> &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;
> &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt; hbase2.1.0-cdh-6.3.2
> &gt;
> &gt; 目前多次遇到以下异常现象。
> &gt;
> &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; 图中积压的replication数据时间戳显示九月份
> &gt;
> &gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;
> &gt; 主集群
> &gt;
> &gt;
> &gt; 备集群
> &gt;
> &gt;
> &gt; Replication相关线程的信息如下图
> &gt;
> &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;
> &gt;
> &gt;
>

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
hi
&nbsp; &nbsp; 感谢您的回复,这样的问题其实已经反复出现过多次,不是偶然发生,去年升级以来,一直饱受困扰,如果可能是串行复制的原因,这个也算是一个比较大的隐患,社区是否可以进一步帮忙我们分析下问题产生的原因,尝试修复下这个问题,然后回馈社区。为了保证HBase服务的高可用,主备replication是我们依赖的一个比较重要的功能。如果您愿意的话,我们可以以公司的名义邀请您作为我们HBase的专家顾问。




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2021年1月5日(星期二) 下午4:37
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



串行复制在生产环境还没有大规模实践过,可能会有未知的bug,如果不是对HBase代码很熟悉或者有一定折腾经验,还是不建议大规模使用

这个看起来应该就是某些region的replication堵了,一直推不出去

sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 下午10:10写道:

&gt; hi
&gt; &amp;nbsp; &amp;nbsp; 我们之前用的HBase版本是1.2,开启主备replication之后,数据经常性不一致,了解到HBase2.x
&gt; 对replication有所重构,增加了串行复制特性,所以才从之前版本升级至2.1,并特意开启串行复制,以此来改善replication的问题。
&gt; &amp;nbsp; &amp;nbsp;
&gt; 升级至2.1之后,replication就经常性遇见这样的问题,之前也重启过几次,清除积压的数据,重启之后初期倒也正常,随着时间推移,就又成这个样子了
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; palomino219@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2021年1月4日(星期一) 晚上10:01
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; 哦,看到了,在最上面有
&gt;
&gt; 你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
&gt;
&gt; 张铎(Duo Zhang) <palomino219@gmail.com&amp;gt; 于2021年1月4日周一 下午9:58写道:
&gt;
&gt; &amp;gt; shell里敲
&gt; &amp;gt;
&gt; &amp;gt; list_peers
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <2326130720@qq.com&amp;gt; 于2021年1月4日周一 下午9:33写道:
&gt; &amp;gt;
&gt; &amp;gt;&amp;gt; hi
&gt; &amp;gt;&amp;gt;&amp;nbsp; 感谢您的回复,日志中没有Replication的ERROR信息,replication
&gt; peer是啥状态?这句话的意思是?
&gt; &amp;gt;&amp;gt; 截图放在附件中,麻烦查收
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; hbase(main):002:0&amp;gt; list_peers
&gt; &amp;gt;&amp;gt;&amp;nbsp; PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL
&gt; NAMESPACES
&gt; &amp;gt;&amp;gt; TABLE_CFS BANDWIDTH SERIAL
&gt; &amp;gt;&amp;gt;&amp;nbsp; 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase&amp;nbsp;
&gt; ENABLED true
&gt; &amp;gt;&amp;gt;&amp;nbsp; 0 true
&gt; &amp;gt;&amp;gt; 1 row(s)
&gt; &amp;gt;&amp;gt; Took 0.0463 seconds
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; =&amp;gt; #<Java::JavaUtil::ArrayList:0x79d49790&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; hbase(main):003:0&amp;gt; status 'replication'
&gt; &amp;gt;&amp;gt; version 2.1.0-cdh6.3.2
&gt; &amp;gt;&amp;gt; 5 live servers
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; centos-bigdata-datanode-10-2-5-197.intsig.internal:
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SOURCE: PeerID=1,
&gt; AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
&gt; &amp;gt;&amp;gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021,
&gt; Replication
&gt; &amp;gt;&amp;gt; Lag=17631
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SINK&amp;nbsp; :
&gt; AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
&gt; &amp;gt;&amp;gt; 04 21:30:01 CST 2021
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; centos-bigdata-datanode-10-2-5-198.intsig.internal:
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SOURCE: PeerID=1,
&gt; AgeOfLastShippedOp=40642518,
&gt; &amp;gt;&amp;gt; SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04
&gt; 21:29:49 CST
&gt; &amp;gt;&amp;gt; 2021, Replication Lag=40642518
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SINK&amp;nbsp; :
&gt; AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
&gt; &amp;gt;&amp;gt; 04 21:30:01 CST 2021
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; centos-bigdata-datanode-10-2-5-199.intsig.internal:
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SOURCE: PeerID=1,
&gt; AgeOfLastShippedOp=40761400,
&gt; &amp;gt;&amp;gt; SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04
&gt; 21:29:55 CST
&gt; &amp;gt;&amp;gt; 2021, Replication Lag=40761400
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SINK&amp;nbsp; :
&gt; AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
&gt; &amp;gt;&amp;gt; 04 21:30:01 CST 2021
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; centos-bigdata-datanode-10-2-5-200.intsig.internal:
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SOURCE: PeerID=1,
&gt; AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
&gt; &amp;gt;&amp;gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021,
&gt; Replication Lag=2979
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SINK&amp;nbsp; :
&gt; AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
&gt; &amp;gt;&amp;gt; 04 21:30:01 CST 2021
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; centos-bigdata-datanode-10-2-5-205.intsig.internal:
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SOURCE: PeerID=1,
&gt; AgeOfLastShippedOp=40698192,
&gt; &amp;gt;&amp;gt; SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04
&gt; 21:29:45 CST
&gt; &amp;gt;&amp;gt; 2021, Replication Lag=40698192
&gt; &amp;gt;&amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; SINK&amp;nbsp; :
&gt; AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
&gt; &amp;gt;&amp;gt; 04 21:30:01 CST 2021
&gt; &amp;gt;&amp;gt; Took 0.0439 seconds
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; =&amp;gt;
&gt; #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; ------------------ 原始邮件 ------------------
&gt; &amp;gt;&amp;gt; *发件人:* "user-zh" <palomino219@gmail.com&amp;gt;;
&gt; &amp;gt;&amp;gt; *发送时间:* 2021年1月4日(星期一) 晚上9:22
&gt; &amp;gt;&amp;gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &amp;gt;&amp;gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; 另外你具体的replication peer是啥状态?
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; sudo rm -rf /* <2326130720@qq.com&amp;gt; 于2021年1月4日周一 上午11:27写道:
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; hi
&gt; &amp;gt;&amp;gt; &amp;gt;&amp;nbsp;
&gt; 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; 上午11点21:01.959分 WARN ReplicationSource
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; WAL group
&gt; &amp;gt;&amp;gt;
&gt; centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
&gt; &amp;gt;&amp;gt; queue size: 86709 exceeds value of
&gt; replication.source.log.queue.warn: 2
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; complete file
&gt; &amp;gt;&amp;gt;
&gt; /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
&gt; &amp;gt;&amp;gt; not finished, retry = 0
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; 上午11点21:02.736分 INFO AbstractFSWAL
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; Too many WALs; count=16512, max=256; forcing flush of 2
&gt; regions(s):
&gt; &amp;gt;&amp;gt; ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; 上午11点21:02.736分 WARN LogRoller
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
&gt; &amp;gt;&amp;gt; region=null, requester=null
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; 上午11点21:02.736分 WARN LogRoller
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
&gt; &amp;gt;&amp;gt; region=null, requester=null
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; ------------------ 原始邮件 ------------------
&gt; &amp;gt;&amp;gt; &amp;gt; *发件人:* "sudo rm -rf /*" <2326130720@qq.com&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; *发送时间:* 2021年1月4日(星期一) 中午11:21
&gt; &amp;gt;&amp;gt; &amp;gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; *抄送:* "user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; hi
&gt; &amp;gt;&amp;gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; ------------------ 原始邮件 ------------------
&gt; &amp;gt;&amp;gt; &amp;gt; *发件人:* "user-zh" <palomino219@gmail.com&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; *发送时间:* 2021年1月4日(星期一) 中午11:05
&gt; &amp;gt;&amp;gt; &amp;gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; 图片还是看不到。。。
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; sudo rm -rf /* <2326130720@qq.com&amp;gt; 于2021年1月4日周一
&gt; 上午10:45写道:
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; hi,
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 非常抱歉,需要再次打扰,HBase replication
&gt; 目前处于阻塞状态,某一WAL
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 图片请查看附件,感谢感谢
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; ------------------ 原始邮件 ------------------
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; *发件人:* "user-zh" <18031031@qq.com&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 记得之前你问过这个问题,我也回复过。
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; "user-zh"
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; <2326130720@qq.com&amp;amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 主题:&amp;amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; hi
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; ------------------ 原始邮件 ------------------
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; "user-zh"
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; <weichiu@cloudera.com.INVALID&amp;amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;gt;;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 主题:&amp;amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; 圖片似乎還是無法顯示 煩請重發一次
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <
&gt; 2326130720@qq.com&amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; wrote:
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; hi
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; hbase2.1.0-cdh-6.3.2
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 目前多次遇到以下异常现象。
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 第一:replication
&gt; 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; Log还在replication队列中。如下图
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 图中积压的replication数据时间戳显示九月份
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 主集群
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; 备集群
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt; Replication相关线程的信息如下图
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt; &amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
串行复制在生产环境还没有大规模实践过,可能会有未知的bug,如果不是对HBase代码很熟悉或者有一定折腾经验,还是不建议大规模使用

这个看起来应该就是某些region的replication堵了,一直推不出去

sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 下午10:10写道:

> hi
> &nbsp; &nbsp; 我们之前用的HBase版本是1.2,开启主备replication之后,数据经常性不一致,了解到HBase2.x
> 对replication有所重构,增加了串行复制特性,所以才从之前版本升级至2.1,并特意开启串行复制,以此来改善replication的问题。
> &nbsp; &nbsp;
> 升级至2.1之后,replication就经常性遇见这样的问题,之前也重启过几次,清除积压的数据,重启之后初期倒也正常,随着时间推移,就又成这个样子了
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> palomino219@gmail.com&gt;;
> 发送时间:&nbsp;2021年1月4日(星期一) 晚上10:01
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 哦,看到了,在最上面有
>
> 你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了
>
> 张铎(Duo Zhang) <palomino219@gmail.com&gt; 于2021年1月4日周一 下午9:58写道:
>
> &gt; shell里敲
> &gt;
> &gt; list_peers
> &gt;
> &gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 下午9:33写道:
> &gt;
> &gt;&gt; hi
> &gt;&gt;&nbsp; 感谢您的回复,日志中没有Replication的ERROR信息,replication
> peer是啥状态?这句话的意思是?
> &gt;&gt; 截图放在附件中,麻烦查收
> &gt;&gt;
> &gt;&gt; hbase(main):002:0&gt; list_peers
> &gt;&gt;&nbsp; PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL
> NAMESPACES
> &gt;&gt; TABLE_CFS BANDWIDTH SERIAL
> &gt;&gt;&nbsp; 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase&nbsp;
> ENABLED true
> &gt;&gt;&nbsp; 0 true
> &gt;&gt; 1 row(s)
> &gt;&gt; Took 0.0463 seconds
> &gt;&gt;
> &gt;&gt;
> &gt;&gt; =&gt; #<Java::JavaUtil::ArrayList:0x79d49790&gt;
> &gt;&gt;
> &gt;&gt; hbase(main):003:0&gt; status 'replication'
> &gt;&gt; version 2.1.0-cdh6.3.2
> &gt;&gt; 5 live servers
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-197.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
> &gt;&gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021,
> Replication
> &gt;&gt; Lag=17631
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-198.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=40642518,
> &gt;&gt; SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:49 CST
> &gt;&gt; 2021, Replication Lag=40642518
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-199.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=40761400,
> &gt;&gt; SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:55 CST
> &gt;&gt; 2021, Replication Lag=40761400
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-200.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
> &gt;&gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021,
> Replication Lag=2979
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;
> centos-bigdata-datanode-10-2-5-205.intsig.internal:
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1,
> AgeOfLastShippedOp=40698192,
> &gt;&gt; SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04
> 21:29:45 CST
> &gt;&gt; 2021, Replication Lag=40698192
> &gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; :
> AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
> &gt;&gt; 04 21:30:01 CST 2021
> &gt;&gt; Took 0.0439 seconds
> &gt;&gt;
> &gt;&gt;
> &gt;&gt; =&gt;
> #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df&gt;
> &gt;&gt;
> &gt;&gt;
> &gt;&gt;
> &gt;&gt; ------------------ 原始邮件 ------------------
> &gt;&gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
> &gt;&gt; *发送时间:* 2021年1月4日(星期一) 晚上9:22
> &gt;&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt;
> &gt;&gt; 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
> &gt;&gt;
> &gt;&gt; 另外你具体的replication peer是啥状态?
> &gt;&gt;
> &gt;&gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午11:27写道:
> &gt;&gt;
> &gt;&gt; &gt; hi
> &gt;&gt; &gt;&nbsp;
> 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:01.959分 WARN ReplicationSource
> &gt;&gt; &gt;
> &gt;&gt; &gt; WAL group
> &gt;&gt;
> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
> &gt;&gt; queue size: 86709 exceeds value of
> replication.source.log.queue.warn: 2
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
> &gt;&gt; &gt;
> &gt;&gt; &gt; complete file
> &gt;&gt;
> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
> &gt;&gt; not finished, retry = 0
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:02.736分 INFO AbstractFSWAL
> &gt;&gt; &gt;
> &gt;&gt; &gt; Too many WALs; count=16512, max=256; forcing flush of 2
> regions(s):
> &gt;&gt; ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:02.736分 WARN LogRoller
> &gt;&gt; &gt;
> &gt;&gt; &gt; Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
> &gt;&gt; region=null, requester=null
> &gt;&gt; &gt;
> &gt;&gt; &gt; 上午11点21:02.736分 WARN LogRoller
> &gt;&gt; &gt;
> &gt;&gt; &gt; Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
> &gt;&gt; region=null, requester=null
> &gt;&gt; &gt;
> &gt;&gt; &gt;
> &gt;&gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; *发件人:* "sudo rm -rf /*" <2326130720@qq.com&gt;;
> &gt;&gt; &gt; *发送时间:* 2021年1月4日(星期一) 中午11:21
> &gt;&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; *抄送:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt;
> &gt;&gt; &gt; hi
> &gt;&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;
> 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> &gt;&gt; &gt;
> &gt;&gt;
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
> &gt;&gt; &gt;
> &gt;&gt; &gt;
> &gt;&gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
> &gt;&gt; &gt; *发送时间:* 2021年1月4日(星期一) 中午11:05
> &gt;&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt;
> &gt;&gt; &gt; 图片还是看不到。。。
> &gt;&gt; &gt;
> &gt;&gt; &gt;
> 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
> &gt;&gt; &gt;
> &gt;&gt; &gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一
> 上午10:45写道:
> &gt;&gt; &gt;
> &gt;&gt; &gt; &gt; hi,
> &gt;&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; 非常抱歉,需要再次打扰,HBase replication
> 目前处于阻塞状态,某一WAL
> &gt;&gt; &gt; &gt; log已经卡在一端有三个多月,我截图了ReplicationSource
> &gt;&gt; &gt; &gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> &gt;&gt; &gt; &gt; 图片请查看附件,感谢感谢
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; &gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
> &gt;&gt; &gt; &gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
> &gt;&gt; &gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
> &gt;&gt; &gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 记得之前你问过这个问题,我也回复过。
> &gt;&gt; &gt; &gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt;&gt; &gt; &gt; 发件人:
> &gt;&gt; &gt; &gt; "user-zh"
> &gt;&gt; &gt; &gt; <2326130720@qq.com&amp;gt;;
> &gt;&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
> &gt;&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org
> &amp;gt;;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; hi
> &gt;&gt; &gt; &gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; ------------------ 原始邮件 ------------------
> &gt;&gt; &gt; &gt; 发件人:
> &gt;&gt; &gt; &gt; "user-zh"
> &gt;&gt; &gt; &gt; <weichiu@cloudera.com.INVALID&amp;gt;;
> &gt;&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
> &gt;&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org
> &amp;gt;;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; 圖片似乎還是無法顯示 煩請重發一次
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <
> 2326130720@qq.com&amp;gt;
> &gt;&gt; &gt; &gt; wrote:
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt; &gt; &amp;gt; hi
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt;&gt; &gt; &gt; &amp;gt; hbase2.1.0-cdh-6.3.2
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 目前多次遇到以下异常现象。
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 第一:replication
> 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> &gt;&gt; &gt; &gt; Log还在replication队列中。如下图
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 主集群
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; 备集群
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt; Replication相关线程的信息如下图
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt; &amp;gt;
> &gt;&gt; &gt; &gt;
> &gt;&gt; &gt;
> &gt;&gt;
> &gt;

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
hi
&nbsp; &nbsp; 我们之前用的HBase版本是1.2,开启主备replication之后,数据经常性不一致,了解到HBase2.x 对replication有所重构,增加了串行复制特性,所以才从之前版本升级至2.1,并特意开启串行复制,以此来改善replication的问题。
&nbsp; &nbsp; 升级至2.1之后,replication就经常性遇见这样的问题,之前也重启过几次,清除积压的数据,重启之后初期倒也正常,随着时间推移,就又成这个样子了




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 晚上10:01
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



哦,看到了,在最上面有

你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了

张铎(Duo Zhang) <palomino219@gmail.com&gt; 于2021年1月4日周一 下午9:58写道:

&gt; shell里敲
&gt;
&gt; list_peers
&gt;
&gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 下午9:33写道:
&gt;
&gt;&gt; hi
&gt;&gt;&nbsp; 感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是?
&gt;&gt; 截图放在附件中,麻烦查收
&gt;&gt;
&gt;&gt; hbase(main):002:0&gt; list_peers
&gt;&gt;&nbsp; PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
&gt;&gt; TABLE_CFS BANDWIDTH SERIAL
&gt;&gt;&nbsp; 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase&nbsp; ENABLED true
&gt;&gt;&nbsp; 0 true
&gt;&gt; 1 row(s)
&gt;&gt; Took 0.0463 seconds
&gt;&gt;
&gt;&gt;
&gt;&gt; =&gt; #<Java::JavaUtil::ArrayList:0x79d49790&gt;
&gt;&gt;
&gt;&gt; hbase(main):003:0&gt; status 'replication'
&gt;&gt; version 2.1.0-cdh6.3.2
&gt;&gt; 5 live servers
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; centos-bigdata-datanode-10-2-5-197.intsig.internal:
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
&gt;&gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
&gt;&gt; Lag=17631
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
&gt;&gt; 04 21:30:01 CST 2021
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; centos-bigdata-datanode-10-2-5-198.intsig.internal:
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
&gt;&gt; SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
&gt;&gt; 2021, Replication Lag=40642518
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
&gt;&gt; 04 21:30:01 CST 2021
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; centos-bigdata-datanode-10-2-5-199.intsig.internal:
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
&gt;&gt; SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
&gt;&gt; 2021, Replication Lag=40761400
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
&gt;&gt; 04 21:30:01 CST 2021
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; centos-bigdata-datanode-10-2-5-200.intsig.internal:
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
&gt;&gt; TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
&gt;&gt; 04 21:30:01 CST 2021
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; centos-bigdata-datanode-10-2-5-205.intsig.internal:
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
&gt;&gt; SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
&gt;&gt; 2021, Replication Lag=40698192
&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SINK&nbsp; : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
&gt;&gt; 04 21:30:01 CST 2021
&gt;&gt; Took 0.0439 seconds
&gt;&gt;
&gt;&gt;
&gt;&gt; =&gt; #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt; ------------------ 原始邮件 ------------------
&gt;&gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
&gt;&gt; *发送时间:* 2021年1月4日(星期一) 晚上9:22
&gt;&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt;&gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;&gt;
&gt;&gt; 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
&gt;&gt;
&gt;&gt; 另外你具体的replication peer是啥状态?
&gt;&gt;
&gt;&gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午11:27写道:
&gt;&gt;
&gt;&gt; &gt; hi
&gt;&gt; &gt;&nbsp; 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
&gt;&gt; &gt;
&gt;&gt; &gt; 上午11点21:01.959分 WARN ReplicationSource
&gt;&gt; &gt;
&gt;&gt; &gt; WAL group
&gt;&gt; centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
&gt;&gt; queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
&gt;&gt; &gt;
&gt;&gt; &gt; 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
&gt;&gt; &gt;
&gt;&gt; &gt; complete file
&gt;&gt; /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
&gt;&gt; not finished, retry = 0
&gt;&gt; &gt;
&gt;&gt; &gt; 上午11点21:02.736分 INFO AbstractFSWAL
&gt;&gt; &gt;
&gt;&gt; &gt; Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
&gt;&gt; ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
&gt;&gt; &gt;
&gt;&gt; &gt; 上午11点21:02.736分 WARN LogRoller
&gt;&gt; &gt;
&gt;&gt; &gt; Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
&gt;&gt; region=null, requester=null
&gt;&gt; &gt;
&gt;&gt; &gt; 上午11点21:02.736分 WARN LogRoller
&gt;&gt; &gt;
&gt;&gt; &gt; Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
&gt;&gt; region=null, requester=null
&gt;&gt; &gt;
&gt;&gt; &gt;
&gt;&gt; &gt; ------------------ 原始邮件 ------------------
&gt;&gt; &gt; *发件人:* "sudo rm -rf /*" <2326130720@qq.com&gt;;
&gt;&gt; &gt; *发送时间:* 2021年1月4日(星期一) 中午11:21
&gt;&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt;&gt; &gt; *抄送:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt;&gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;&gt; &gt;
&gt;&gt; &gt; hi
&gt;&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
&gt;&gt; &gt;
&gt;&gt; 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
&gt;&gt; &gt;
&gt;&gt; &gt;
&gt;&gt; &gt; ------------------ 原始邮件 ------------------
&gt;&gt; &gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
&gt;&gt; &gt; *发送时间:* 2021年1月4日(星期一) 中午11:05
&gt;&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt;&gt; &gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;&gt; &gt;
&gt;&gt; &gt; 图片还是看不到。。。
&gt;&gt; &gt;
&gt;&gt; &gt; 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
&gt;&gt; &gt;
&gt;&gt; &gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午10:45写道:
&gt;&gt; &gt;
&gt;&gt; &gt; &gt; hi,
&gt;&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
&gt;&gt; &gt; &gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt;&gt; &gt; &gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt;&gt; &gt; &gt; 图片请查看附件,感谢感谢
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; ------------------ 原始邮件 ------------------
&gt;&gt; &gt; &gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
&gt;&gt; &gt; &gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt;&gt; &gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt;&gt; &gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; 记得之前你问过这个问题,我也回复过。
&gt;&gt; &gt; &gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt;&gt; &gt; &gt; 发件人:
&gt;&gt; &gt; &gt; "user-zh"
&gt;&gt; &gt; &gt; <2326130720@qq.com&amp;gt;;
&gt;&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt;&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; hi
&gt;&gt; &gt; &gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; ------------------ 原始邮件 ------------------
&gt;&gt; &gt; &gt; 发件人:
&gt;&gt; &gt; &gt; "user-zh"
&gt;&gt; &gt; &gt; <weichiu@cloudera.com.INVALID&amp;gt;;
&gt;&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt;&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; 圖片似乎還是無法顯示 煩請重發一次
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt;
&gt;&gt; &gt; &gt; wrote:
&gt;&gt; &gt; &gt;
&gt;&gt; &gt; &gt; &amp;gt; hi
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt;&gt; &gt; &gt; &amp;gt; hbase2.1.0-cdh-6.3.2
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 目前多次遇到以下异常现象。
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt;&gt; &gt; &gt; Log还在replication队列中。如下图
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 主集群
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 备集群
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; Replication相关线程的信息如下图
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt; &amp;gt;
&gt;&gt; &gt; &gt;
&gt;&gt; &gt;
&gt;&gt;
&gt;

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
哦,看到了,在最上面有

你这个是开了serial replication?有必要吗?感觉有可能是这个地方出了bug之类的,导致某些日志没推出去然后后面就全卡了

张铎(Duo Zhang) <pa...@gmail.com> 于2021年1月4日周一 下午9:58写道:

> shell里敲
>
> list_peers
>
> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 下午9:33写道:
>
>> hi
>>  感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是?
>> 截图放在附件中,麻烦查收
>>
>> hbase(main):002:0> list_peers
>>  PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
>> TABLE_CFS BANDWIDTH SERIAL
>>  1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase  ENABLED true
>>  0 true
>> 1 row(s)
>> Took 0.0463 seconds
>>
>>
>> => #<Java::JavaUtil::ArrayList:0x79d49790>
>>
>> hbase(main):003:0> status 'replication'
>> version 2.1.0-cdh6.3.2
>> 5 live servers
>>     centos-bigdata-datanode-10-2-5-197.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
>> Lag=17631
>>        SINK  : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-198.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
>> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
>> 2021, Replication Lag=40642518
>>        SINK  : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-199.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
>> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
>> 2021, Replication Lag=40761400
>>        SINK  : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-200.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
>> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
>>        SINK  : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>>     centos-bigdata-datanode-10-2-5-205.intsig.internal:
>>        SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
>> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
>> 2021, Replication Lag=40698192
>>        SINK  : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
>> 04 21:30:01 CST 2021
>> Took 0.0439 seconds
>>
>>
>> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>>
>>
>>
>> ------------------ 原始邮件 ------------------
>> *发件人:* "user-zh" <pa...@gmail.com>;
>> *发送时间:* 2021年1月4日(星期一) 晚上9:22
>> *收件人:* "user-zh"<us...@hbase.apache.org>;
>> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>>
>> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
>>
>> 另外你具体的replication peer是啥状态?
>>
>> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午11:27写道:
>>
>> > hi
>> >  刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
>> >
>> > 上午11点21:01.959分 WARN ReplicationSource
>> >
>> > WAL group
>> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
>> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>> >
>> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>> >
>> > complete file
>> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
>> not finished, retry = 0
>> >
>> > 上午11点21:02.736分 INFO AbstractFSWAL
>> >
>> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
>> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
>> region=null, requester=null
>> >
>> > 上午11点21:02.736分 WARN LogRoller
>> >
>> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
>> region=null, requester=null
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "sudo rm -rf /*" <23...@qq.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:21
>> > *收件人:* "user-zh"<us...@hbase.apache.org>;
>> > *抄送:* "user-zh"<us...@hbase.apache.org>;
>> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > hi
>> >     感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
>> >
>> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
>> >
>> >
>> > ------------------ 原始邮件 ------------------
>> > *发件人:* "user-zh" <pa...@gmail.com>;
>> > *发送时间:* 2021年1月4日(星期一) 中午11:05
>> > *收件人:* "user-zh"<us...@hbase.apache.org>;
>> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> >
>> > 图片还是看不到。。。
>> >
>> > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
>> >
>> > sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
>> >
>> > > hi,
>> > >     非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
>> > > log已经卡在一端有三个多月,我截图了ReplicationSource
>> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
>> > > 图片请查看附件,感谢感谢
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > *发件人:* "user-zh" <18...@qq.com>;
>> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
>> > > *收件人:* "user-zh"<us...@hbase.apache.org>;
>> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > > 记得之前你问过这个问题,我也回复过。
>> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>> > >
>> > >
>> > >
>> > >
>> > > ------------------&nbsp;原始邮件&nbsp;------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <2326130720@qq.com&gt;;
>> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
>> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>> > >
>> > > 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > hi
>> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>> > >
>> > >
>> > >
>> > >
>> > > ------------------ 原始邮件 ------------------
>> > > 发件人:
>> > > "user-zh"
>> > > <weichiu@cloudera.com.INVALID&gt;;
>> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
>> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>> > >
>> > > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>> > >
>> > >
>> > >
>> > > 圖片似乎還是無法顯示 煩請重發一次
>> > >
>> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
>> > > wrote:
>> > >
>> > > &gt; hi
>> > > &gt;
>> > > &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
>> > > &gt;
>> > > &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
>> > > &gt; hbase2.1.0-cdh-6.3.2
>> > > &gt;
>> > > &gt; 目前多次遇到以下异常现象。
>> > > &gt;
>> > > &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
>> > > Log还在replication队列中。如下图
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > > &gt; 图中积压的replication数据时间戳显示九月份
>> > > &gt;
>> > > &gt; 第二个异常,WALs oldWals目录异常庞大
>> > > &gt;
>> > > &gt; 主集群
>> > > &gt;
>> > > &gt;
>> > > &gt; 备集群
>> > > &gt;
>> > > &gt;
>> > > &gt; Replication相关线程的信息如下图
>> > > &gt;
>> > > &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
>> > > &gt;
>> > > &gt;
>> > > &gt;
>> > >
>> >
>>
>

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
shell里敲

list_peers

sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 下午9:33写道:

> hi
>  感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是? 截图放在附件中,麻烦查收
>
> hbase(main):002:0> list_peers
>  PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
> TABLE_CFS BANDWIDTH SERIAL
>  1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase  ENABLED true
>  0 true
> 1 row(s)
> Took 0.0463 seconds
>
>
> => #<Java::JavaUtil::ArrayList:0x79d49790>
>
> hbase(main):003:0> status 'replication'
> version 2.1.0-cdh6.3.2
> 5 live servers
>     centos-bigdata-datanode-10-2-5-197.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
> Lag=17631
>        SINK  : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-198.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
> 2021, Replication Lag=40642518
>        SINK  : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-199.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
> 2021, Replication Lag=40761400
>        SINK  : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-200.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
>        SINK  : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-205.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
> 2021, Replication Lag=40698192
>        SINK  : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
> 04 21:30:01 CST 2021
> Took 0.0439 seconds
>
>
> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <pa...@gmail.com>;
> *发送时间:* 2021年1月4日(星期一) 晚上9:22
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?
>
> 另外你具体的replication peer是啥状态?
>
> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午11:27写道:
>
> > hi
> >  刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
> >
> > 上午11点21:01.959分 WARN ReplicationSource
> >
> > WAL group
> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
> >
> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
> >
> > complete file
> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
> not finished, retry = 0
> >
> > 上午11点21:02.736分 INFO AbstractFSWAL
> >
> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
> >
> > 上午11点21:02.736分 WARN LogRoller
> >
> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
> region=null, requester=null
> >
> > 上午11点21:02.736分 WARN LogRoller
> >
> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
> region=null, requester=null
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "sudo rm -rf /*" <23...@qq.com>;
> > *发送时间:* 2021年1月4日(星期一) 中午11:21
> > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > *抄送:* "user-zh"<us...@hbase.apache.org>;
> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > hi
> >     感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> >
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <pa...@gmail.com>;
> > *发送时间:* 2021年1月4日(星期一) 中午11:05
> > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > 图片还是看不到。。。
> >
> > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
> >
> > sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
> >
> > > hi,
> > >     非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> > > log已经卡在一端有三个多月,我截图了ReplicationSource
> > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> > > 图片请查看附件,感谢感谢
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > *发件人:* "user-zh" <18...@qq.com>;
> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> > > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > > 记得之前你问过这个问题,我也回复过。
> > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> > >
> > >
> > >
> > >
> > > ------------------&nbsp;原始邮件&nbsp;------------------
> > > 发件人:
> > > "user-zh"
> > > <2326130720@qq.com&gt;;
> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> > >
> > > 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > >
> > >
> > > hi
> > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> > >
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > 发件人:
> > > "user-zh"
> > > <weichiu@cloudera.com.INVALID&gt;;
> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> > >
> > > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > >
> > >
> > > 圖片似乎還是無法顯示 煩請重發一次
> > >
> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> > > wrote:
> > >
> > > &gt; hi
> > > &gt;
> > > &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> > > &gt;
> > > &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > > &gt; hbase2.1.0-cdh-6.3.2
> > > &gt;
> > > &gt; 目前多次遇到以下异常现象。
> > > &gt;
> > > &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> > > Log还在replication队列中。如下图
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt; 图中积压的replication数据时间戳显示九月份
> > > &gt;
> > > &gt; 第二个异常,WALs oldWals目录异常庞大
> > > &gt;
> > > &gt; 主集群
> > > &gt;
> > > &gt;
> > > &gt; 备集群
> > > &gt;
> > > &gt;
> > > &gt; Replication相关线程的信息如下图
> > > &gt;
> > > &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> > > &gt;
> > > &gt;
> > > &gt;
> > >
> >
>

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
hi
&nbsp;感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是? 截图放在附件中,麻烦查收


hbase(main):002:0&gt; list_peers
&nbsp;PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES TABLE_CFS BANDWIDTH SERIAL
&nbsp;1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase&nbsp; ENABLED true&nbsp; &nbsp;0 true
1 row(s)
Took 0.0463 seconds&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;
=&gt; #<Java::JavaUtil::ArrayList:0x79d49790&gt;



hbase(main):003:0&gt; status 'replication'
version 2.1.0-cdh6.3.2
5 live servers
&nbsp; &nbsp; centos-bigdata-datanode-10-2-5-197.intsig.internal:
&nbsp; &nbsp; &nbsp; &nbsp;SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication Lag=17631
&nbsp; &nbsp; &nbsp; &nbsp;SINK&nbsp; : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
&nbsp; &nbsp; centos-bigdata-datanode-10-2-5-198.intsig.internal:
&nbsp; &nbsp; &nbsp; &nbsp;SOURCE: PeerID=1, AgeOfLastShippedOp=40642518, SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST 2021, Replication Lag=40642518
&nbsp; &nbsp; &nbsp; &nbsp;SINK&nbsp; : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
&nbsp; &nbsp; centos-bigdata-datanode-10-2-5-199.intsig.internal:
&nbsp; &nbsp; &nbsp; &nbsp;SOURCE: PeerID=1, AgeOfLastShippedOp=40761400, SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST 2021, Replication Lag=40761400
&nbsp; &nbsp; &nbsp; &nbsp;SINK&nbsp; : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
&nbsp; &nbsp; centos-bigdata-datanode-10-2-5-200.intsig.internal:
&nbsp; &nbsp; &nbsp; &nbsp;SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
&nbsp; &nbsp; &nbsp; &nbsp;SINK&nbsp; : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
&nbsp; &nbsp; centos-bigdata-datanode-10-2-5-205.intsig.internal:
&nbsp; &nbsp; &nbsp; &nbsp;SOURCE: PeerID=1, AgeOfLastShippedOp=40698192, SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST 2021, Replication Lag=40698192
&nbsp; &nbsp; &nbsp; &nbsp;SINK&nbsp; : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan 04 21:30:01 CST 2021
Took 0.0439 seconds&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;
=&gt; #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df&gt;







------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 晚上9:22
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?

另外你具体的replication peer是啥状态?

sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午11:27写道:

&gt; hi
&gt;&nbsp; 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
&gt;
&gt; 上午11点21:01.959分 WARN ReplicationSource
&gt;
&gt; WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
&gt;
&gt; 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
&gt;
&gt; complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
&gt;
&gt; 上午11点21:02.736分 INFO AbstractFSWAL
&gt;
&gt; Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
&gt;
&gt; 上午11点21:02.736分 WARN LogRoller
&gt;
&gt; Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
&gt;
&gt; 上午11点21:02.736分 WARN LogRoller
&gt;
&gt; Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "sudo rm -rf /*" <2326130720@qq.com&gt;;
&gt; *发送时间:* 2021年1月4日(星期一) 中午11:21
&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *抄送:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt; hi
&gt;&nbsp;&nbsp;&nbsp;&nbsp; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
&gt; 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "user-zh" <palomino219@gmail.com&gt;;
&gt; *发送时间:* 2021年1月4日(星期一) 中午11:05
&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt; 图片还是看不到。。。
&gt;
&gt; 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
&gt;
&gt; sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午10:45写道:
&gt;
&gt; &gt; hi,
&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
&gt; &gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt; &gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt; &gt; 图片请查看附件,感谢感谢
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt; ------------------ 原始邮件 ------------------
&gt; &gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
&gt; &gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt; &gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; &gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &gt;
&gt; &gt; 记得之前你问过这个问题,我也回复过。
&gt; &gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; &gt; 发件人:
&gt; &gt; "user-zh"
&gt; &gt; <2326130720@qq.com&amp;gt;;
&gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &gt;
&gt; &gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt; hi
&gt; &gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt; ------------------ 原始邮件 ------------------
&gt; &gt; 发件人:
&gt; &gt; "user-zh"
&gt; &gt; <weichiu@cloudera.com.INVALID&amp;gt;;
&gt; &gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt; &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt; &gt;
&gt; &gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt; 圖片似乎還是無法顯示 煩請重發一次
&gt; &gt;
&gt; &gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt;
&gt; &gt; wrote:
&gt; &gt;
&gt; &gt; &amp;gt; hi
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; &gt; &amp;gt; hbase2.1.0-cdh-6.3.2
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 目前多次遇到以下异常现象。
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt; &gt; Log还在replication队列中。如下图
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 主集群
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 备集群
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; Replication相关线程的信息如下图
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt;
&gt;

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗?

另外你具体的replication peer是啥状态?

sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午11:27写道:

> hi
>  刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文
>
> 上午11点21:01.959分 WARN ReplicationSource
>
> WAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
>
> 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
>
> complete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0
>
> 上午11点21:02.736分 INFO AbstractFSWAL
>
> Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
>
> 上午11点21:02.736分 WARN LogRoller
>
> Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null
>
> 上午11点21:02.736分 WARN LogRoller
>
> Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "sudo rm -rf /*" <23...@qq.com>;
> *发送时间:* 2021年1月4日(星期一) 中午11:21
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *抄送:* "user-zh"<us...@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> hi
>     感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log
> 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <pa...@gmail.com>;
> *发送时间:* 2021年1月4日(星期一) 中午11:05
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 图片还是看不到。。。
>
> 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?
>
> sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:
>
> > hi,
> >     非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> > log已经卡在一端有三个多月,我截图了ReplicationSource
> > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> > 图片请查看附件,感谢感谢
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <18...@qq.com>;
> > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> > *收件人:* "user-zh"<us...@hbase.apache.org>;
> > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > 记得之前你问过这个问题,我也回复过。
> > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
> >
> >
> >
> >
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:
> > "user-zh"
> > <2326130720@qq.com&gt;;
> > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> >
> > 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> >
> >
> > hi
> > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
> >
> >
> >
> >
> > ------------------ 原始邮件 ------------------
> > 发件人:
> > "user-zh"
> > <weichiu@cloudera.com.INVALID&gt;;
> > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> >
> > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> >
> >
> > 圖片似乎還是無法顯示 煩請重發一次
> >
> > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> > wrote:
> >
> > &gt; hi
> > &gt;
> > &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> > &gt;
> > &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> > &gt; hbase2.1.0-cdh-6.3.2
> > &gt;
> > &gt; 目前多次遇到以下异常现象。
> > &gt;
> > &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> > Log还在replication队列中。如下图
> > &gt;
> > &gt;
> > &gt;
> > &gt;
> > &gt;
> > &gt; 图中积压的replication数据时间戳显示九月份
> > &gt;
> > &gt; 第二个异常,WALs oldWals目录异常庞大
> > &gt;
> > &gt; 主集群
> > &gt;
> > &gt;
> > &gt; 备集群
> > &gt;
> > &gt;
> > &gt; Replication相关线程的信息如下图
> > &gt;
> > &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> > &gt;
> > &gt;
> > &gt;
> >
>

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
hi
&nbsp;刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文


上午11点21:01.959分WARNReplicationSourceWAL group centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 queue size: 86709 exceeds value of replication.source.log.queue.warn: 2

上午11点21:01.979分WARNFanOutOneBlockAsyncDFSOutputHelpercomplete file /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 not finished, retry = 0

上午11点21:02.736分INFOAbstractFSWALToo many WALs; count=16512, max=256; forcing flush of 2 regions(s): ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98 
上午11点21:02.736分WARNLogRollerFailed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, region=null, requester=null 
上午11点21:02.736分WARNLogRollerFailed to schedule flush of a9e65042043cf6c122785aee3dd52d98, region=null, requester=null



------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "sudo rm -rf /*"                                                                                    <2326130720@qq.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:21
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
抄送:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



hi
&nbsp; &nbsp; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢




------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:05
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



图片还是看不到。。。

日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?

sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午10:45写道:

&gt; hi,
&gt;&nbsp;&nbsp; &nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
&gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt; 图片请查看附件,感谢感谢
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
&gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt; 记得之前你问过这个问题,我也回复过。
&gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <2326130720@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; hi
&gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <weichiu@cloudera.com.INVALID&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; 圖片似乎還是無法顯示 煩請重發一次
&gt;
&gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt;
&gt; wrote:
&gt;
&gt; &amp;gt; hi
&gt; &amp;gt;
&gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt; &amp;gt;
&gt; &amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; &amp;gt; hbase2.1.0-cdh-6.3.2
&gt; &amp;gt;
&gt; &amp;gt; 目前多次遇到以下异常现象。
&gt; &amp;gt;
&gt; &amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt; Log还在replication队列中。如下图
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
&gt; &amp;gt;
&gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt; &amp;gt;
&gt; &amp;gt; 主集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 备集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; Replication相关线程的信息如下图
&gt; &amp;gt;
&gt; &amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt;

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
hi
&nbsp; &nbsp; 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2021年1月4日(星期一) 中午11:05
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



图片还是看不到。。。

日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?

sudo rm -rf /* <2326130720@qq.com&gt; 于2021年1月4日周一 上午10:45写道:

&gt; hi,
&gt;&nbsp;&nbsp;&nbsp;&nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
&gt; log已经卡在一端有三个多月,我截图了ReplicationSource
&gt; 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
&gt; 图片请查看附件,感谢感谢
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "user-zh" <18031031@qq.com&gt;;
&gt; *发送时间:* 2021年1月2日(星期六) 晚上7:43
&gt; *收件人:* "user-zh"<user-zh@hbase.apache.org&gt;;
&gt; *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt; 记得之前你问过这个问题,我也回复过。
&gt; 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <2326130720@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; hi
&gt; 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt; "user-zh"
&gt; <weichiu@cloudera.com.INVALID&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
&gt;
&gt;
&gt;
&gt; 圖片似乎還是無法顯示 煩請重發一次
&gt;
&gt; On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt;
&gt; wrote:
&gt;
&gt; &amp;gt; hi
&gt; &amp;gt;
&gt; &amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt; &amp;gt;
&gt; &amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; &amp;gt; hbase2.1.0-cdh-6.3.2
&gt; &amp;gt;
&gt; &amp;gt; 目前多次遇到以下异常现象。
&gt; &amp;gt;
&gt; &amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
&gt; Log还在replication队列中。如下图
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 图中积压的replication数据时间戳显示九月份
&gt; &amp;gt;
&gt; &amp;gt; 第二个异常,WALs oldWals目录异常庞大
&gt; &amp;gt;
&gt; &amp;gt; 主集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 备集群
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; Replication相关线程的信息如下图
&gt; &amp;gt;
&gt; &amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt;

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.
图片还是看不到。。。

日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积?

sudo rm -rf /* <23...@qq.com> 于2021年1月4日周一 上午10:45写道:

> hi,
>     非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL
> log已经卡在一端有三个多月,我截图了ReplicationSource
> 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
> 图片请查看附件,感谢感谢
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <18...@qq.com>;
> *发送时间:* 2021年1月2日(星期六) 晚上7:43
> *收件人:* "user-zh"<us...@hbase.apache.org>;
> *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 记得之前你问过这个问题,我也回复过。
> 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
> "user-zh"
> <2326130720@qq.com&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> hi
> 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
> "user-zh"
> <weichiu@cloudera.com.INVALID&gt;;
> 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
>
>
> 圖片似乎還是無法顯示 煩請重發一次
>
> On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt;
> wrote:
>
> &gt; hi
> &gt;
> &gt; 刚刚那封邮件图片显示可能有问题,重发一次。
> &gt;
> &gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
> &gt; hbase2.1.0-cdh-6.3.2
> &gt;
> &gt; 目前多次遇到以下异常现象。
> &gt;
> &gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL
> Log还在replication队列中。如下图
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; 图中积压的replication数据时间戳显示九月份
> &gt;
> &gt; 第二个异常,WALs oldWals目录异常庞大
> &gt;
> &gt; 主集群
> &gt;
> &gt;
> &gt; 备集群
> &gt;
> &gt;
> &gt; Replication相关线程的信息如下图
> &gt;
> &gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> &gt;
> &gt;
> &gt;
>

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by sudo rm -rf /* <23...@qq.com>.
hi,
&nbsp; &nbsp; 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL log已经卡在一端有三个多月,我截图了ReplicationSource 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。
图片请查看附件,感谢感谢




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <18031031@qq.com&gt;;
发送时间:&nbsp;2021年1月2日(星期六) 晚上7:43
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



记得之前你问过这个问题,我也回复过。
你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?




------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
发件人:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <2326130720@qq.com&amp;gt;;
发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:27
收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;

主题:&amp;nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢




------------------ 原始邮件 ------------------
发件人:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <weichiu@cloudera.com.INVALID&amp;gt;;
发送时间:&amp;nbsp;2020年12月31日(星期四) 下午2:21
收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;

主题:&amp;nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



圖片似乎還是無法顯示 煩請重發一次

On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&amp;gt; wrote:

&amp;gt; hi
&amp;gt;
&amp;gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&amp;gt;
&amp;gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&amp;gt; hbase2.1.0-cdh-6.3.2
&amp;gt;
&amp;gt; 目前多次遇到以下异常现象。
&amp;gt;
&amp;gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt; 图中积压的replication数据时间戳显示九月份
&amp;gt;
&amp;gt; 第二个异常,WALs oldWals目录异常庞大
&amp;gt;
&amp;gt; 主集群
&amp;gt;
&amp;gt;
&amp;gt; 备集群
&amp;gt;
&amp;gt;
&amp;gt; Replication相关线程的信息如下图
&amp;gt;
&amp;gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&amp;gt;
&amp;gt;
&amp;gt;

回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Posted by zheng wang <18...@qq.com>.
记得之前你问过这个问题,我也回复过。
你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写?




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <2326130720@qq.com&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



hi
非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢




------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh"                                                                                    <weichiu@cloudera.com.INVALID&gt;;
发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象



圖片似乎還是無法顯示 煩請重發一次

On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130720@qq.com&gt; wrote:

&gt; hi
&gt;
&gt; 刚刚那封邮件图片显示可能有问题,重发一次。
&gt;
&gt; 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本
&gt; hbase2.1.0-cdh-6.3.2
&gt;
&gt; 目前多次遇到以下异常现象。
&gt;
&gt; 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL Log还在replication队列中。如下图
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 图中积压的replication数据时间戳显示九月份
&gt;
&gt; 第二个异常,WALs oldWals目录异常庞大
&gt;
&gt; 主集群
&gt;
&gt;
&gt; 备集群
&gt;
&gt;
&gt; Replication相关线程的信息如下图
&gt;
&gt; 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
&gt;
&gt;
&gt;