You are viewing a plain text version of this content. The canonical link for it is here.

Posted to user-zh@hbase.apache.org by sudo rm -rf /* <le...@qq.com> on 2020/07/22 03:29:57 UTC

回复： hbase 主备集群同时开启replication后WALs目录越积越大

主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls log上，这个数据包就一直卡着，不发。&nbsp;
重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&nbsp;




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2020年7月22日(星期三) 中午11:25
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



你看看为啥有一个region server的replication延迟很大？
是写入有热点？还是对面集群不收？

sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午10:59写道：

&gt; hi:
&gt; &amp;nbsp; &amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by zheng wang <18...@qq.com>.

之前我碰到过备集群(无写入)的wal积压的问题，原因在这个jira里有说明，你参考下：https://issues.apache.org/jira/browse/HBASE-23008









------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2020年7月22日(星期三) 中午12:09
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



对，你看看卡在哪了到底

sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午11:54写道：

&gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; binlijin@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt;
&gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午11:32写道：
&gt;
&gt; &amp;gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;nbsp;
&gt; &amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;amp;nbsp;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; <
&gt; &amp;gt; palomino219@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午10:59写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt;
&gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt;
&gt;
&gt;
&gt; --
&gt; *Best Regards,*
&gt; &amp;nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by zheng wang <18...@qq.com>.

还是白的，邮件列表应该是不支持图片或附件的吧？




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <leo9547@qq.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 下午4:22
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;回复： hbase 主备集群同时开启replication后WALs目录越积越大








重新上传了线程的图片，麻烦再帮忙看看


------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 下午4:18
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



对，看不到，一片白。

另外zheng wang你用的是什么邮件客户端，为啥我在gmail里每次看到的你邮件都是一堆转义字符，空格变成nbsp之类的。。。

zheng wang <18031031@qq.com&gt; 于2020年7月23日周四 下午2:21写道：

&gt; 看不到你贴的东西，一片白的。
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; <
&gt; leo9547@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月23日(星期四) 中午12:03
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复： hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 这是对ReplicationSource线程的监控，不知道对分析问题是否有帮助
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; <
&gt; zghaobac@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月23日(星期四) 上午9:00
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了
&gt;
&gt; zheng wang <18031031@qq.com&amp;gt; 于2020年7月22日周三 下午12:20写道：
&gt;
&gt; &amp;gt; 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; <
&gt; &amp;gt; palomino219@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午12:09
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 对，你看看卡在哪了到底
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午11:54写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; &amp;gt; &amp;amp;gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
&gt; &amp;gt; 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; &amp;gt; &amp;amp;gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; &amp;gt; &amp;amp;gt;
&gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; "user-zh"
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; <
&gt; &amp;gt; &amp;amp;gt; binlijin@gmail.com&amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;gt; 于2020年7月22日周三
&gt; 上午11:32写道：
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs
&gt; 依旧持续增加&amp;amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt;
&gt; ------------------&amp;amp;amp;amp;nbsp;原始邮件&amp;amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 发件人:
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; "user-zh"
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; <
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; palomino219@gmail.com&amp;amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 发送时间:&amp;amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 收件人:&amp;amp;amp;amp;nbsp;"user-zh"<
&gt; user-zh@hbase.apache.org
&gt; &amp;gt; &amp;amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 主题:&amp;amp;amp;amp;nbsp;Re: hbase
&gt; 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;amp;gt;
&gt; 于2020年7月22日周三
&gt; &amp;gt; 上午10:59写道：
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; &amp;amp;amp;amp;amp;nbsp;
&gt; &amp;amp;amp;amp;amp;nbsp;
&gt; &amp;gt; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; --
&gt; &amp;gt; &amp;amp;gt; *Best Regards,*
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by sudo rm -rf /* <le...@qq.com>.

重新上传了线程的图片，麻烦再帮忙看看


------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 下午4:18
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



对，看不到，一片白。

另外zheng wang你用的是什么邮件客户端，为啥我在gmail里每次看到的你邮件都是一堆转义字符，空格变成nbsp之类的。。。

zheng wang <18031031@qq.com&gt; 于2020年7月23日周四 下午2:21写道：

&gt; 看不到你贴的东西，一片白的。
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; leo9547@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月23日(星期四) 中午12:03
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复： hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 这是对ReplicationSource线程的监控，不知道对分析问题是否有帮助
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; zghaobac@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月23日(星期四) 上午9:00
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了
&gt;
&gt; zheng wang <18031031@qq.com&amp;gt; 于2020年7月22日周三 下午12:20写道：
&gt;
&gt; &amp;gt; 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; <
&gt; &amp;gt; palomino219@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午12:09
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 对，你看看卡在哪了到底
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午11:54写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; &amp;gt; &amp;amp;gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
&gt; &amp;gt; 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; &amp;gt; &amp;amp;gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; &amp;gt; &amp;amp;gt;
&gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; "user-zh"
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; <
&gt; &amp;gt; &amp;amp;gt; binlijin@gmail.com&amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;gt; 于2020年7月22日周三
&gt; 上午11:32写道：
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs
&gt; 依旧持续增加&amp;amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt;
&gt; ------------------&amp;amp;amp;amp;nbsp;原始邮件&amp;amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 发件人:
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; "user-zh"
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; <
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; palomino219@gmail.com&amp;amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 发送时间:&amp;amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 收件人:&amp;amp;amp;amp;nbsp;"user-zh"<
&gt; user-zh@hbase.apache.org
&gt; &amp;gt; &amp;amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 主题:&amp;amp;amp;amp;nbsp;Re: hbase
&gt; 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;amp;gt;
&gt; 于2020年7月22日周三
&gt; &amp;gt; 上午10:59写道：
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; &amp;amp;amp;amp;amp;nbsp;
&gt; &amp;amp;amp;amp;amp;nbsp;
&gt; &amp;gt; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; --
&gt; &amp;gt; &amp;amp;gt; *Best Regards,*
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by zheng wang <18...@qq.com>.

qq邮箱。。
我看看是不是哪里设置不对。




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 下午4:18
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



对，看不到，一片白。

另外zheng wang你用的是什么邮件客户端，为啥我在gmail里每次看到的你邮件都是一堆转义字符，空格变成nbsp之类的。。。

zheng wang <18031031@qq.com&gt; 于2020年7月23日周四 下午2:21写道：

&gt; 看不到你贴的东西，一片白的。
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; leo9547@qq.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月23日(星期四) 中午12:03
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;回复： hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; 这是对ReplicationSource线程的监控，不知道对分析问题是否有帮助
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; zghaobac@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月23日(星期四) 上午9:00
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了
&gt;
&gt; zheng wang <18031031@qq.com&amp;gt; 于2020年7月22日周三 下午12:20写道：
&gt;
&gt; &amp;gt; 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; <
&gt; &amp;gt; palomino219@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午12:09
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 对，你看看卡在哪了到底
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午11:54写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; &amp;gt; &amp;amp;gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
&gt; &amp;gt; 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; &amp;gt; &amp;amp;gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; &amp;gt; &amp;amp;gt;
&gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; "user-zh"
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; <
&gt; &amp;gt; &amp;amp;gt; binlijin@gmail.com&amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;gt; 于2020年7月22日周三
&gt; 上午11:32写道：
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs
&gt; 依旧持续增加&amp;amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt;
&gt; ------------------&amp;amp;amp;amp;nbsp;原始邮件&amp;amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 发件人:
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; "user-zh"
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; <
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; palomino219@gmail.com&amp;amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 发送时间:&amp;amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 收件人:&amp;amp;amp;amp;nbsp;"user-zh"<
&gt; user-zh@hbase.apache.org
&gt; &amp;gt; &amp;amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 主题:&amp;amp;amp;amp;nbsp;Re: hbase
&gt; 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;amp;gt;
&gt; 于2020年7月22日周三
&gt; &amp;gt; 上午10:59写道：
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; &amp;amp;amp;amp;amp;nbsp;
&gt; &amp;amp;amp;amp;amp;nbsp;
&gt; &amp;gt; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; --
&gt; &amp;gt; &amp;amp;gt; *Best Regards,*
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp;lijin bin

Re: hbase 主备集群同时开启replication后WALs目录越积越大

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.

对，看不到，一片白。

另外zheng wang你用的是什么邮件客户端，为啥我在gmail里每次看到的你邮件都是一堆转义字符，空格变成nbsp之类的。。。

zheng wang <18...@qq.com> 于2020年7月23日周四 下午2:21写道：

> 看不到你贴的东西，一片白的。
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> leo9547@qq.com&gt;;
> 发送时间:&nbsp;2020年7月23日(星期四) 中午12:03
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;回复： hbase 主备集群同时开启replication后WALs目录越积越大
>
>
>
>
>
>
>
> 这是对ReplicationSource线程的监控，不知道对分析问题是否有帮助
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> zghaobac@gmail.com&gt;;
> 发送时间:&nbsp;2020年7月23日(星期四) 上午9:00
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
>
>
>
> 需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了
>
> zheng wang <18031031@qq.com&gt; 于2020年7月22日周三 下午12:20写道：
>
> &gt; 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> &nbsp; "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> &nbsp; <
> &gt; palomino219@gmail.com&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午12:09
> &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
> &gt;
> &gt;
> &gt;
> &gt; 对，你看看卡在哪了到底
> &gt;
> &gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午11:54写道：
> &gt;
> &gt; &amp;gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
> &gt; &amp;gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
> &gt; 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
> &gt; &amp;gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
> &gt; &amp;gt;
> ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
> &gt; &amp;gt; 发件人:
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; "user-zh"
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; <
> &gt; &amp;gt; binlijin@gmail.com&amp;amp;gt;;
> &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午11:38
> &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
> &amp;amp;gt;;
> &gt; &amp;gt;
> &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
> &gt; &amp;gt;
> &gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三
> 上午11:32写道：
> &gt; &amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
> &gt; &amp;gt; &amp;amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;amp;nbsp;
> &gt; &amp;gt; &amp;amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs
> 依旧持续增加&amp;amp;amp;nbsp;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt;
> ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
> &gt; &amp;gt; &amp;amp;gt; 发件人:
> &gt; &amp;gt;
> &gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; &amp;gt; "user-zh"
> &gt; &amp;gt;
> &gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; &amp;gt; <
> &gt; &amp;gt; &amp;amp;gt; palomino219@gmail.com&amp;amp;amp;gt;;
> &gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
> &gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<
> user-zh@hbase.apache.org
> &gt; &amp;amp;amp;gt;;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: hbase
> 主备集群同时开启replication后WALs目录越积越大
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; 你看看为啥有一个region server的replication延迟很大？
> &gt; &amp;gt; &amp;amp;gt; 是写入有热点？还是对面集群不收？
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;gt;
> 于2020年7月22日周三
> &gt; 上午10:59写道：
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; hi:
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;nbsp;
> &amp;amp;amp;amp;nbsp;
> &gt; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt;
> 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> log，我们通过重建peeer,重启集群，这部分积累的WALs才
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; --
> &gt; &amp;gt; *Best Regards,*
> &gt; &amp;gt; &amp;amp;nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by zheng wang <18...@qq.com>.

看不到你贴的东西，一片白的。




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <leo9547@qq.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 中午12:03
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;回复： hbase 主备集群同时开启replication后WALs目录越积越大







这是对ReplicationSource线程的监控，不知道对分析问题是否有帮助




------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh"                                                                                    <zghaobac@gmail.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 上午9:00
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了

zheng wang <18031031@qq.com&gt; 于2020年7月22日周三 下午12:20写道：

&gt; 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; <
&gt; palomino219@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午12:09
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 对，你看看卡在哪了到底
&gt;
&gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午11:54写道：
&gt;
&gt; &amp;gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; &amp;gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
&gt; 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; &amp;gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; &amp;gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; <
&gt; &amp;gt; binlijin@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午11:32写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; &amp;amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; "user-zh"
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; <
&gt; &amp;gt; &amp;amp;gt; palomino219@gmail.com&amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; &amp;amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;gt; 于2020年7月22日周三
&gt; 上午10:59写道：
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;nbsp; &amp;amp;amp;amp;nbsp;
&gt; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; --
&gt; &amp;gt; *Best Regards,*
&gt; &amp;gt; &amp;amp;nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by sudo rm -rf /* <le...@qq.com>.

这是对ReplicationSource线程的监控，不知道对分析问题是否有帮助




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <zghaobac@gmail.com&gt;;
发送时间:&nbsp;2020年7月23日(星期四) 上午9:00
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了

zheng wang <18031031@qq.com&gt; 于2020年7月22日周三 下午12:20写道：

&gt; 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; palomino219@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午12:09
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 对，你看看卡在哪了到底
&gt;
&gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午11:54写道：
&gt;
&gt; &amp;gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; &amp;gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
&gt; 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; &amp;gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; &amp;gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; <
&gt; &amp;gt; binlijin@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午11:32写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; &amp;amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;amp;amp;nbsp;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; "user-zh"
&gt; &amp;gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &amp;gt; <
&gt; &amp;gt; &amp;amp;gt; palomino219@gmail.com&amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
&gt; &amp;amp;amp;gt;;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; &amp;amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;amp;gt; 于2020年7月22日周三
&gt; 上午10:59写道：
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; &amp;amp;amp;amp;nbsp; &amp;amp;amp;amp;nbsp;
&gt; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; --
&gt; &amp;gt; *Best Regards,*
&gt; &amp;gt; &amp;amp;nbsp;lijin bin

Re: hbase 主备集群同时开启replication后WALs目录越积越大

Posted by Guanghao Zhang <zg...@gmail.com>.

需要多次jstack看看replicationSource线程卡在哪里，可能就是卡在某个循环里出不来了

zheng wang <18...@qq.com> 于2020年7月22日周三 下午12:20写道：

> 2.0.x 都有这个问题，2.1.0不确定，但很可能也有。
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> palomino219@gmail.com&gt;;
> 发送时间:&nbsp;2020年7月22日(星期三) 中午12:09
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
>
>
>
> 对，你看看卡在哪了到底
>
> sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午11:54写道：
>
> &gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
> &gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs
> 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
> &gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
> &gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> <
> &gt; binlijin@gmail.com&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午11:38
> &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
> &gt;
> &gt;
> &gt;
> &gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
> &gt;
> &gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午11:32写道：
> &gt;
> &gt; &amp;gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
> &gt; &amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;nbsp;
> &gt; &amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;amp;nbsp;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
> &gt; &amp;gt; 发件人:
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; "user-zh"
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; <
> &gt; &amp;gt; palomino219@gmail.com&amp;amp;gt;;
> &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
> &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org
> &amp;amp;gt;;
> &gt; &amp;gt;
> &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 你看看为啥有一个region server的replication延迟很大？
> &gt; &amp;gt; 是写入有热点？还是对面集群不收？
> &gt; &amp;gt;
> &gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三
> 上午10:59写道：
> &gt; &amp;gt;
> &gt; &amp;gt; &amp;amp;gt; hi:
> &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp;
> 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
> &gt; &amp;gt; &amp;amp;gt;
> &gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
> &gt; &amp;gt; &amp;amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
> &gt; &amp;gt; &amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
> &gt;
> &gt;
> &gt;
> &gt; --
> &gt; *Best Regards,*
> &gt; &amp;nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by zheng wang <18...@qq.com>.

2.0.x 都有这个问题，2.1.0不确定，但很可能也有。




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <palomino219@gmail.com&gt;;
发送时间:&nbsp;2020年7月22日(星期三) 中午12:09
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



对，你看看卡在哪了到底

sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午11:54写道：

&gt; 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
&gt; 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
&gt; 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
&gt; ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
&gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; binlijin@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午11:38
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
&gt;
&gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午11:32写道：
&gt;
&gt; &amp;gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; &amp;gt; log上，这个数据包就一直卡着，不发。&amp;amp;nbsp;
&gt; &amp;gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;amp;nbsp;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; <
&gt; &amp;gt; palomino219@gmail.com&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 你看看为啥有一个region server的replication延迟很大？
&gt; &amp;gt; 是写入有热点？还是对面集群不收？
&gt; &amp;gt;
&gt; &amp;gt; sudo rm -rf /* <leo9547@qq.com&amp;amp;gt; 于2020年7月22日周三 上午10:59写道：
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; hi:
&gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; &amp;amp;gt;
&gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; &amp;amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; &amp;amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
&gt;
&gt;
&gt;
&gt; --
&gt; *Best Regards,*
&gt; &amp;nbsp;lijin bin

Re: hbase 主备集群同时开启replication后WALs目录越积越大

Posted by "张铎 (Duo Zhang)" <pa...@gmail.com>.

对，你看看卡在哪了到底

sudo rm -rf /* <le...@qq.com> 于2020年7月22日周三 上午11:54写道：

> 机器已经重启过了，现在replication是没有延时的，昨天的异常场景
> 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
> 还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush
> ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major
>
>
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> binlijin@gmail.com&gt;;
> 发送时间:&nbsp;2020年7月22日(星期三) 中午11:38
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
>
>
>
> 你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段
>
> sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午11:32写道：
>
> &gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
> &gt; log上，这个数据包就一直卡着，不发。&amp;nbsp;
> &gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;nbsp;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> <
> &gt; palomino219@gmail.com&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午11:25
> &gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
> &gt;
> &gt;
> &gt;
> &gt; 你看看为啥有一个region server的replication延迟很大？
> &gt; 是写入有热点？还是对面集群不收？
> &gt;
> &gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午10:59写道：
> &gt;
> &gt; &amp;gt; hi:
> &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
> &gt; &amp;gt;
> 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
> &gt; &amp;gt;
> &gt;
> 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
> &gt; &amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt;
> 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt;
> 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
> &gt; &amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。
>
>
>
> --
> *Best Regards,*
> &nbsp;lijin bin

回复： hbase 主备集群同时开启replication后WALs目录越积越大

Posted by sudo rm -rf /* <le...@qq.com>.

机器已经重启过了，现在replication是没有延时的，昨天的异常场景 现在没办法重现，只是重启过机器后，replication已经没有延时了，WALs 还在持续增长，现在WALs的量从昨晚到现在已经增至670G，
还在持续增长，我们RegionServer是5台，RS的堆内存设置的是32G，按理说数据持续flush ，replication又没有延时，WALS应该及时被清理才对。我们的MajorCompact是手动触发的，目前禁用了Major






------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <binlijin@gmail.com&gt;;
发送时间:&nbsp;2020年7月22日(星期三) 中午11:38
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大



你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段

sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午11:32写道：

&gt; 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
&gt; log上，这个数据包就一直卡着，不发。&amp;nbsp;
&gt; 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&amp;nbsp;
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; palomino219@gmail.com&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年7月22日(星期三) 中午11:25
&gt; 收件人:&amp;nbsp;"user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
&gt;
&gt;
&gt;
&gt; 你看看为啥有一个region server的replication延迟很大？
&gt; 是写入有热点？还是对面集群不收？
&gt;
&gt; sudo rm -rf /* <leo9547@qq.com&amp;gt; 于2020年7月22日周三 上午10:59写道：
&gt;
&gt; &amp;gt; hi:
&gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
&gt; &amp;gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
&gt; &amp;gt;
&gt; 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
&gt; &amp;gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
&gt; &amp;gt;
&gt; &amp;gt;
&gt; 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
&gt; &amp;gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。



-- 
*Best Regards,*
&nbsp;lijin bin

Re: hbase 主备集群同时开启replication后WALs目录越积越大

Posted by 宾莉金（binlijin） <bi...@gmail.com>.

你把延迟严重的regionserver的jstack发出来看看replication主要耗时在那个阶段

sudo rm -rf /* <le...@qq.com> 于2020年7月22日周三 上午11:32写道：

> 主备集群两边是通的，重启之前某一个RegionServer的replication队列一直积压，是卡在了一个WAls
> log上，这个数据包就一直卡着，不发。&nbsp;
> 重启之后，主备集群两边的replication延时都没有了，但是WALs 依旧持续增加&nbsp;
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> palomino219@gmail.com&gt;;
> 发送时间:&nbsp;2020年7月22日(星期三) 中午11:25
> 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
>
> 主题:&nbsp;Re: hbase 主备集群同时开启replication后WALs目录越积越大
>
>
>
> 你看看为啥有一个region server的replication延迟很大？
> 是写入有热点？还是对面集群不收？
>
> sudo rm -rf /* <leo9547@qq.com&gt; 于2020年7月22日周三 上午10:59写道：
>
> &gt; hi:
> &gt; &amp;nbsp; &amp;nbsp; 我们线上集群的版本是cdh6.3.2-hbase2.1.0,
> &gt; 主备双集群，备集群作为容灾集群。两集群开启了replication，且互相replication。最近发现，主集群的WALs目录持续增加，
> &gt;
> 十几天膨胀到十几个T，排查后发现某一个RegionServer节点的replication延迟很大，复制队列中积累了大量的数据，延迟卡在了十几天前的WALs
> &gt; log，我们通过重建peeer,重启集群，这部分积累的WALs才
> &gt;
> &gt;
> 被移动到oldWALs目录中，然后被清除了。重启完集群，replication的延时没了，但现在依然发现，WALs持续在增加，但此时replication的状态是正常的。
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> 与之对应的是备集群的oldWALs目录持续膨胀，不会被清除，实在不知道这样的问题该如何去分析，我们开启replication的过程参考的是官网的步骤。replication的相关参数，用的是默认的。
> &gt; 还麻烦张老师帮忙看一下，该怎么去分析这个问题。



-- 
*Best Regards,*
 lijin bin