You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@hbase.apache.org by ww...@sina.com on 2020/07/22 12:55:15 UTC

回复:回复:Re: 开启replication后,hbase读写性能下降问题

hi:
我是8点41暂停复制的,暂停之后,load下降了好多,复制对cpu的影响这么大!?



----- 原始邮件 -----
发件人:"zheng wang" <18...@qq.com>
收件人:"user-zh" <us...@hbase.apache.org>
主题:回复:Re: 开启replication后,hbase读写性能下降问题
日期:2020年07月21日 15点04分

replication确实是异步的,影响主要是在资源上,比如GC暂停、IO等待这些。
------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh@hbase.apache.orgww112925@sina.com"                                                                                    <ww112925@sina.com&gt;;
发送时间: 2020年7月21日(星期二) 中午1:37
收件人: "user-zh"<user-zh@hbase.apache.org&gt;;
主题: 回复:Re: 开启replication后,hbase读写性能下降问题
写入每秒3万,只有一个peer。 看了下磁盘的写入每秒在4-5M,读取在1M,这个写入量对ssd应该没什么压力吧。
我理解replication的过程应该是异步的,为什么会对读取和写入造成那么大的影响。
该怎么看瓶颈在哪?
----- 原始邮件 -----
发件人:张铎(Duo Zhang) <palomino219@gmail.com&gt;
收件人:user-zh <user-zh@hbase.apache.org&gt;
主题:Re: 开启replication后,hbase读写性能下降问题
日期:2020年07月21日 12点19分
写入的很猛吗?需要看看瓶颈在哪,我们之前遇到过peer很多的情况下,replication对HDFS的压力很大,因为每个peer都要读一遍WAL。
你这个是SSD的话,看起来是replication本身对region server的压力很大?
zheng wang <18031031@qq.com&gt; 于2020年7月21日周二 下午12:05写道:
&gt; 可以考虑对replication限速。
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt;
&gt; "user-zh@hbase.apache.orgww112925@sina.com"
&gt;                                                       <ww112925@sina.com
&gt; &amp;gt;;
&gt; 发送时间: 2020年7月21日(星期二) 中午11:51
&gt; 收件人: "user-zh"<user-zh@hbase.apache.org&amp;gt;;
&gt;
&gt; 主题: 开启replication后,hbase读写性能下降问题
&gt;
&gt;
&gt;
&gt;
&gt; 在开启hbase的replication后,集群的slowGetCount和slowPutCount都会大幅增长。请问这种情况怎么解决。
&gt; 开启复制之后,日志里边还有大量的slow sync日志。日志如下:
&gt; 2020-07-21 11:08:11,314 INFO
&gt; org.apache.hadoop.hbase.regionserver.wal.AbstractFSWAL: Slow sync cost: 635
&gt; ms, current pipeline:
&gt; [DatanodeInfoWithStorage[xxxxx:9866,DS-6522f59f-3ca9-46a9-b25a-5d86cdbb656e,SSD],
&gt; DatanodeInfoWithStorage[xxxxx:9866,DS-8768f8b8-732f-4238-b51d-90ba83343353,SSD],
&gt; DatanodeInfoWithStorage[xxxxx:9866,DS-a5792087-6c58-4600-a239-9a1f61f1c6c0,SSD]]2020-07-21
&gt; 11:08:11,315 INFO org.apache.hadoop.hbase.regionserver.wal.AbstractFSWAL:
&gt; Slow sync cost: 564 ms, current pipeline:
&gt; [DatanodeInfoWithStorage[xxxxx:9866,DS-6522f59f-3ca9-46a9-b25a-5d86cdbb656e,SSD],
&gt; DatanodeInfoWithStorage[xxxxx:9866,DS-8768f8b8-732f-4238-b51d-90ba83343353,SSD],
&gt; DatanodeInfoWithStorage[xxxxx:9866,DS-a5792087-6c58-4600-a239-9a1f61f1c6c0,SSD]]2020-07-21
&gt; 11:08:11,315 INFO org.apache.hadoop.hbase.regionserver.wal.AbstractFSWAL:
&gt; Slow sync cost: 535 ms, current pipeline:
&gt; [DatanodeInfoWithStorage[xxxxx:9866,DS-6522f59f-3ca9-46a9-b25a-5d86cdbb656e,SSD],
&gt; DatanodeInfoWithStorage[xxxxx:9866,DS-8768f8b8-732f-4238-b51d-90ba83343353,SSD],
&gt; DatanodeInfoWithStorage[xxxxx:9866,DS-a5792087-6c58-4600-a239-9a1f61f1c6c0,SSD]]

回复:回复:Re: 开启replication后,hbase读写性能下降问题

Posted by zheng wang <18...@qq.com>.
可以确认下是哪些线程消耗的cpu。
具体方法参考:https://blog.csdn.net/liangwenmail/article/details/87874067




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh@hbase.apache.orgww112925@sina.com"                                                                                    <ww112925@sina.com&gt;;
发送时间:&nbsp;2020年7月22日(星期三) 晚上8:55
收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;

主题:&nbsp;回复:回复:Re: 开启replication后,hbase读写性能下降问题



hi:
我是8点41暂停复制的,暂停之后,load下降了好多,复制对cpu的影响这么大!?



----- 原始邮件 -----
发件人:"zheng wang" <18031031@qq.com&gt;
收件人:"user-zh" <user-zh@hbase.apache.org&gt;
主题:回复:Re: 开启replication后,hbase读写性能下降问题
日期:2020年07月21日 15点04分

replication确实是异步的,影响主要是在资源上,比如GC暂停、IO等待这些。
------------------ 原始邮件 ------------------
发件人:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh@hbase.apache.orgww112925@sina.com"&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <ww112925@sina.com&amp;gt;;
发送时间: 2020年7月21日(星期二) 中午1:37
收件人: "user-zh"<user-zh@hbase.apache.org&amp;gt;;
主题: 回复:Re: 开启replication后,hbase读写性能下降问题
写入每秒3万,只有一个peer。 看了下磁盘的写入每秒在4-5M,读取在1M,这个写入量对ssd应该没什么压力吧。
我理解replication的过程应该是异步的,为什么会对读取和写入造成那么大的影响。
该怎么看瓶颈在哪?
----- 原始邮件 -----
发件人:张铎(Duo Zhang) <palomino219@gmail.com&amp;gt;
收件人:user-zh <user-zh@hbase.apache.org&amp;gt;
主题:Re: 开启replication后,hbase读写性能下降问题
日期:2020年07月21日 12点19分
写入的很猛吗?需要看看瓶颈在哪,我们之前遇到过peer很多的情况下,replication对HDFS的压力很大,因为每个peer都要读一遍WAL。
你这个是SSD的话,看起来是replication本身对region server的压力很大?
zheng wang <18031031@qq.com&amp;gt; 于2020年7月21日周二 下午12:05写道:
&amp;gt; 可以考虑对replication限速。
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt; ------------------ 原始邮件 ------------------
&amp;gt; 发件人:
&amp;gt;
&amp;gt; "user-zh@hbase.apache.orgww112925@sina.com"
&amp;gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <ww112925@sina.com
&amp;gt; &amp;amp;gt;;
&amp;gt; 发送时间: 2020年7月21日(星期二) 中午11:51
&amp;gt; 收件人: "user-zh"<user-zh@hbase.apache.org&amp;amp;gt;;
&amp;gt;
&amp;gt; 主题: 开启replication后,hbase读写性能下降问题
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt;
&amp;gt; 在开启hbase的replication后,集群的slowGetCount和slowPutCount都会大幅增长。请问这种情况怎么解决。
&amp;gt; 开启复制之后,日志里边还有大量的slow sync日志。日志如下:
&amp;gt; 2020-07-21 11:08:11,314 INFO
&amp;gt; org.apache.hadoop.hbase.regionserver.wal.AbstractFSWAL: Slow sync cost: 635
&amp;gt; ms, current pipeline:
&amp;gt; [DatanodeInfoWithStorage[xxxxx:9866,DS-6522f59f-3ca9-46a9-b25a-5d86cdbb656e,SSD],
&amp;gt; DatanodeInfoWithStorage[xxxxx:9866,DS-8768f8b8-732f-4238-b51d-90ba83343353,SSD],
&amp;gt; DatanodeInfoWithStorage[xxxxx:9866,DS-a5792087-6c58-4600-a239-9a1f61f1c6c0,SSD]]2020-07-21
&amp;gt; 11:08:11,315 INFO org.apache.hadoop.hbase.regionserver.wal.AbstractFSWAL:
&amp;gt; Slow sync cost: 564 ms, current pipeline:
&amp;gt; [DatanodeInfoWithStorage[xxxxx:9866,DS-6522f59f-3ca9-46a9-b25a-5d86cdbb656e,SSD],
&amp;gt; DatanodeInfoWithStorage[xxxxx:9866,DS-8768f8b8-732f-4238-b51d-90ba83343353,SSD],
&amp;gt; DatanodeInfoWithStorage[xxxxx:9866,DS-a5792087-6c58-4600-a239-9a1f61f1c6c0,SSD]]2020-07-21
&amp;gt; 11:08:11,315 INFO org.apache.hadoop.hbase.regionserver.wal.AbstractFSWAL:
&amp;gt; Slow sync cost: 535 ms, current pipeline:
&amp;gt; [DatanodeInfoWithStorage[xxxxx:9866,DS-6522f59f-3ca9-46a9-b25a-5d86cdbb656e,SSD],
&amp;gt; DatanodeInfoWithStorage[xxxxx:9866,DS-8768f8b8-732f-4238-b51d-90ba83343353,SSD],
&amp;gt; DatanodeInfoWithStorage[xxxxx:9866,DS-a5792087-6c58-4600-a239-9a1f61f1c6c0,SSD]]