You are viewing a plain text version of this content. The canonical link for it is here.
Posted to commits@rocketmq.apache.org by ji...@apache.org on 2023/02/27 02:07:12 UTC
[rocketmq-site] branch new-official-website updated: Remove a user case and update the mse image (#517)

This is an automated email from the ASF dual-hosted git repository.

jinrongtong pushed a commit to branch new-official-website
in repository https://gitbox.apache.org/repos/asf/rocketmq-site.git


The following commit(s) were added to refs/heads/new-official-website by this push:
     new 36817796e Remove a user case and update the mse image (#517)
36817796e is described below

commit 36817796ea223df9a983ea1fdd8e365b85b2cd8c
Author: Jack Tsai <ts...@outlook.com>
AuthorDate: Mon Feb 27 10:07:07 2023 +0800

    Remove a user case and update the mse image (#517)
    
    Co-authored-by: tsaitsung-han.tht <ts...@alibaba-inc.com>
---
 blog/01xiaohongshu.md | 96 ---------------------------------------------------
 docusaurus.config.js  |  1 -
 2 files changed, 97 deletions(-)

diff --git a/blog/01xiaohongshu.md b/blog/01xiaohongshu.md
deleted file mode 100644
index 69125391e..000000000
--- a/blog/01xiaohongshu.md
+++ /dev/null
@@ -1,96 +0,0 @@
----
-title: 小红书消息中间件的运维实践与治理之路
-description: 小红书消息中间件的运维实践与治理之路
-hide_table_of_contents: false
----
-
-
-<!--truncate-->
-
-## 1. 消息队列业务场景与挑战
-
-### 1.1 整体规模
-
-下图展示了 RocketMQ 和 Kafka 的总体规模。其中峰值  TPS 的 8000w/s 一般出现在晚上下班以后的时间段，写入量达到50GB/s，每天新增2-3PB数据，节点数1200+个。
-
-<img src="https://tva1.sinaimg.cn/large/e6c9d24egy1h3gaz0px0oj21c40bumyo.jpg
-" alt="Example banner" />;
-
-### 1.2 业务架构
-
-虽然 RocketMQ 和 Kafka 的性能相似，但在使用场景上还是有所区别的。RocketMQ 丰富的业务特性更适用于在线业务场景，而 Kafka 的高吞吐性使其更偏向离线、近线业务。当然，在实际应用中也会有交叉使用的现象，有时在线业务也会使用 Kafka 解耦，有的流处理数据也会使用 RocketMQ 存储。
-
-业务总体架构如下图所示，业务日志和APP用户行为打点类的内容会发给 Kafka，数据库增量日志、在线业务、线上数据交换等会发给 RocketMQ。Kafka 和 RocketMQ 中的数据会有一部分流入 flink 中构建实时数仓、离线数仓以及一些数据产品（如报表、监控，等），RocketMQ 中另一部分数据会用于在线业务APP异步解耦。
-
-
-
-<img src="https://tva1.sinaimg.cn/large/e6c9d24egy1h3gb1can0cj21c60no40y.jpg
-" alt="Example banner" />;
-
-### 1.3 稳定性挑战
-a.   背景：
-小红书整体收敛消息组件较晚，公司技术架构最大的目标是提升系统稳定性；
-
-b.   挑战：
-现存消息组件使用量极大，但没有稳定性保障；同时面临人手紧缺、时间紧，对MQ原理了解不深入的困境；
-
-c.   策略：
-先做监控，增强集群的可观测能力是了解其健康状况的最高效手段。
-
-### 1.4 稳定性治理
-
-除了监控告警，我们在稳定性治理方面还做了以下改造工作：
-1. 引擎：资源隔离，新增监控打点等；
-2. 平台：工单审核，权限管控，业务追溯；
-3. 治理：针对集群可视化能力和集群可运维能力的建设；
-
-
-<img src="https://tva1.sinaimg.cn/large/e6c9d24egy1h3gb3mslkpj21680scabg.jpg
-" alt="Example banner" />;
-
-## 2. 消息队列治理实践
-
-### 2.1、集群可视化：监控metrics
-
-下图是基于 Prometheus Grafana 构建的消息中间件体系架构。
-
-
-<img src="https://tva1.sinaimg.cn/large/e6c9d24ely1h56gvs5vfij20st0gwac3.jpg
-" alt="Example banner" />;
-
-图中包含三个监控维度：硬件维度、服务维度和业务维度，累计收集监控指标150+项。
-
-那么如何定义这三个维度的监控指标呢？
-
-1. 硬件维度：主要包括网络带宽、CPU使用率、磁盘容量/IO、TCP丢包/延迟等资源指标；
-
-2. 服务维度：主要指运行状况的指标，如：宕机监控、JVM指标、读写时延、请求队列等；
-
-3. 业务维度：即面向用户的指标，这是客户比较关心的指标，如：消费延迟/积压、QPS、Topic吞吐量、Offset等；
-
-
-
-由于公司内部规定一个节点只能使用一个端口给Prometheus，而各项监控指标大多是分开收集，于是设计了指标聚合服务 MAS 将所有指标汇集在一起，同时又增加了一些元信息帮助进一步排查问题。这里 MAS 相当于metric 的一个代理层，可以根据业务的实际情况来添加。
-
-### 2.2 告警处理
-下图列举了一些发生在监控体系刚建立时候的告警信息，当时每天的告警信息约有600-700条之多，告警的问题也是各式各样，根本无法处理，造成监控系统形同虚设。
-
-
-
-<img src="https://tva1.sinaimg.cn/large/e6c9d24ely1h56gx5m8poj20bv0h9t9b.jpg" alt="Example banner"/>;
-
-鉴于以上情况，我们提出监控的核心原则要宁缺毋滥，不要淹没在告警海中，告警太多和没有告警没什么区别。根据这一原则制定了一系列应对策略：
-
-初期：关闭低优告警，以确保每一条高优告警能得到及时发现和处理；
-
-中期：随着高优告警的减少，逐步打开之前屏蔽的告警，进一步处理，实现告警数量逐步减少；
-
-后期：打开全部告警，确保日常告警每一条都能及时发现和处理。
-
-
-
-根据我们的经验，到后期基本不会有“服务不可用”这类的告警，大部分告警属于预警，如果预警能及时介入处理，就可以确保在问题进一步扩大之前解决。
-
-
-
-
diff --git a/docusaurus.config.js b/docusaurus.config.js
index ca4a0a619..c9e4e015c 100644
--- a/docusaurus.config.js
+++ b/docusaurus.config.js
@@ -31,7 +31,6 @@ const darkCodeTheme = require("prism-react-renderer/themes/dracula");
     scripts: [
       {
         src: '//g.alicdn.com/mamba/assets/0.0.10/mse-arc-ui.min.js',
-        async: true
       },
     ],
     stylesheets: [